Fóruns: POPFile 初学者専用 (Thread #7735)

POPFile はどこまで賢くなるのか? (2005-05-24 20:35 by Anônimo #14352)

 皆さん今日は。

 素朴な疑問なのですが、POPFile の分類精度は、どの程度まで上がるのでしょうか? バケツの数は 2 つで、popfile.db のファイル・サイズが 4.6 MB なのですが、最近 99.5% 程度で頭打ちしています。(エラーが起きたときに、精度は [リセット] しています。)

 このまま学習させていけば、まだまだ精度は上がるのでしょうか? 皆さんの環境では、精度はどの程度なのでしょう?

Responder a #14352×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: POPFile はどこまで賢くなるのか? (2005-05-24 23:06 by amatubu #14357)

どちらかというと「オフ・トピック」ネタかもしれませんが、
そのまま返信します。

POPFile の統計情報を集計した、
http://popfile.sourceforge.net/popfile_stats.html
というサイトがあります。
他の方がどのような感じなのかはこちらが参考になるのでは
ないでしょうか。これによれば、精度100%を達成して
いる方も、わずかではありますが、いるようです。

私の環境では、2箇所で別々に使っていて、それぞれ
99.6%、99.1% くらいです。
新手の spam が届くと精度が下がったりするので、
どこまで、というのはなんともいえないでしょう。
(これまでの傾向から確率を導き出すという理論です
 から、これまでの傾向とは違うものが届けば精度が
 落ちることもあるということです)
Responder a #14352

Responder a #14357×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: POPFile はどこまで賢くなるのか? (2005-05-26 19:53 by Anônimo #14385)

 amatubu さん、kei_watanabe さん今日は、コメント有り難うございました。

 もし普通に学習させていけば、99.9% 程度になるなら、最終的には、spam 判定された mail は直ちに削除することも出来ると考えていたのですが、そういうわけにはいかないようですね。

 もちろん spam でない mail を spam と誤認識することが無ければよいのですが、英文の mail でまだ誤認識がある状態です。(日本語より spam でない mail が少ないので致し方ない。)

 どうも有り難うございました。
Responder a #14357

Responder a #14385×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: POPFile はどこまで賢くなるのか? (2005-05-26 20:21 by kei_watanabe #14387)

そうですね。
だいぶマシな状況にはしてくれますが、どうしても完全とはいかないですね・・・。

> ~Hな大人の交際~
> 直アド交換�
> 秘密の写メ交換機能
> 一日平均120万アクセスの大人の交際コミュニティー
> 毎日500組近いカップルが成立しています

今日、こんなあからさまにSPAMくさいのが[unclassified]になってしまいました。
画像を全部エンコードしてくっつけてあったので、幻惑されたのかもしれません。

体感的な撃墜率としては、英語の方がだいぶ分が悪いです。あっちは回避技術の研究が進んでいるのではないかと思います。
ベイジアン理論に認証とかの他の手法も組み合わせた、さらなる識別技術の追求の余地があると私は思っています。
Responder a #14385

Responder a #14387×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: POPFile はどこまで賢くなるのか? (2005-05-26 23:10 by amatubu #14391)

画像等の影響でごまかされてしまうのだとしたら問題ですね。
もしよろしければ、ヘッダも含めて(サーバの情報等は伏せて
いただいてかまいません)送っていただけますでしょうか。

英語のメールについては、すでに書きましたが私の環境では
ほとんど誤認識はありません(最近は誤認識があったという
記憶がありません)。受信しているメールが偏っているせい
かもしれませんが。
Responder a #14387

Responder a #14391×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: POPFile はどこまで賢くなるのか? (2005-05-26 23:05 by amatubu #14390)

徐々に 100% に近づくとは思いますが、100% になることはない
でしょうね。99.9% であっても、1000 通に 1 通くらいは間違える
ということで、そのたった 1 通のメールがとても重要なものかも
知れないのですからやはりチェックは必要だと思います。
(チェックが必要なくなるのではなくて、楽になる、というもの
 だと思います)
Responder a #14385

Responder a #14390×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: POPFile はどこまで賢くなるのか? (2005-05-26 13:42 by kei_watanabe #14380)

こんにちは。

うちのpopfileは、厳しい教育(?)の結果
分類されたメール数: 29,121
分類エラーの数:    539
精度:   98.14%
(最後のリセット: Sun Jan 30 01:25:33 2005 )
という成績になっています。
運用1週間目あたり、一通り学習したかなというところでいちどリセットしてあります。

バケツは 企業、友人、ML、洋Junk、和Junk、サーバーログ、Unclassified と
分類させています。

日本語のジャンクメールについては、ほぼ確実に撃墜できています。
英語の方は厳しいです。伏せ字のバリエーションが多すぎて、こうなると伏せ字をデコードする推論回路が必要ではないかと思います。

ではでは。
Responder a #14352

Responder a #14380×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: POPFile はどこまで賢くなるのか? (2005-05-26 23:00 by amatubu #14389)

うちでは現在
分類されたメール数: 1,251
分類エラーの数: 9
1 日あたりのメール数: 42
精度: 99.28%
という感じです(バケツは4つありますが、2つはマグネット専用で、
あとは inbox と spam のみ)。

Watanabe さんとは傾向が違って、英語の spam の分類に失敗する
ことはまったくと言っていいほどないです(失敗は日本語ばかり)。
また、上記のエラー9件の内訳は、
・spam が inbox に間違って分類されたもの:5件
・spam が unclassified に分類されたもの:2件
・inbox が unclassified に分類されたもの:2件
で、ここのところ spam でないメールが spam 判定されたことは
一度もないですね。
Responder a #14380

Responder a #14389×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login