Spam wordの出現回数で点数をつける(2)

Spam wordの出現回数で点数をつけるの続きで、full __SPAM_TALK /buy|sale|purchase|bargain|off|click/i
tflags __SPAM_TALK multiple
meta SPAM_TALK_MULTI __SPAM_TALK > 2
score SPAM_TALK_MULTI 2.0
みたいにすると、怪しい単語が羅列されているspamには良く効く。

けど、これは1行目の怪しい単語をうまく選ばないとhamに大きくspamスコアがつく原因となる。失敗したのは、学位取得系のspamに多い “class” を登録したとき。これって、普通のメールはいいけどHTMLメールには普通にtagの属性として使うので、一発で高得点をとってしまう。

よって、引っ掛ける単語を工夫して、”class=” となるときだけ除外するように “class[^=]” とするとか、他の単語に含まれる可能性の高い “test” なんかは “\btest\b” みたいにするといい。また、spamassassinの精神に則り、何かひとつのルールで一発アウトにするよりも、こつこつと地道に点数を築き上げたほうが誤判定が少ない。

とはいえ、ほんの数行だけわけ分からんspam wordとリンクだけ書いてあるものはDNSBL以外ではスコアのつけようもないなぁ。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です