Naučte svůj antispam - 18. 7. 2006

Rekapitulace pojmů: SPAM (z angl. sekaná) je nevyžádáný, otravující a náklady zvyšující email, kterého se snažíme zbavit. HAM (z angl. šunka) je jeho opak, tedy očekávaný, správný email, který si rádi přečteme.

K rozpoznávání SPAMu používáme na našem serveru SpamAssassin - nejrozšířenější antispamový systém. Tento program dělá 2 druhy testů: test založený na pravidlech a test tzv. Bayesovský. Oba testy dávají emailu body a pokud jejich součet překročí nastavenou mez, je email označen jako SPAM.

Test založený na pravidlech hledá v e-mailu určité příznaky a každý z nich ohodnotí bodovou hodnotou (např. za slovo viagra je cca 6 bodů). Také za formální chyby v emailu jsou trestné body, třeba za datum v budoucnosti, chybějící hlavičky apod. (více v článku Antispam pro pokročilé ).

Bayesovský test pracuje se slovy v těle emailu. U každého slova počítá s pravděpodobností, s jakou se vyskytuje ve SPAMu nebo v HAMu. Určení této pravděpodobnosti má na starosti proces učení . Když antispamu řeknete, který email je SPAM a který HAM, tak slova ve SPAMu budou ta více špatná a slova v HAMu budou ta více dobrá. Podle toho se systém rozhodne, na kolik (od 0 do 1) je daný email SPAM. Podle výsledku emailu přidělí další trestné body.

Vzhledem k tomu, že každému z nás chodí jiné SPAMy a hlavně jiné HAMy, je potřeba aby si každý učil antispam sám, resp. udělali jsme to na serveru vždy pro celou jednu doménu. Důležité je učit antispam oba typy zpráv, jinak je jeho funkce nedostatečná a žádný skutečný spam nedostane dostatek bodů. Při správném učení lze výrazně snížit i bodovou mez, protože HAMy dostávají i záporné body, čímž se propast mezi SPAMem a HAMem zvětšuje.

Vzhledem k tomu, že každému z nás chodí jiné SPAMy a hlavně jiné HAMy, je potřeba, aby si každý učil antispam sám, resp. udělali jsme to na serveru vždy pro celou jednu doménu.
POSTUP "jak na to" na našem serveru:
  • kontaktujte nás, uděláme ve Vaší doméně potřebná nastavení,
  • učte antispam, tzn. přeposílejte V PŘÍLOZE jednotlivé SPAMy a HAMy na adresy spam(zavináč)vase-domena.cz, resp. ham(zavináč)vase-domena.cz. Antispamu je nutné přeposlat přibližně 200 spamů a hamů, aby vůbec začal pracovat.
  • sledujte, co se děje, prohlížejte jednotlivé emaily (viz. níže), zaměřte se na bodovou hranici, určitě ji budeme časem moci snížit.

V předchozím článku Antispam pro pokročilé jsem ukazovali, jak vypadá záznam antispamu v hlavičkách emailu. Zde se podíváme, jak to vypadá po akci Bayesovského testu:

X-Spam-Status: Yes, score=3.7 required= 3.5tests=BAYES_99=3.5,
HTML_MESSAGE=0.001,MIME_QP_LONG_LINE=0.234 autolearn=no version=3.1.0
Tokens: new, 40; hammy, 8; neutral, 61; spammy, 85.

Tento záznam říka, že email je SPAM, jeho bodové skóre je 3,7 bodu, potřebná hranice je 3,5 a Bayesovský test říká, že pravděpodobnost je 99% na SPAM. Za to mu přidal celých 3,5 bodu. V posledním řádku je pak napsáno, že v emailu nalezl 40 nových slov, 8 dobrých, 61 neutrálních a 85 špatných slov.

 
Rubriky

Články s informacemi jsou roztříděny do těchto rubrik:

zobraz vše