Bayesovo filtrování

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání

Bayesovo filtrování (Bayesian filtering) je jednou z nejefektivnějších řešení boje proti e-mailovému spamu. Spam je problém, kterému dnes čelí všichni uživatelé e-mailů a počty spamových emailů se denně zvyšují. Obvykle používané techniky anti-spamových softwarů jsou statické, to znamená, že spamerům stačí tyto techniky jen prozkoumat a najít cestu jak se jim vyhnout (například změnit titul zprávy). To dalo developerům novou výzvu. Namísto dosavadních statických metod bylo potřeba přijít na anti-spamovou techniku, která by se byla schopna přizpůsobit stále se měnícím spamerským taktikám. Odpověď byla nalezena v Bayesové matematice a vznikla technika Bayesova filtrování.

Princip Bayesova filtrování[editovat | editovat zdroj]

Bayesovo filtrování je proces, který používá naivní Bayesův klasifikátor k identifikaci spamového e-mailu. Základní myšlenkou je, že většina událostí je mezi sebou závislá a pravděpodobnost jevu budoucí události může být odvozena z předcházejících jevů této události. To můžeme aplikovat i na spam. Pokud nějaký kus textu nalezneme ve spamu a nikoliv v hamu, můžeme usoudit, že e-mail bude pravděpodobně spam.

Přizpůsobení Bayesových filtrů[editovat | editovat zdroj]

Je důležité si povšimnout, že analýza potřebných e-mailů provedená Bayesovým filtrem v určitém prostředí je na toto prostředí přizpůsobena. Například finanční ústavy mohou často používat slovo „hypotéka“ a při použití obecných pravidel by e-maily s tímto slovem byli označeny jako spam. Bayesův filtr naučený konkrétně pro toto prostředí si všimne častého používání tohoto slova v potřebných zprávách a proto dosáhne lepších výsledků. Bayesovo filtrování je chytrý přístup ke třídění elektronické pošty, protože prozkoumá všechny aspekty zprávy, na rozdíl od pouhé kontroly obsahu zprávy. Například ne každý e-mail obsahující slova „zdarma“ nebo „peníze“ je spam. Bayesova metoda by tyto slova sice do klasifikace zahrnula, ale podle věrohodného odesílatele by e-mail jako spam neklasifikovala.

Nevýhody Bayesových filtrů[editovat | editovat zdroj]

Jednou z nevýhod je učení softwaru. Po instalaci je nutná perioda dvou týdnů, kdy se Bayesův filtr trénuje na zvyklostech prostředí ve kterém se nachází. Po dokončení této fáze je software schopen rozlišit spam od ham zpráv a správně je klasifikovat, přitom je schopen se přizpůsobit novým spamovým technikám, které jsou mu představeny. Zatímco běžné filtry podle klíčových slov se budou chovat lépe v průběhu prvního měsíce, Bayesův filtr je s největší pravděpodobností do konce měsíce předčí.

Anti-spamové softwary s velmi základními Bayesovými schopnostmi, jako například spamový filtr Microsoft Outlook, nevytváří přizpůsobená data určitým prostředím, ale vydává standardní soubory s hamovými daty. Ačkoli tato metoda nevyžaduje učení aplikace, má dvě velké nevýhody: Soubor s hamovými daty je veřejně přístupný a může tedy být hacknutý profesionálními spamery. Takovýto soubor hamových dat je příliš obecný a nemůže tedy být tak účinný, jako v případě kdy probíhá učení pro určité prostředí.

Pro efektivní využití musíme také provádět update posledních spamových technik pomocí souboru spamových dat. Díky tomu se ujistíme, že Bayesův filtr zná nejnovější taktiky spamerů a dosáhneme vysoké úspěšnosti detekce spamu. Jako příklad spamové techniky můžeme uvést třeba přepis slova „zdarma“ na slovo „z-d-a-r-m-a“, které by u typického anti-spam filtru muselo být evidováno jako další textový řetězec.

Bayesův filtr a vícejazyčnost[editovat | editovat zdroj]

Bayesova metoda je vícejazyčná, na rozdíl od většiny slov klíčových listů, které se dají použít pouze pro jeden jazyk. Bayesův filtr také bere v potaz odlišné způsoby mluvy určitých jazyků a nářečí, to mu umožňuje lepší klasifikaci spamu. Bayesův filtr je těžké obejít na rozdíl od filtrování podle klíčových slov. Pokročilý spammer, který se chce dostat přes Bayesův filtr musí použít méně slov, které by indikovaly zprávu jako spam, nebo použít více slov typického hamu. Druhý způsob, kdy se spammer pokouší najít požadovaná slova je však nemožný, pokud chce spamovat větší skupinu různých lidí, protože hledat tato slova pro každou osobu by bylo velice časově náročné.

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

Externí odkazy[editovat | editovat zdroj]

Bayesova klasifikace