[bglug] Spamassassin

Samuele E. Locatelli samuele@locatelli.info
Mar 4 Gen 2005 11:32:20 CET


Il giorno mar, 04-01-2005 alle 11:13 +0100, Andrea Rosa ha scritto:
> Buondì a tutti,
> ...

>  inoltre qualcuno sa
> nel dettaglio come funziona il " Bayesian classifier"?

Allora, un classificatore bayesiano è un metodo di inferenza statistica,
adesso detta la parola difficile in termini semplici è un modo per
andare a ritroso in un ragionamento basandosi su criteri statistici.

Ad esempio se so che 50% degli uomini è di altezza  >180 cm e il 50%
delle donne è di altezza < 163 cm, se ho un individuo di (sparo a caso)
185 com mi chiedo se sia con maggior probabilità uomo o donna...

a naso chiunque risponde uomo, bene, se fosse 172 cm?

si capisce subito come sarebbe ro necessari altri dati oppure si sarebbe
nell'incertezza matematica...

bene il teorema di bayes calcola la probabilità di un evento (uomo/donna
nell'esempio...) dato il verificarsi di uno o + altri eventi
(altezza....).

un email viene quindi letta, vengono stilate delle classi di frequenza
di parole (= quante volte un termine viene ripetuto) e si fa la
graduatoria, ad esempio 30 "e", 25 "a", 21 "viagra" e si ottiene un
istogramma di quali parole e con quale frequenza.

A questo punto serve l'intervento esterno di training: io definisco una
o + email come buone o spam (meglio qualcuna, nons ervono migliaia...),
il sw fa la strada al contrario x scoprire il pattern di frequenze di
parole + associato (o un sottoinsieme) ai due casi...

all'arrivo di ogni nuova email questa viene spezzata ed analizzata in
frequenze di termini e si cerca a "cosa assomigli", se spam o buona (o
altro...)... e questo è il processo bayesiano a ritroso...

x maggiori info google --> popmail, per me il miglior filtro bayesiano
disponibile (che non solo becca lo spam ma fa mooolto di +!), oltretutto
trovi altra documentazione...

infine google --> bayesian filter...


>  lo so che zio
> google è mio amico 

...appunto... ;-)

> saluti a tutti
> -- 
> Andrea
> Key fingerprint = C649 4F5B 8E41 3AE8 C4F0  7285 2125 81CE 8873 F712
>  

Samuele



Maggiori informazioni sulla lista bglug