Estadística & Otras Cosas de Internet: Filtro Bayesiano de Spam. ¿Como funciona?

viernes, 13 de abril de 2007

Filtro Bayesiano de Spam. ¿Como funciona?

El filtro Bayesiano de spam es un proceso que usa el llamado "Clasificador Bayesiano Ingenuo" para identificar un correo spam.

Este se ha hecho un mecanismo popular para distinguir el correo electrónico ilegítimo (spam) del correo electrónico legítimo (ham). Muchos programas de correo modernos ponen en práctica el filtro Bayesiano. Los usuarios de correos también pueden instalar programas de filtración de correo electrónico por separado.

Los filtros Bayesianos tienen su sustento en el teorema de Bayes. En el contexto de un spam, este teorema dice que la probabilidad de que un correo sea spam, dado que ciertas palabras están en el, es igual a la probabilidad de encontrar dichas palabras en un correo spam multiplicado por la probabilidad de que un correo sea spam, dividido por la probabilidad de encontrar dichas palabras en un correo cualquiera.

Por otra parte, la técnica del envenenamiento Bayesiano es una técnica usada por los spammers (léase los que mandan spam)como una tentativa de degradar la eficacia de los filtros de spam que usan en la filtración Bayesiana. Un spammer que practica el envenenamiento Bayesiano enviará correos electrónicos con grandes cantidades grandes de texto legítimo (juntado de noticias legítimas o fuentes literarias), con el fin de tratar de engañar al programa y tratar de que este no filtre su spam. Sin embargo, la gran ventaja que tiene el filtro Bayesiano es que este puede ser "entrenado" en base a la información del lector del correo. Por lo que su precisión es cada vez mayor a medida que el correo recibe mas emails.

Mayor información:
Documento en pdf: http://citeseer.ist.psu.edu/sahami98bayesian.html
Libro: Graham, Paul (2002). A Plan for Spam.
Web: http://research.microsoft.com/~horvitz/junkfilter.htm
Programa: http://www.spambully.com/