jueves, 17 de mayo de 2007

Clasificadores Probabilísticos - Ingenuo de Bayes

El clasificador CVSi(dj), es quizás el clasificador más utilizado y el que más frecuentemente se encuentra en la literatura. Este clasificador expresa la probabilidad de que un documento, representado por el vector dj cualquiera, pertenezca a una clase ci dada. De forma matemática, se puede ver de la siguiente manera:




donde el espacio de eventos es el de los documentos, P(dj) es la probabilidad de escoger aleatoriamente un documento este esté representado por el vector d(j); y P(ci) es la probabilidad de que al tomar un documento cualquiera este pertenezca a la clase ci.

Estimar la probabilidad anterior no es fácil por lo complejo de dj; por lo que normalmente se asume que las variables que componen el documento vector son independientes; por lo que se puede representar la probabilidad anterior como:




Dada esta suposición, es lo que se conoce como Ingenuo de Bayes (Naive Bayes), y por su simplicidad y rendimiento, es ampliamente utilizado en Categorización de Textos.

De todas las aproximaciones del Ingenuo de Bayes, la más común es la Independencia Binaria, donde se usan valores binarios para la representación del documento en el vector; pero se pueden encontrar otras variaciones que apuntan a:
- Relajar la restricción que el vector documento tenga valores binarios
- Introducir normalización en el largo del documento
- Relajar la suposición de independencia