Algoritmo Bayes ingenuo para minería de datos
Este teorema de Bayes generalmente se aprende en la teoría de la probabilidad. en la universidad, una breve explicación es la siguiente:
Si los eventos,... constituyen un evento y tienen probabilidad positiva, para cualquier evento y, se cumple la siguiente fórmula: Entonces hay
Si X representa una característica/atributo, Y representa una variable de clase. Si la relación entre las variables de clase y los atributos es incierta, entonces X e Y pueden considerarse como variables aleatorias. Esta es la probabilidad posterior de Y y la probabilidad previa de. Y..
Tome la imagen como ejemplo:
Necesitamos determinar si una persona es un niño o una niña según la altura, el peso y la talla de zapato. Entonces Y es. el género y X es un conjunto de características (altura, peso y talla de zapato). Si queremos calcular la probabilidad de ser hombre primero, la probabilidad previa es, y la probabilidad posterior es cuando se conoce el conjunto de características que queremos ingresar en el futuro, Y = la probabilidad de ser hombre (la probabilidad de que la clasificación sea previsto). En este caso, según el teorema de Bayes, podemos usarlo para averiguarlo. Ésta es la aplicación del teorema de Bayes en la predicción.
Supongamos que la probabilidad de que la variable Y tome un valor es P(Y=y), y que las características en x son independientes entre sí. La fórmula es la siguiente:
Cada uno. El conjunto de características x contiene características d.
Según la fórmula, en comparación con la figura anterior, si el género es masculino, entonces la probabilidad de ser más alto, más pesado y tener tallas de zapatos más grandes es igual a
Con esto fórmula, combinada con la anterior. Usando la fórmula Yess, podemos obtener la fórmula de probabilidad de qué característica pertenece a un conjunto dado de valores de características:
donde x representa un conjunto de características y uno de un conjunto de características .
Para todo Y, P(X) es fijo, por lo que solo podemos juzgar la categoría predicha encontrando la categoría que maximiza el numerador.
La probabilidad se divide en dos situaciones para distinguir, una es la determinación de probabilidad de características categóricas y la otra es la determinación de probabilidad de características continuas.
A continuación, utilice ejemplos de la introducción a la minería de datos para ilustrar el método de determinación de la probabilidad.
Para las características de clasificación, primero puede encontrar el número de valores Y en el conjunto de entrenamiento y luego tomar la proporción de diferentes tipos de características en estos números como la probabilidad de las características de clasificación.
Por ejemplo, en la tabla anterior, si el préstamo no está en mora, el número de personas que poseen una casa es 7, y 3 de ellas son propietarias de una casa. Por analogía, podemos derivar la probabilidad condicional del estado civil.
Los ingresos anuales son una característica continua y deben tratarse de manera diferente.
Según el algoritmo anterior, si no hay incumplimiento del préstamo, la probabilidad de un ingreso anual de 120K es
Si desea predecir el registro de prueba, es Si una muestra con ingreso = 120K) es probable que incumpla con un préstamo requiere calcular dos probabilidades: y
Sí:
Porque no ha cambiado (para Y=sí, Y=no), por lo que sólo Se pueden considerar las moléculas anteriores, por lo que si no miras P(X), hay:
Entre ellas, 7/10 es P(Y=No), y α es P(X ).
p(Y = sí | x)= 1 * 0 * 1.2e-1 = 0.
Con esta comparación, la clasificación es sí o no.
Mirando este ejemplo, si la probabilidad condicional de una característica es 0, entonces la probabilidad general es 0, entonces la probabilidad posterior también debe ser 0, por lo que si el conjunto de entrenamiento tiene muy pocas muestras, este método no es muy preciso.
Si el número de muestras en el conjunto de entrenamiento es menor que el número de características, parte del conjunto de prueba no se puede clasificar, por lo que se introduce la estimación m para estimar la probabilidad condicional. La fórmula es la siguiente. :
Donde n es la clase El número total de muestras, el número de muestras tomadas en la clase, un parámetro llamado tamaño de muestra equivalente, un parámetro especificado por el usuario, p puede considerarse como la probabilidad previa del valor de la característica observada en la clase. El tamaño de muestra equivalente determina el equilibrio entre las probabilidades anteriores y las probabilidades observadas.
La razón fundamental para introducir la estimación M es que el tamaño de la muestra es demasiado pequeño. Por lo tanto, para evitar este problema, la mejor manera es expandir de manera equivalente el número de muestras, es decir, agregar m muestras equivalentes a la muestra de observación, luego el número de categorías equivalentes que se agregarán a esta categoría es el número de categorías equivalentes. muestras m veces Estimar p a priori.
En el ejemplo anterior, sea m = 3 y p = 1/3 (m se puede establecer como el número de característica y p como el recíproco).
Luego:
Para que se pueda recalcular. Esto resuelve el problema de que la probabilidad condicional sea 0.
Funciona para funciones independientes, si hay funciones dependientes su rendimiento se verá reducido.