Red de conocimiento informático - Problemas con los teléfonos móviles - Introducción a WOE, IV, PSI

Introducción a WOE, IV, PSI

WOE significa "Peso de la evidencia" y es una forma de codificar las variables independientes originales.

Para codificar variables usando WOE, primero debe agrupar las variables (también llamado discretización, agrupamiento, etc., que significan lo mismo). Después de agrupar, para el grupo i-ésimo, la fórmula de WOE es la siguiente:

El nombre completo de IV es Valor de información, que significa valor de información o cantidad de información en chino.

De manera intuitiva y lógica, podemos entender el asunto de "usar IV para medir la capacidad predictiva de las variables" de esta manera: asumimos que en un problema de clasificación, la variable objetivo tiene dos categorías: para el Individuo A , para determinar si A pertenece a Y1 o Y2, necesitamos una cierta cantidad de información. Supongamos que la cantidad total de esta información es I, y que la información requerida está contenida en todas las variables independientes C1, C2, C3,..., Cn, entonces, para una de las variables Ci, cuanta más información contenga, más mayor será la contribución para juzgar si A pertenece a Y1 o Y2, y mayor será el valor informativo de Ci. Cuanto mayor sea el valor de información de Ci, mayor será el valor IV de Ci y más deberá ingresar a la lista de variables seleccionadas.

El IV de una variable es la suma de los IV de los subgrupos.

El índice de estabilidad poblacional mide la estabilidad de una variable o la estabilidad de todo el modelo.

psi = sum((participación real-participación esperada) * ln(participación real/participación esperada))

Entrene un modelo de regresión logística y habrá una salida de probabilidad p cuando prediciendo. Su salida en el conjunto de prueba está configurada en p1, y sí, se ordenará de pequeña a grande y luego se dividirá en 10 partes iguales, como 0-0.1,0.1-0.2,.....

Ahora, utiliza este modelo para predecir una nueva muestra. El resultado de la predicción se llama p2 y el intervalo representado por p1 también se divide en 10 partes iguales.

La proporción real es la proporción de usuarios en p2 en cada intervalo y la proporción esperada es la proporción de usuarios en p1 en cada intervalo.

El significado es que si el modelo es estable, entonces los usuarios en cada intervalo en p1 y p2 deberían ser similares y la proporción no cambiará mucho, es decir, las probabilidades predichas no diferirán mucho.

En general, se cree que cuando el psi es inferior a 0,1, la estabilidad del modelo es muy alta, generalmente entre 0,1 y 0,25. Cuando es superior a 0,25, la estabilidad del modelo es muy pobre y se recomienda. para rehacerlo.

Las cosas ligeramente diferentes en el proyecto de cuadro de mando son: (1) Se puede usar para medir la estabilidad de una variable, la proporción del número de muestras en cada grupo cuando la variable se agrupa originalmente, y la proporción del número de muestras en cada grupo después de que el modelo esté en línea Compare la proporción del número de muestras en cada grupo de datos. (2) En el modelo de cuadro de mando, el cálculo y la agrupación del modelo PSI se clasifican según la puntuación y luego se dividen en décimas antes del cálculo.