Red de conocimiento informático - Consumibles informáticos - Análisis e implementación de indicadores de evaluación de control de riesgos - KS, WOE, IV

Análisis e implementación de indicadores de evaluación de control de riesgos - KS, WOE, IV

En el trabajo de control de riesgos, la ingeniería de características, la selección de características y el modelado a menudo implican varios indicadores. Aquí hay un breve resumen.

KS es un índice de evaluación utilizado para medir la diferencia entre muestras positivas y muestras negativas. En definitiva, es la diferencia entre el grado de gente buena y el grado de gente mala.

Representa el primer párrafo.

La longitud de la línea de puntos verde indica el tamaño KS del segmento actual.

Lo ideal es que cuanto mayor sea el KS, mejor refleja la capacidad de discriminación de riesgos de la característica o modelo. La distribución perfecta de la puntuación crediticia es una distribución normal. En realidad, valores superiores a 0,9 son demasiado altos y dicho modelo no es representativo. Si el modelo KS es demasiado alto, también deberías considerar si está sobrecargado. En términos generales, KS está por encima de 0,3, que apenas se puede utilizar para la producción, y el efecto de diferenciación de riesgos es medio.

Al mismo tiempo, la observación posterior del KS también es muy importante. En un seguimiento posterior, si KS continúa cayendo, puede ser que el mercado haya cambiado, la base de clientes haya cambiado o el modelo en sí sea inestable. Por lo tanto, al entrenar un modelo, la comparación entre el conjunto de entrenamiento y el conjunto de validación también es muy importante. La gran diferencia entre los dos KS indica que el modelo está sobreajustado o tiene poca capacidad de generalización.

WOE se escribe como Peso de la evidencia, que es el peso de la evidencia y se utiliza en evaluación de riesgos, tarjetas de puntuación de crédito, etc.

Representa el primer párrafo. También se puede obtener después de la conversión.

De la fórmula anterior, WOE en realidad representa "la proporción de usuarios buenos y malos en este segmento" y "la proporción entre el total de usuarios buenos y el total de usuarios malos" que " diferencia. Cuanto mayor es la tristeza, mayor es la diferencia y mayor es la probabilidad de ser un buen usuario.

Al mismo tiempo, la transformación WOE también se utiliza a menudo en la ingeniería de características. Cuando dividimos algunas variables características en cuadros de igual frecuencia o igual distancia, encontramos que el WOE de cada segmento horizontal no satisface la monotonicidad (la mayoría de ellas son variables discretas), y realizamos la transformación WOE, es decir, el valor inicial de la característica correspondiente a cada segmento se reemplaza por el valor WOE, entonces la distribución de características será monótona.

A través de la transformación WOE, mientras se mantiene la monotonicidad de la curva WOE, la ventaja es que los valores propios tienen una correlación positiva (negativa) con el valor de Y. Por ejemplo, cuando definimos un mal usuario como 1, cuanto mayor sea el valor de la característica, mayor será la probabilidad de ser predicho como un mal usuario.

El valor de la información IV, es decir, el valor de la información, es un indicador de la capacidad predictiva de las características en el modelo y, a menudo, se utiliza como referencia para la selección de características antes del entrenamiento.

El IV se puede calcular utilizando WOE.

El valor IV de toda la característica es la suma de los valores IV de cada segmento, que se puede obtener

Cuando el valor IV de una característica es mayor, la información El valor de la característica es mayor cuanto mayor es la contribución a juzgar la calidad del cliente, por lo que esta característica es más adecuada para ingresar al modelo.

Usualmente usamos IV como indicador para juzgar la capacidad predictiva de las características del modelo. Debido a que WOE tiene valores positivos y negativos, IV solo será positivo. Lo más importante es que el valor WOE no refleja la proporción del número de individuos en el segmento actual con respecto al número total. Por ejemplo, el valor WOE de un fragmento es muy grande, pero el número de individuos en el fragmento representa una pequeña proporción del número total. Este WOE no representa el todo porque su contribución al todo es demasiado pequeña y. el valor IV será muy pequeño. Por lo tanto, el valor IV se utiliza como indicador para juzgar la capacidad predictiva.

Muchas veces es necesario calcular estos indicadores. Me siento muy angustiado por el gran número de ejecuciones, por lo que es necesario mejorar la eficiencia. Integré estos indicadores, escribí una biblioteca y llamé a los resultados. Más tarde me volví aún más vago. Escribí una interfaz gráfica y la puse encima. Es muy cómodo utilizar el ratón con un solo clic. La verdadera pereza es el motor del progreso humano.

Código fuente:/lianxiangtao/KS_IV

Si el artículo le resulta útil, no sea tacaño con sus elogios. El ambiente será genial.

WX: xianyu_splash, esta cuenta oficial de WeChat se utiliza para registrar mi proceso de aprendizaje, técnicas básicas, compartir inspiración diaria y herramientas de alta calidad, ¡bienvenido a seguirme! * * * ¡Hay progreso!