Cómo optimizar la regresión logística
El segundo paso es la preparación variable. ¡Es muy importante mejorar el efecto del modelo! Me refiero a la selección de variables y transformación de sus formas. Construya dinámicamente variables basadas en la retroalimentación del modelo durante todo el proceso de modelado. Un personaje famoso dijo que el 80% de tu tiempo no es demasiado.
En el tercer paso, además de la prueba de chi-cuadrado y los valores de IV, también existe una correlación de variables. Si la correlación es demasiado grave, violará el supuesto de independencia. Por supuesto, la violación puede perdonarse al hacer predicciones. Pero cuando hay demasiadas variables, una linealidad grave puede hacer que el software informe errores y falle (adivine el SAS utilizado por la pregunta). Además, el sentido comercial suele desempeñar un papel decisivo. Por ejemplo, en la gestión de relaciones con los clientes, si el modelo muestra que la contribución de la edad es muy baja, normalmente se incluirá.
El cuarto paso es comprobar los parámetros.
1) Estadístico c, el área bajo la curva ROC, también llamada AUC (área bajo la curva). En campos con aplicaciones más maduras, como la industria del scoring de tarjetas de crédito, existe un ligero consenso (mayor o igual a 0,75) en que los modelos de scoring conductuales son confiables. Pero para datos de otros campos como el marketing, este umbral puede discutirse.
2) El coeficiente de Gini se puede convertir con el estadístico c, G=2c-1.
3) Gráfico de elevación (gráfico de elevación/tabla de ganancias), otros términos gráfico de elevación acumulada/curva de Lorentz/curva de ingresos significan casi lo mismo. Al comparar la calidad del modelo con el efecto de la selección aleatoria, aleatorio significa no utilizar un modelo. Si se ha creado una pequeña cantidad de modelos para los datos de destino, puede extraer los efectos de mejora de diferentes modelos para comparar y elegir el mejor.
4) ks, compare las curvas de la variable de respuesta 0-1 y dibuje una línea entre las dos para obtener la curva ks. Su significado es la capacidad del modelo para distinguir 0 de 1. Otro ejemplo es el marketing. Las 25 personas principales son el grupo de clientes que responderán según lo previsto. El marketing de precisión para este grupo es eficaz y rentable. 20 a 40 es suficiente como referencia.
Finalmente, todavía tenemos que pensar en el significado real del modelo y los parámetros. Mucha gente piensa que la regresión logística es demasiado simple, pero ni siquiera la explican y se limitan a mirar los parámetros. Eche un vistazo al odds ratio y la probabilidad, que pueden explicarlo al público sin olvidar la intención original del modelado.