Red de conocimiento informático - Material del sitio web - Cómo utilizar el modelo de regresión logística en lenguaje R

Cómo utilizar el modelo de regresión logística en lenguaje R

En el estudio o trabajo diario, a menudo utilizamos modelos de regresión lineal para predecir algunas cosas, como predecir los precios de la vivienda, la altura, el PIB, el rendimiento de los estudiantes, etc. Descubriremos que estas variables predictivas son variables continuas. Pero en algunos casos, la variable predictiva puede ser una variable binaria, es decir, éxito o fracaso, presencia o ausencia, ascenso o caída, etc., y la regresión lineal no puede hacer nada con estas variables. En este momento, es necesario utilizar otro método de regresión para la predicción, a saber, la regresión logística.

En aplicaciones prácticas, el modelo logístico tiene tres usos principales:

1) Se utiliza para encontrar factores de riesgo y encontrar algunos "factores malos" que afectan la variable dependiente, generalmente a través de riesgos ventajosos Encontrado por la proporción de factores;

2) Se utiliza para la predicción, que puede predecir la probabilidad de que ocurra una determinada situación o la probabilidad de que ocurra una determinada situación

3) Utilizado para discriminación, determina la categoría a la que pertenece la nueva muestra.

El modelo logístico es en realidad un tipo de modelo de regresión, pero este modelo tiene algunas diferencias con el modelo de regresión lineal ordinario:

1) La variable dependiente en el modelo de regresión logística es una variable dicotómica;

2) No existe una relación lineal entre la variable dependiente y la variable independiente en el modelo;

3) Los modelos generales de regresión lineal deben asumir independencia, uniformidad de distribución, paridad, etc., y el modelo de regresión logística no requiere estos supuestos;

4) La regresión logística no necesita asumir la distribución de las variables independientes, y las variables independientes pueden ser variables continuas, variables discretas y variables ficticias;

5 ) Dado que no existe una relación lineal entre la variable dependiente y la variable independiente, los parámetros (coeficientes de regresión parcial) se calculan utilizando el método de estimación de máxima verosimilitud.

Descripción general del modelo de regresión logística

La regresión lineal generalizada es el proceso de explorar la relación entre el "valor esperado de la variable de respuesta" y la "variable independiente" para lograr el ajuste de cierta relación no lineal. Se trata de una "función de conexión" y una "función de error". El "valor esperado de la variable de respuesta" tiene una relación lineal con la "variable independiente" después de la acción de la función de conexión. A través de la función de enlace, la "variable de respuesta esperada" se relaciona linealmente con la "variable independiente". Se pueden construir diferentes modelos de regresión generalizada eligiendo diferentes "funciones de enlace" y "funciones de error". Cuando la función de error toma la "distribución binomial" y la función de conexión toma la "función logit", es un "modelo de regresión logística" común, que se ha utilizado ampliamente en problemas de respuesta 0-1. Ha sido ampliamente utilizado en problemas de reacción 0-1.

La regresión logística determina la categoría de la variable dependiente mediante la construcción de un indicador importante: la tasa de ocurrencia. Aquí introducimos el concepto de probabilidad, definiendo la ocurrencia de un evento como Y=1 y la no ocurrencia de un evento como Y=0. Entonces, la probabilidad de que ocurra el evento es p, y la probabilidad de que el evento no ocurra es 1-p, y p se considera una función lineal de x;

En regresión, la más comúnmente utilizada El método de estimación es la estimación de mínimos cuadrados. Debido a que hace que p se transforme entre 0 y 1, la estimación de mínimos cuadrados no es adecuada. ¿Existe un método de estimación que pueda hacer que p se transforme más lentamente (insensible) cuando converge con 0 y 1? exactamente lo que queremos, por lo tanto, se introduce la transformación Logit, p/(1-p), es decir, el logaritmo de la relación entre la tasa de ocurrencia y la tasa de no ocurrencia también se llama relación de diferencia logarítmica. Después de la transformación, p ya no es lineal con respecto a x.