7 métodos de análisis de regresión que los analistas de datos deben dominar
1. Regresión lineal
La regresión lineal es una de las técnicas de modelado más conocidas en el análisis de datos. Generalmente es una de las técnicas que la gente prefiere cuando aprende modelos predictivos. En este método de análisis de datos, dado que la variable es continua, la variable independiente puede ser continua o discreta y la naturaleza de la línea de regresión es lineal.
La regresión lineal utiliza una línea recta de mejor ajuste (también conocida como línea de regresión) para establecer una relación entre una variable dependiente (Y) y una o más variables independientes (X).
2. Regresión logística
La regresión logística se utiliza para calcular la probabilidad de evento = Éxito y evento = Fracaso. Cuando el tipo de variable dependiente es una variable binaria (1/0, verdadero/falso, sí/no), debemos utilizar la regresión logística.
La regresión logística no requiere una relación lineal entre la variable independiente y la variable dependiente. Puede manejar varios tipos de relaciones porque utiliza una transformación logarítmica no lineal del índice de riesgo relativo pronosticado OR.
Para evitar el sobreajuste y el desajuste, debemos incluir todas las variables importantes. Una buena manera de garantizar que esto sea así es utilizar un método de detección gradual para estimar la regresión logística. Requiere un tamaño de muestra grande porque la estimación de máxima verosimilitud funciona peor que los mínimos cuadrados ordinarios cuando el tamaño de la muestra es pequeño.
3. Regresión polinómica
Para una ecuación de regresión, si el índice de la variable independiente es mayor que 1, entonces es una ecuación de regresión polinómica. Aunque existe un incentivo para ajustar un polinomio de mayor grado y obtener un error menor, esto puede conducir a un sobreajuste. Es necesario dibujar gráficos con frecuencia para comprobar el ajuste y centrarse en garantizar que el ajuste sea razonable y que no sea ni excesivo ni insuficiente. Aquí hay una ilustración para ayudar a comprender:
Obviamente busque puntos de curva en ambos extremos para ver si las formas y tendencias tienen sentido. Los polinomios de grado superior pueden terminar produciendo resultados de inferencia extraños.
4. Regresión por pasos
Podemos utilizar esta forma de regresión cuando trabajamos con múltiples variables independientes. En esta técnica, la selección de variables independientes se realiza en un proceso automatizado que involucra operaciones no humanas.
La hazaña consiste en identificar variables importantes observando los valores de estadísticas como R-cuadrado, t-stats e indicadores AIC. La regresión por pasos se ajusta a un modelo agregando o eliminando covariables simultáneamente según criterios específicos.
5. Regresión de cresta
El análisis de regresión de cresta es una técnica utilizada para datos con múltiples lineales (las variables independientes están altamente correlacionadas). En el caso multilineal, aunque el método de mínimos cuadrados (OLS) es justo para cada variable, difieren mucho, lo que hace que los valores observados estén sesgados y alejados del valor real. La regresión de cresta reduce el error estándar al agregar un grado de sesgo a la estimación de la regresión.
Los supuestos de esta regresión son similares a la regresión de mínimos cuadrados excepto por el término constante que reduce el valor del coeficiente de correlación pero no llega a cero, lo que indica que no tiene función de selección de características y es una regularización. método y utiliza la regularización L2.
6. Regresión de lazo
Es similar a la regresión de cresta. Excepto por el término constante, los supuestos de esta regresión son similares a la regresión de mínimos cuadrados; su coeficiente de contracción es cercano a cero (igual a cero), lo que ayuda a la selección de características. Es un método de regularización, si se utiliza la regularización L1; predicho Un conjunto de variables está altamente correlacionado, y Lasso seleccionará una de las variables y reducirá las demás a cero.
7. Regresión
ElasticNet es una mezcla de tecnologías de regresión Lasso y Ridge. Utiliza L1 para entrenamiento y L2 primero como matriz de regularización. ElasticNet es útil cuando hay varias funciones relacionadas. Lasso elegirá uno de ellos al azar y ElasticNet elegirá dos. La ventaja práctica entre Lasso y Ridge es que permite a ElasticNet heredar parte de la estabilidad de Ridge en estados cíclicos.
Por lo general, en el caso de variables altamente correlacionadas, producirá efectos de grupo; no hay límite para el número de variables seleccionadas y puede soportar una doble contracción;
En cuanto a los 7 métodos de análisis de regresión que los analistas de datos deben dominar, el editor Qingteng los compartirá aquí. Espero que este artículo pueda ayudarlo. Si desea obtener más información sobre las perspectivas profesionales y el contenido laboral de los analistas de datos y los ingenieros de big data, puede hacer clic en otros artículos de este sitio para obtener más información.