Cómo utilizar Stata para una regresión sólida
Una gran cantidad de modelos de regresión lineal se basan en el método de mínimos cuadrados, pero aún tiene algunas limitaciones. Por ejemplo, cuando hay muchos valores atípicos en los puntos de muestra, el método de mínimos cuadrados tradicional ya no es aplicable. En este caso, se puede utilizar la regresión robusta en lugar del método de mínimos cuadrados.
Operación
La regresión robusta a continuación utiliza datos sobre delitos de Statistical Methods in the Social Sciences de Alan Agresti y Barbara Finlay. Las variables incluyen el número de estado de EE. UU. (sid), el nombre del estado (state), el número de delitos por cada 100.000 personas (crimen), la proporción de la población que vive por debajo del umbral de pobreza (pobreza) y la proporción de la población que vive como padre soltero (sid). padre). Elegimos utilizar tasas de pobreza y soltería para predecir las tasas de criminalidad.
Obtener datos
Utilizar https://stats.idre.ucla.edu/stat/stata/dae/crime, claro
Resumir delincuencia pobreza de forma individual
Importe datos y describa estadísticas para cada variable. La tabla de salida contiene el tamaño de la muestra, la media, la desviación estándar y los valores mínimos y máximos.
Regresión MCO
Antes de realizar una regresión robusta, primero realizamos una regresión MCO y los resultados son los siguientes.
Regresión unitaria sobre la delincuencia y la pobreza
Análisis de puntos de muestra
Primero, trazamos el apalancamiento residual utilizando "lvr2plot" para identificar valores atípicos y puntos de alto apalancamiento (puntos de apalancamiento). ) y luego identificar puntos de influencia fuertes. Si existen puntos de apalancamiento, debemos determinar cuáles son malos puntos de apalancamiento y, para estos valores atípicos, debemos evaluar su impacto en el modelo ajustado.
lvr2plot, mlabel(state)
En la figura podemos ver que los puntos dc, ms y fl tienen residuos más grandes o valores de apalancamiento más altos. La distancia de Cook es la influencia combinada del valor de apalancamiento y el tamaño residual. En términos generales, cuando la distancia de Cook es mayor que 1, el punto de muestra puede considerarse como un punto de fuerte influencia. A continuación calculamos la distancia de Cook para cada punto y generamos el resultado.
predice d1, cooksdclist estado crimen pobreza single d1ifd1gt; 4/51, noobs
Se puede ver en los resultados que la distancia de Cook del punto dc es mayor que 1, lo que significa que el punto de muestra dc El impacto en los resultados de la regresión será relativamente grande. En la regresión robusta posterior, realizaremos un tratamiento especial en el punto dc.
A continuación, analizamos los residuales de los datos. Utilice el comando rstandard, que representa el valor absoluto de los residuos estandarizados.
predecir r1, rstandardgen absr1 = abs(r1)gsort -absr1clist state absr1in1/10, noobs
Regresión robusta
Usamos el comando "rreg" para Regresión de robustez, los resultados de salida son los siguientes.
rreg criminalidad pobreza única, gen(peso)
Al comparar la regresión MCO inicial, encontramos que la diferencia entre las dos es grande. El número de puntos muestrales en la regresión robusta es 50 y el número de puntos muestrales en la regresión MCO es 51. Esto se debe a que después del análisis anterior, el punto atípico dc tiene un gran impacto en los resultados de la regresión, por lo que lo descartamos en la regresión robusta. regresión. La siguiente operación muestra que en una regresión robusta, los puntos de muestra de CC tienen un peso de 0.
clist state Weightifstate == "dc", noobs
El siguiente comando muestra otras observaciones con pesos más pequeños, en términos generales, las observaciones con residuos más grandes tienen pesos más pequeños, como Small. Más punto que mencionamos anteriormente. En la regresión MCO, todos los puntos de muestra tienen un peso de 1, por lo que cuantos más puntos de muestra tengan un peso de 1 en la regresión robusta, más similares serán los resultados de la regresión a los resultados de MCO.
ordenar lista de pesos sid estado peso absr1 d1in1/10, noobs
También podemos mostrar visualmente esta relación dibujando un círculo. En la siguiente figura, la abscisa representa la tasa de padres solteros y la ordenada representa la tasa de criminalidad. Cada círculo representa un punto de muestra y el centro del círculo es la posición del punto de muestra en las coordenadas. Cuanto mayor sea el círculo, mayor será el peso del punto de muestra.
toway (crimen de dispersión único [peso=peso], msymbol(oh)) ifstate! = "dc"
Extensiones
Después de un análisis de regresión sólido, también podemos usar muchos comandos de estimación posteriores, como prueba, margen, etc. La siguiente operación es predecir la tasa de criminalidad bajo diferentes tasas de monoparentalidad después de controlar la tasa de pobreza. Descubrimos que a medida que aumentan las tasas de paternidad soltera, las tasas de criminalidad aumentan en consecuencia.
márgenes, en(single=(8(2)22)) vsquish