Estadística multivariada SPSS
La base de la popularidad de los modelos de regresión radica en su uso para predecir y explicar variables métricas. Sin embargo, la regresión múltiple general no es adecuada para resolver el problema en el que la variable explicada no es una variable de medición.
El análisis discriminante es adecuado para situaciones en las que la variable explicada es una variable no métrica (variable de atributo) y la variable explicativa es medible (calcula la media y la varianza y aplica a funciones estadísticas). Por ejemplo, la categoría del objeto.
Tarea: utilice SPSS para realizar un análisis discriminante del conjunto de datos del iris.
Se puede ver que estas 150 muestras son todas válidas. No faltan variables
Resultado: Al nivel de significancia 0,01 se rechaza la hipótesis nula, es decir, se considera que cada longitud es diferente dentro de los tres grupos.
La figura anterior refleja el logaritmo del rango y determinante de la matriz de covarianza. Del valor determinante se puede ver que la matriz de covarianza no es una matriz mal condicionada.
La figura anterior muestra que la hipótesis nula (covarianzas iguales) se rechaza en el nivel de significancia de 0,05.
También es significativa cuando se utiliza la agrupación, por lo que la forma de matriz de covarianza de agrupación. se adopta.
La figura anterior refleja la raíz característica de la función discriminante, la proporción de varianza explicada y el coeficiente de correlación canónico.
La primera función discriminante explicó el 99,1 de la varianza, y la segunda función discriminante explicó el 0,9 de la varianza.
La prueba consideró que las dos funciones discriminantes eran significativas al nivel de significancia 0,05 . de.
El centro del grupo y=3 es (5.783, 0.513)
El centro del grupo y=2 es (1.825, -0.728)
El centro del grupo y=1 es (-7.608, 0.215)
La primera tabla resume el proceso de clasificación, indicando que en la clasificación han participado 150 observaciones.
La segunda tabla ilustra las probabilidades previas de cada grupo: todos los grupos son iguales cuando elegimos en la opción de clasificación.
La tercera tabla es la función de clasificación de cada grupo: (diferente de la función discriminante)
Podemos calcular el valor de la función de clasificación de cada observación en cada grupo y luego clasificar la observaciones en el valor de la función de clasificación más grande
La cuarta tabla es la tabla de matriz de clasificación:
La validación cruzada aquí adopta el principio de "dejar uno fuera", y cada observación es excepto derivadas de todas las observaciones distintas de esta observación.
La imagen final es el resultado de la clasificación:
Setosa iris, Versicolor iris y Virginica iris se pueden distinguir claramente, mientras que
Versicolor iris y Virginica Hay una área de superposición entre los dos tipos de iris, es decir, hay un error de juicio.
Del análisis anterior se encuentra que las matrices de covarianza no son iguales, por lo que se puede considerar la matriz de covarianza de agrupación. Los resultados de la clasificación son los siguientes:
Se encontró que no existe una diferencia obvia entre la matriz de covarianza intragrupo y la matriz de covarianza de agrupación, por lo que la matriz de covarianza intragrupo se puede utilizar para la discriminación.
Existe una cierta correlación lineal entre los ocho indicadores del nivel de consumo de los residentes urbanos. Para estudiar la estructura de consumo de los residentes urbanos, es necesario fusionar los indicadores con una fuerte correlación, lo que en realidad es así. agrupación de indicadores.
Diferentes métodos de agrupación, los principios y pasos de la agrupación son básicamente los mismos. La diferencia es que la distancia entre clases tiene diferentes definiciones. distancia, utilizando respectivamente el método de promedio de clase, el método de distancia más corta y el método de distancia más larga para clasificar 31 provincias, municipios y regiones autónomas. El funcionamiento del método de promedio de clase en SPSS es:
Parámetros. se puede seleccionar arbitrariamente
p>Analizar 12 indicadores X1-X12 para analizar y evaluar el nivel de desarrollo integral de cada ciudad.
Busque el cuadro de diálogo Análisis factorial:
Haga clic en Continuar y en Aceptar.
A continuación, observe la tabla de explicación de la varianza y el gráfico de grava, para saber qué factores públicos se han seleccionado:
Como se muestra en la figura, la tasa de contribución de la varianza de los tres seleccionados factores El orden es: 55.59, 22.30, 9.22
Pero lo que se obtiene en este momento es el factor común sin rotar. Su significado real es difícil de explicar.
Luego se rotan los factores y los resultados se ordenan por tamaño, de modo que las columnas de la matriz de carga de salida se organizan según el tamaño del coeficiente de carga:
Finalmente, el Se calcula la puntuación del factor:
Este método de evaluación se usa ampliamente actualmente, pero también es controvertido, por lo que debe usarse con precaución.
El funcionamiento es el siguiente:
Dibujar el mapa de puntuación factorial de cada ciudad:
Seleccionar distribución simple:
Seleccionar FAC1 y FAC2 como eje X e Y respectivamente: Haga clic en Aceptar:
Se puede ver en la matriz de carga factorial rotada que el factor público F1 está en x1 (población no agrícola), x2 (población industrial total). valor de producción), x3 (volumen total de carga), x4 (número de empleados en la industria mayorista, minorista, de alojamiento y restauración), x5 (ingresos del presupuesto del gobierno local), x6 (saldo de ahorro de fin de año de los residentes urbanos y rurales), x7 (número de empleados en el trabajo), x8 (salarios totales de los empleados en el trabajo) Los valores de carga son muy grandes.
Por tanto, la F1 es un factor público que refleja el tamaño de la ciudad y su nivel de desarrollo económico.
Dado que las cargas en x10 (estacionamiento * árboles para automóviles por cada 10 000 personas), x11 (área de caminos pavimentados per cápita) y x12 (área de espacios verdes per cápita) son grandes, es un factor público que refleja la nivel de infraestructura de la ciudad.
F3 solo tiene una gran carga en x9 (área habitable per cápita), que es un factor común que refleja las condiciones de vivienda de los residentes urbanos.
Con una explicación razonable de cada factor público ***, combinado con la puntuación de cada ciudad en los tres factores públicos *** y la puntuación integral, se puede evaluar el nivel de desarrollo integral de cada ciudad central <. /p>
Aquellos con puntuaciones más altas en F1 (factor de escala económica urbana): Shanghai, Beijing, Guangzhou, Tianjin, Chongqing
Aquellos con puntuaciones más bajas en F1 (factor de escala económica urbana): Xining, Yinchuan, Haikou
Aquellos con puntuaciones F2 (factor de infraestructura) más altas: Shenzhen, Guangzhou, Nanjing
Aquellos con puntuaciones F2 (factor de infraestructura) más bajas: Chongqing, Wuhan
p>Aquellos con puntuaciones más altas en F3 (factor de vivienda para residentes): Shanghai, Chongqing, Shenzhen
Aquellos con puntuaciones más bajas en F3 (factor de vivienda para residentes): Beijing, Harbin
Integral El Los 5 mejores puntajes: Shanghai, Beijing, Shenzhen, Guangzhou, Tianjin
Los 5 peores puntajes: Xining, Yinchuan, Lanzhou, Hohhot, Haikou.
Luego combine las puntuaciones de cada factor para el análisis:
El análisis del gráfico de puntuación de factores muestra:
En términos de tamaño de ciudad: las ciudades emergentes son mejores que ciudades antiguas.
En términos de nivel de infraestructura: las ciudades del sur son generalmente mejores que las del norte, y las ciudades emergentes son mejores que las antiguas.
En términos generales: las ciudades del este son más altas que las occidentales
Los niveles de desarrollo de Shanghai, Beijing y Shenzhen son similares:
Shanghai es de gran escala y tiene Bajo nivel de infraestructura.
Beijing es de gran escala y tiene buena infraestructura, pero el área de vivienda per cápita es pequeña.
Shenzhen es de pequeña escala, pero tiene un alto nivel de infraestructura y una gran superficie habitable per cápita.
Entre ellas, 18 ciudades están ubicadas en el tercer cuadrante del mapa de puntuación de factores. La mayoría de estas ciudades están ubicadas en las regiones central y occidental. Por lo tanto, cómo acelerar el desarrollo de estas ciudades para promover. El progreso de las áreas circundantes afecta el desarrollo económico general de nuestro país.
El punto de vista geométrico del análisis de componentes principales consiste en reemplazar el sistema de coordenadas original por un nuevo sistema de coordenadas. Esto hace que el costo de reducción de dimensionalidad en el nuevo sistema de coordenadas sea lo más pequeño posible.
Luego puedes rotar el sistema de coordenadas mediante una transformación lineal: [Error en la carga de la imagen...(image-14687b-1657953033634)]
(Por cierto, recomiendo la esencia del álgebra lineal en el sitio b)
En la evaluación de los beneficios económicos de la empresa, a menudo hay muchos indicadores de diseño para simplificar la estructura del sistema y comprender los problemas principales. en la evaluación del beneficio económico, podemos determinar los componentes principales con base en la matriz de datos original
Número de muestras: n=28, número de variables: p=9
Consulte. el caso en línea:
El análisis de componentes principales y el análisis factorial se completan en el módulo de análisis factorial:
La proporción de la suma de varianzas de los dos primeros componentes principales y1 e y2 a la suma total de varianzas es 84,7. Seleccionamos y1 como el primer componente principal, y2 es el segundo componente principal. Básicamente retiene la información de los indicadores originales, convirtiendo así los 9 indicadores originales en 2 nuevos indicadores, lo que juega un papel en. reducción de dimensionalidad.
SPSS obtiene el resultado de salida de la matriz de carga factorial. Como se muestra en la figura:
Para cada elemento de cada categoría en la figura, la raíz cuadrada de la i-ésima característica. se calcula la raíz [Error en la carga de la imagen...(image-6aa51a-1657953033634)]
Obtenga el coeficiente del componente principal del análisis del componente principal [Error en la carga de la imagen...(image-5d98fb-1657953033634 )]