¿Cómo utilizar SPSS para realizar análisis de conglomerados?
¿Cómo realizar análisis de conglomerados?
El análisis de conglomerados se utiliza para clasificar muestras, generalmente utilizando datos cuantitativos como estándar de clasificación; los usuarios pueden establecer el número de conglomerados por sí mismos y, si no se configura, el sistema generalmente proporcionará sugerencias predeterminadas; que los usuarios establezcan el número de clusters entre 3 y 6.
¿Cómo realizar análisis de conglomerados?
Tomemos SPSSAU como ejemplo.
Utilizando el famoso conjunto de datos de iris, de acuerdo con las tres categorías de iris (cerdas, cambio de color, virginia), 50 plantas en cada categoría, la medición final de 150 flores de iris tiene 4 datos de atributos: longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo.
En la columna "Método avanzado", seleccione "Agrupación" y arrastre las cuatro variables continuas de longitud y ancho de pétalos y sépalos al cuadro de elementos de análisis cuantitativo como base para la agrupación de K-medias.
Se sabe que hay 3 tipos de flores de iris, por lo que el valor K = 3. El número predeterminado de grupos de SPSSAU es 3 categorías, por lo que el valor predeterminado es suficiente. Para el proceso de agrupación, las dimensiones unitarias de diferentes indicadores son diferentes, por lo que se recomienda realizar un procesamiento de estandarización y la estandarización se verifica de forma predeterminada. Al mismo tiempo, esperamos que una vez completada la agrupación, las variables de clase agrupadas se puedan guardar como resultados, por lo que Guardar categoría está marcado de forma predeterminada.
Como se muestra arriba, se puede ver que todo el proceso de configuración de opciones de parámetros de SPSSAU para la agrupación en clústeres de K-medias es muy simple y claro, y solo requiere una pequeña base estadística para funcionar.
No es necesario conocer el valor K de la agrupación de K-medias. Podemos tomar la forma de recorrido, por ejemplo, atravesar entre 3 y 6 categorías, es decir, seleccionar grupos en 3 categorías. 4 categorías, 5 categorías, 6 categorías y luego compare los resultados de la agrupación y elija el mejor resultado.
En lo que respecta al análisis de conglomerados, generalmente se recomienda que los usuarios establezcan el número de conglomerados entre 2 y 6, pero no demasiados. Después de especificar el valor K, el algoritmo seleccionará aleatoriamente los datos de un caso del conjunto de datos como el centro de agrupamiento inicial, es decir, las coordenadas del punto central de K clases.
Luego, la distancia entre los puntos representados por otros casos y el punto central del grupo inicial se calcula y distribuye de acuerdo con la distancia. Cada vez que se completa la distribución, el centro del grupo se recalculará, por lo que el centro del grupo. está cambiando, este proceso se repite hasta que el punto central del grupo ya no cambia. En este momento, la suma de los errores cuadrados SSE generados por los datos de distancia debe ser mínima.
Todo el proceso de agrupación de K-medias se completará mediante cálculos de SPSSAU. Una vez que comprendamos los conceptos básicos, podremos leer directamente los resultados que genera.
Primero, veamos el tamaño de cada categoría después de agruparlas. En este ejemplo, observamos la cantidad de plantas de iris incluidas en cada grupo entre las tres categorías.
Como se muestra en la tabla anterior, el grupo 1 contiene 56 cepas, el grupo 2 contiene 44 cepas y el grupo 3 contiene 50 cepas. Las proporciones de casos son 37,3 %, 29,3 % y 33,3 % respectivamente. Se sabe que este conjunto de datos contiene 50 plantas de iris del mismo tipo en cada categoría. Ahora, el resultado de agrupación de K-means solo contiene 50 flores de iris en el grupo3. Las escalas de las otras dos categorías son ligeramente diferentes de las 50 plantas. La precisión de la agrupación es buena. SPSSAU también configura un gráfico circular para mostrar visualmente la escala del clúster, de la siguiente manera:
Anteriormente presentamos brevemente el proceso de agrupación de K-means. Cuando se trata del centro de agrupación inicial, eventualmente se convertirá en The. Punto central de agrupación final, este resultado SPSSAU también se proporciona para todos. Consulte la tabla a continuación.
Los datos de atributos en la tabla son datos estandarizados. Si queremos utilizar el centro del clúster final, debemos convertirlos a datos originales. Para nosotros, lo que es más importante es el valor del error cuadrático SSE que se indica en la parte inferior de la tabla. Si adoptamos una solución que atraviesa los resultados de la agrupación, entonces se puede comparar cuál es mejor entre las soluciones con el tamaño del SSE. El SSE más pequeño muestra que el efecto de agrupación es mejor.
Denominación de clústeres
Ahora pensemos en un problema. Los cuatro atributos utilizados para la agrupación, es decir, los datos de longitud y ancho de los pétalos y del cáliz, se utilizarán para los resultados actuales de la agrupación de K-medias. Digamos, ¿existen diferencias en la longitud y el ancho de los pétalos y cálices entre las tres categorías diferentes? En otras palabras, ¿cuáles son las características de cada tipo en los cuatro atributos? Si le damos un nombre a cada clase, ¿cuál es nuestra base?
Para explorar las características específicas de cada categoría, se utiliza el análisis de varianza para estudiar las diferencias entre grupos en cada categoría y, finalmente, las características de cada categoría se pueden combinar para nombrar la categoría.
La tabla anterior es la tabla de análisis de varianza. Se puede observar que los grupos de categorías de agrupamiento son significativos (p<0.05) para todas las variables indicadoras que participan en el agrupamiento, lo que significa que las tres categorías obtenidas por el. Análisis de agrupamiento Los grupos tienen diferencias obvias en sus características en los elementos de investigación. Las diferencias específicas se pueden comparar a través de valores promedio y, finalmente, las categorías de los grupos se nombran según la situación real.
Basado en el desempeño promedio de cada categoría en los cuatro atributos en la tabla de análisis de varianza, combinado con la exploración previa de las características de las tres flores de iris conocidas usando diagramas de caja, inicialmente se nombró al cluster3 como la cerda. El tipo de iris. Cluster2 es un iris de Virginia, mientras que cluster1 es un iris que cambia de color.