Red de conocimiento informático - Aprendizaje de código fuente - Análisis de conglomerados básico para el análisis de datos

Análisis de conglomerados básico para el análisis de datos

El análisis de conglomerados se utiliza para clasificar muestras, generalmente utilizando datos cuantitativos como estándar de clasificación; los usuarios pueden establecer el número de conglomerados por sí mismos y, si no se configura, el sistema generalmente proporcionará sugerencias predeterminadas; que los usuarios establezcan el número de clusters entre 3 y 6.

SPSSAU funciona de la siguiente manera:

Número de grupos: la configuración del número de grupos en varias categorías se basa principalmente en las ideas de investigación del investigador. Si no se realiza ninguna configuración, SPSSAU utiliza de forma predeterminada la agrupación. El número es 3. En circunstancias normales, se recomienda establecer el número de grupos entre 3 y 6.

Estandarización: el algoritmo de agrupación determina las categorías en función de la distancia, por lo que generalmente es necesario estandarizarlo antes de seleccionar SPSSAU para la estandarización. Una vez estandarizados los datos, el tamaño relativo de los datos todavía tiene significado (por ejemplo, cuanto mayor es el número, mayor es el PIB), pero el significado real desaparece.

Guardar categoría: seleccione 'Guardar categoría' para guardar el análisis. SPSSAU generará un nuevo título para su identificación. También puede ver la "Categoría de agrupamiento" analizada en "Mis datos" en la esquina superior derecha. .

El nuevo título se verá así: Cluster_*******.

Utilice el análisis de conglomerados para clasificar las muestras y utilice el método de análisis de conglomerados Kmeans. Como se puede ver en la tabla anterior: el agrupamiento final resulta en 4 grupos, y las proporciones de estos 4 grupos son del 20,00% respectivamente. 30,00%, 20,00%, 30,00%. En general, la distribución de las cuatro categorías de personas es relativamente uniforme, lo que indica que el efecto general de agrupación es mejor.

Utilice el análisis de varianza para explorar las características diferenciales de cada categoría. En la tabla anterior, podemos ver que los grupos de categorías del grupo son significativos para todos los elementos de la investigación (p<0,05), lo que significa que los 4. Los grupos de clases tienen diferencias obvias en sus características en los elementos de investigación. Las diferencias específicas se pueden comparar mediante valores promedio y, finalmente, las categorías de los grupos se nombran según la situación real.

A partir de los resultados anteriores, todos los elementos de la investigación muestran significancia, lo que indica que existen diferencias obvias en las características entre diferentes categorías y que el efecto de agrupación es bueno.