Descripción general de los algoritmos de agrupación en clústeres de minería de datos
Fuente | Zhihu
Este artículo presenta principalmente los principios, procesos de aplicación, técnicas de uso, métodos de evaluación, casos de aplicación, etc. Para obtener detalles específicos del algoritmo, consulte la información relevante. El principal uso de la agrupación es la segmentación de clientes.
1. Clasificación VS agrupación
La clasificación es "aprendizaje supervisado", lo que significa que usted sabe de antemano qué categorías se pueden dividir.
El clustering es un "aprendizaje no supervisado", en el que no se sabe de antemano qué categorías se quieren clasificar.
Un ejemplo es la manzana, el plátano, el kiwi, el móvil y el teléfono.
Basándonos en diferentes características, clasificamos las manzanas, los plátanos y los kiwis en una categoría de frutas, y clasificamos los teléfonos móviles en una categoría de productos digitales.
El método de clasificación es que cuando juzgamos "fresa", la clasificamos como "fruta".
Entonces, la explicación común es: la clasificación es aprender la capacidad de juzgar datos del conjunto de entrenamiento y luego hacer juicios de clasificación sobre datos desconocidos; la agrupación es clasificar cosas similares en una categoría, y no es así; requiere Aprender de los datos de entrenamiento.
Explicación académica: La clasificación consiste en analizar un grupo de objetos en la base de datos para encontrar sus atributos similares. Luego se dividen en diferentes categorías según el modelo de clasificación. La clasificación de datos primero construye un modelo de clasificación basado en los datos de entrenamiento y luego clasifica los datos de prueba en la base de datos, o genera descripciones más apropiadas basadas en estas descripciones de clasificación.
La agrupación es el proceso de dividir los datos de una base de datos en una serie de subconjuntos o categorías significativas. La distancia entre individuos de la misma categoría es pequeña, mientras que la distancia entre individuos de diferentes categorías es grande. El análisis de conglomerados a menudo se denomina "aprendizaje no supervisado".
2. Aplicaciones comunes del clustering
Nuestras aplicaciones en escenarios reales incluyen:
Marketing: segmentación de clientes
Seguros: búsqueda de clientes con altas reclamaciones de seguro de automóvil
Planificación urbana: búsqueda de propiedades similares
Por ejemplo, si está haciendo un análisis de compradores y vendedores, escuchará el concepto de segmentación de clientes, utilice estándares para dividir a los clientes en clientes de alto valor, clientes de valor general y usuarios potenciales, etc., y proporcionar diferentes planes de marketing para clientes con diferentes valores;
Otro ejemplo son las compañías de seguros, aquellos clientes con altas pérdidas. ratios son las compañías de seguros El tema más preocupante es que esta es la clave de la rentabilidad de las compañías de seguros;
También cuando se trata de bienes raíces, en función de la ubicación, el precio, las instalaciones circundantes y otros factores del inmueble , Las áreas inmobiliarias populares y las áreas inmobiliarias impopulares son áreas inmobiliarias agrupadas.
3. Método K-medias
(1) Supongamos que hay K grupos (2) Objetivo: encontrar grupos apretados
Agrupación de inicialización aleatoria
a. p>
b. Asignar datos al clúster más cercano
c. Repetir el cálculo de los clústeres
d.
Desventajas: problemático para la agrupación no convexa
¿Cuándo K=?
K<= tamaño de muestra
Depende de la distribución de los datos y la resolución requerida
AIC, DIC
La agrupación jerárquica evita este problema
4. Evalúe la agrupación
p>Qué tan robusta ¿lo es?
¿Cómo está el clustering? ¿Está sobreagregado?
Esto depende en gran medida de lo que la agregación esté intentando hacer.
5. Ejemplo de caso
Caso 1: Gráfico de nubes de agrupación de vendedores
Autor: Suji reimpreso Suji reimpreso con permiso
Texto original Enlace :/dataman/20397891