¡Urgente! ! ! ! ¿Cuáles son los seis algoritmos y técnicas comunes para la minería de datos?
Algoritmo: detalles paso a paso de una implementación específica
Diferentes objetivos llaman a diferentes tecnologías
La minería de datos se divide en Dos tipos de minería de datos: minería de datos descriptiva y minería de datos normativa
Diferentes tipos de datos llaman a diferentes tecnologías
Tres tecnologías de minería de datos
Agregación automática Detección; árbol; red neuronal
Motivo: una gran cantidad de aplicaciones de software comerciales
que cubren una amplia gama de áreas de minería de datos
El objetivo de la minería directa de datos es la predicción. , Valoración, clasificación y comportamiento característico de variables objetivo predefinidas
Redes neuronales
Minería de datos descriptivos basada en sus objetivos de predicción, valoración, clasificación y comportamiento característico de variables objetivo predefinidas. p>
Red neuronal; árbol de decisión
Minería de datos indirecta: no predice la variable objetivo, el objetivo es descubrir la estructura de todo el conjunto de datos
Detección de agregaciones
p>Detección automática de agregaciones
Método
K-means es un algoritmo que divide todo el conjunto de datos en K agregaciones.
Cómo funciona la detección de agregación de K-medias
Seleccione aleatoriamente K registros como nodos semilla;
Para el conjunto de registros restante, calcule la relación entre cada registro y K distancia de los nodos semilla y asigne cada registro al nodo semilla más cercano, de modo que todo el conjunto de registros se divida inicialmente en K agregaciones;
Para cada agregación, calcule el centroide de la agregación (punto central de agregación) ;
Para cada agregación, calcule el centroide del agregado (punto central del grupo);
Repita los pasos anteriores con cada centroide como nodo semilla hasta que el grupo ya no cambie.
Consecuencias de la selección de conglomerados
Elección de una función de distancia
Elección de un número adecuado de conglomerados
Interpretación de conglomerados
> Construir árboles de decisión
Visualizar el impacto de las entradas en la agrupación Cómo se ve afectada la agregación por las variables de entrada
Pruebas univariadas
Cuándo utilizar las pruebas de agregación
Árboles de decisión
Clasificación de los árboles de decisión
Los árboles de decisión se dividen en dos tipos, los árboles de clasificación y los árboles de regresión son árboles de decisión para variables discretas. árboles para variables continuas.
Las herramientas genéricas de minería de datos permiten la selección de condiciones de división y reglas de poda, así como parámetros de control (tamaño mínimo de nodo, profundidad máxima del árbol, etc.) para limitar el sobreajuste de los árboles de decisión.
Cómo funciona el árbol de decisión
El árbol de decisión es un árbol. El nodo raíz del árbol es todo el espacio de recopilación de datos. Cada nodo secundario es una prueba de una única variable. Los datos se recogen. El espacio se divide en dos o más bloques. Cada nodo hoja es un registro que pertenece a una categoría.
Primero, se genera un árbol de decisión a partir del conjunto de entrenamiento y luego se elimina del conjunto de prueba. La función de un árbol de decisión es predecir a qué categoría pertenece un nuevo registro.
Cómo se construyen los árboles de decisión
Los árboles de decisión se construyen mediante un proceso de partición recursivo.
Encontrar la división inicial
El conjunto de entrenamiento completo es una colección de árboles de decisión generados, y cada registro en el conjunto de entrenamiento debe haber sido clasificado.
Determine qué dominio de atributo (campo) sirve como el mejor indicador de clasificación actual. El enfoque general es agotar todos los dominios de atributos, cuantificar qué tan bien se divide cada dominio de atributos y calcular cuál es el mejor. El criterio cuantificado es el cálculo de la métrica GINI de diversidad para cada división.
El árbol crece hasta convertirse en un árbol completo
Repita el primer paso hasta que los registros en cada nodo de hoja pertenezcan a la misma categoría.
Poda de datos
Selección de resultados del árbol de decisión
Procesamiento de variables de entrada
Árboles y reglas
Selección de los mejores Capacidad de obtener atributos óptimos
Cuándo utilizar árboles de decisión
Redes neuronales
Modelos neuronales
Modelos biológicos
Neuronas artificiales
Modelo de red neuronal
Topología de red: en capas (feedforward, feedback completamente conectado
Método de aprendizaje: con instructor (la entrada y la salida son conocidas); ); sin guía (salida desconocida)
Mecanismo operativo: síncrono; asíncrono
Las características básicas de las redes neuronales
Consta de una gran cantidad de complejos simples. conexiones compuestas de nodos; procesamiento altamente paralelo; almacenamiento distribuido, la información existe en toda la red, representada por pesos, con la capacidad asociativa de recuperar información completa a partir de información incompleta;
Seis tipos de clasificadores de redes neuronales comúnmente utilizados para el reconocimiento de patrones
Hopfield Net
Hamming Net
Clasificador Carpenter/Grossberg
Red de perceptrones de una sola capa
Red de perceptrones de múltiples capas
Mapa de atributos autoorganizado de Kohonen