Red de conocimiento informático - Conocimiento del nombre de dominio - ¡Urgente! ! ! ! ¿Cuáles son los seis algoritmos y técnicas comunes para la minería de datos?

¡Urgente! ! ! ! ¿Cuáles son los seis algoritmos y técnicas comunes para la minería de datos?

Tecnología de minería de datos y tecnología de algoritmos: enfoque conceptual

Algoritmo: detalles paso a paso de una implementación específica

Diferentes objetivos llaman a diferentes tecnologías

La minería de datos se divide en Dos tipos de minería de datos: minería de datos descriptiva y minería de datos normativa

Diferentes tipos de datos llaman a diferentes tecnologías

Tres tecnologías de minería de datos

Agregación automática Detección; árbol; red neuronal

Motivo: una gran cantidad de aplicaciones de software comerciales

que cubren una amplia gama de áreas de minería de datos

El objetivo de la minería directa de datos es la predicción. , Valoración, clasificación y comportamiento característico de variables objetivo predefinidas

Redes neuronales

Minería de datos descriptivos basada en sus objetivos de predicción, valoración, clasificación y comportamiento característico de variables objetivo predefinidas. p>

Red neuronal; árbol de decisión

Minería de datos indirecta: no predice la variable objetivo, el objetivo es descubrir la estructura de todo el conjunto de datos

Detección de agregaciones

p>

Detección automática de agregaciones

Método

K-means es un algoritmo que divide todo el conjunto de datos en K agregaciones.

Cómo funciona la detección de agregación de K-medias

Seleccione aleatoriamente K registros como nodos semilla;

Para el conjunto de registros restante, calcule la relación entre cada registro y K distancia de los nodos semilla y asigne cada registro al nodo semilla más cercano, de modo que todo el conjunto de registros se divida inicialmente en K agregaciones;

Para cada agregación, calcule el centroide de la agregación (punto central de agregación) ;

Para cada agregación, calcule el centroide del agregado (punto central del grupo);

Repita los pasos anteriores con cada centroide como nodo semilla hasta que el grupo ya no cambie.

Consecuencias de la selección de conglomerados

Elección de una función de distancia

Elección de un número adecuado de conglomerados

Interpretación de conglomerados

> Construir árboles de decisión

Visualizar el impacto de las entradas en la agrupación Cómo se ve afectada la agregación por las variables de entrada

Pruebas univariadas

Cuándo utilizar las pruebas de agregación

Árboles de decisión

Clasificación de los árboles de decisión

Los árboles de decisión se dividen en dos tipos, los árboles de clasificación y los árboles de regresión son árboles de decisión para variables discretas. árboles para variables continuas.

Las herramientas genéricas de minería de datos permiten la selección de condiciones de división y reglas de poda, así como parámetros de control (tamaño mínimo de nodo, profundidad máxima del árbol, etc.) para limitar el sobreajuste de los árboles de decisión.

Cómo funciona el árbol de decisión

El árbol de decisión es un árbol. El nodo raíz del árbol es todo el espacio de recopilación de datos. Cada nodo secundario es una prueba de una única variable. Los datos se recogen. El espacio se divide en dos o más bloques. Cada nodo hoja es un registro que pertenece a una categoría.

Primero, se genera un árbol de decisión a partir del conjunto de entrenamiento y luego se elimina del conjunto de prueba. La función de un árbol de decisión es predecir a qué categoría pertenece un nuevo registro.

Cómo se construyen los árboles de decisión

Los árboles de decisión se construyen mediante un proceso de partición recursivo.

Encontrar la división inicial

El conjunto de entrenamiento completo es una colección de árboles de decisión generados, y cada registro en el conjunto de entrenamiento debe haber sido clasificado.

Determine qué dominio de atributo (campo) sirve como el mejor indicador de clasificación actual. El enfoque general es agotar todos los dominios de atributos, cuantificar qué tan bien se divide cada dominio de atributos y calcular cuál es el mejor. El criterio cuantificado es el cálculo de la métrica GINI de diversidad para cada división.

El árbol crece hasta convertirse en un árbol completo

Repita el primer paso hasta que los registros en cada nodo de hoja pertenezcan a la misma categoría.

Poda de datos

Selección de resultados del árbol de decisión

Procesamiento de variables de entrada

Árboles y reglas

Selección de los mejores Capacidad de obtener atributos óptimos

Cuándo utilizar árboles de decisión

Redes neuronales

Modelos neuronales

Modelos biológicos

Neuronas artificiales

Modelo de red neuronal

Topología de red: en capas (feedforward, feedback completamente conectado

Método de aprendizaje: con instructor (la entrada y la salida son conocidas); ); sin guía (salida desconocida)

Mecanismo operativo: síncrono; asíncrono

Las características básicas de las redes neuronales

Consta de una gran cantidad de complejos simples. conexiones compuestas de nodos; procesamiento altamente paralelo; almacenamiento distribuido, la información existe en toda la red, representada por pesos, con la capacidad asociativa de recuperar información completa a partir de información incompleta;

Seis tipos de clasificadores de redes neuronales comúnmente utilizados para el reconocimiento de patrones

Hopfield Net

Hamming Net

Clasificador Carpenter/Grossberg

Red de perceptrones de una sola capa

Red de perceptrones de múltiples capas

Mapa de atributos autoorganizado de Kohonen