Red de conocimiento informático - Aprendizaje de código fuente - ¿Qué incluye la tecnología de minería de datos?

¿Qué incluye la tecnología de minería de datos?

Técnicas estadísticas, reglas de asociación, análisis MBR basado en historial, algoritmo genético, detección de agregación, análisis de conexiones, árbol de decisión, red neuronal, conjunto aproximado, conjunto difuso, análisis de regresión, análisis de diferencias, descripción de conceptos.

1. Tecnología estadística

La minería de datos involucra muchos campos y tecnologías científicos, como la tecnología estadística. La idea principal de utilizar tecnología estadística para extraer conjuntos de datos es que los métodos estadísticos asumen una distribución o modelo de probabilidad (como una distribución normal) para un conjunto de datos determinado y luego utilizan los métodos correspondientes para extraer de acuerdo con el modelo.

2. Reglas de asociación

La asociación de datos es un tipo importante de conocimiento detectable que existe en la base de datos. Si existe cierta regularidad en los valores de dos o más variables, se llama correlación. Las asociaciones se pueden dividir en asociaciones simples, asociaciones temporales y asociaciones causales. El propósito del análisis de correlación es encontrar la red de correlación oculta en la base de datos. A veces, la función de correlación de los datos en la base de datos no se conoce, e incluso si se conoce, es incierta, por lo que las reglas generadas por el análisis de correlación tienen credibilidad.

3. Análisis histórico de MBR (razonamiento basado en memoria)

Primero busque situaciones similares basadas en conocimiento empírico y luego aplique la información de estas situaciones al ejemplo actual. Ésta es la esencia del MBR (Razonamiento basado en memoria). MBR primero busca vecinos que sean similares al nuevo registro y luego los utiliza para clasificar y valorar los nuevos datos. Hay tres problemas principales al usar MBR: encontrar datos históricos deterministas; decidir la forma más eficiente de representar datos históricos y decidir la función de distancia, la función conjunta y el número de vecinos;

4. Algoritmos Genéticos GA (Algoritmos Genéticos)

Una tecnología de optimización basada en la teoría evolutiva y que utiliza métodos de diseño como la combinación genética, la variación genética y la selección natural. La idea principal es: de acuerdo con el principio de supervivencia del más apto, formar un nuevo grupo compuesto por las reglas más adecuadas del grupo actual y los descendientes de estas reglas. Normalmente, la idoneidad de una regla se evalúa mediante su precisión de clasificación en el conjunto de muestras de entrenamiento.

5. Detección de clusters

El proceso de agrupar una colección de objetos físicos o abstractos en múltiples clases compuestas por objetos similares se llama clustering. Un grupo generado por agrupación es una colección de objetos de datos que son similares entre sí en el mismo grupo y diferentes de los objetos de otros grupos. El grado de disimilitud se calcula en función del valor del atributo del objeto descrito, y la distancia es un método de medición comúnmente utilizado.

6. Análisis de enlaces

Análisis de enlaces, su teoría básica es la teoría de grafos. La idea de la teoría de grafos es encontrar un algoritmo que pueda producir buenos resultados pero no resultados perfectos, en lugar de encontrar un algoritmo que proporcione una solución perfecta. El análisis de conexión utiliza la idea de que si son factibles resultados imperfectos, entonces dicho análisis es un buen análisis. Mediante el análisis de conexión, se pueden analizar algunos patrones a partir del comportamiento de algunos usuarios y, al mismo tiempo, los conceptos generados se pueden aplicar a un grupo de usuarios más amplio.

7. Árbol de decisión

El árbol de decisión proporciona una forma de mostrar reglas como qué valor se obtendrá y en qué condiciones.

8. Red neuronal

Estructuralmente, una red neuronal se puede dividir en capa de entrada, capa de salida y capa oculta. Cada nodo en la capa de entrada corresponde a una variable predictora. Los nodos de la capa de salida corresponden a las variables de destino y puede haber varios nodos. Entre la capa de entrada y la capa de salida está la capa oculta (invisible para los usuarios de la red neuronal). La cantidad de capas ocultas y la cantidad de nodos en cada capa determinan la complejidad de la red neuronal.

Además de los nodos en la capa de entrada, cada nodo de la red neuronal está conectado a muchos nodos delante de él (llamados nodos de entrada de este nodo). Cada conexión corresponde a un peso Wxy. y el valor del nodo se obtiene tomando la suma de los productos de los valores de todos sus nodos de entrada y los pesos de conexión correspondientes como entrada de una función. A esta función la llamamos función de actividad o función de compresión.

9. Conjunto aproximado

La teoría de conjuntos aproximados se basa en el establecimiento de clases de equivalencia dentro de los datos de entrenamiento dados. Todas las muestras de datos que forman una clase de equivalencia son indiscriminadas, es decir, estas muestras son equivalentes para los atributos que describen los datos. Dados los datos del mundo real, a menudo hay clases que no se pueden distinguir por los atributos disponibles. Se utilizan conjuntos aproximados para aproximar o definir aproximadamente esta clase.

10. Conjuntos difusos

La teoría de conjuntos difusos introduce la lógica difusa en el sistema de clasificación de minería de datos, permitiendo la definición de valores o límites de dominio "difusos". La lógica difusa utiliza valores de verdad entre 0,0 y 1,0 para representar el grado en que un valor particular es un miembro determinado, en lugar de límites exactos para clases o conjuntos. La lógica difusa proporciona la posibilidad de procesar a un alto nivel de abstracción.

11. Análisis de regresión

El análisis de regresión se divide en regresión lineal, regresión múltiple y regresión no lineal. En la regresión lineal, los datos se modelan con una línea recta, mientras que la regresión múltiple es una extensión de la regresión lineal que involucra múltiples variables predictivas. La regresión no lineal consiste en agregar términos polinomiales al modelo lineal básico para formar un modelo no lineal.

12. Análisis diferencial

El propósito del análisis diferencial es intentar encontrar anomalías en los datos, como datos de ruido, datos de fraude y otros datos anormales, para obtener datos útiles. información.

13. Descripción del concepto

La descripción conceptual consiste en describir la connotación de un determinado tipo de objeto y resumir las características relevantes de este tipo de objeto. La descripción del concepto se divide en descripción característica y descripción diferencial. La primera describe las características únicas de un determinado tipo de objeto y la segunda describe las diferencias entre diferentes tipos de objetos. Generar una descripción característica de una clase solo involucra a todos los objetos de ese tipo. de objeto. de seguridad.