Método de puntos en métodos de análisis de datos
1) Método de red neuronal
La red neuronal tiene buena robustez, autoorganización, autoadaptación y paralelismo Características como el procesamiento , El almacenamiento distribuido y la alta tolerancia a fallas son muy adecuados para resolver problemas de minería de datos, por lo que ha recibido cada vez más atención en los últimos años. Los modelos típicos de redes neuronales se dividen principalmente en tres categorías: modelos de redes neuronales de retroalimentación para clasificación, predicción y reconocimiento de patrones representados por perceptrones, modelos de retropropagación de BP y modelos discretos y modelos continuos de hopfield. cálculo de optimización representado por art; el modelo de red neuronal autoorganizada para agrupación representado por los modelos art y koholon; y el modelo de red neuronal autoorganizada para agrupación representada por los modelos art y koholon. Los métodos de mapeo autoorganizados para la agrupación están representados por el modelo artístico y el modelo koholon. La desventaja del método de red neuronal es que tiene una naturaleza de "caja negra", lo que dificulta que las personas comprendan el proceso de aprendizaje y toma de decisiones de la red.
(2) Algoritmo genético
El algoritmo genético es un algoritmo de búsqueda aleatoria basado en la selección natural biológica y el mecanismo genético. Es un método de optimización global biónico. Los algoritmos genéticos tienen las características de paralelismo implícito y fácil combinación con otros modelos, por lo que son ampliamente utilizados en el campo de la minería de datos.
La aplicación de algoritmos genéticos también se refleja en la combinación con redes neuronales, conjuntos aproximados y otras tecnologías. Por ejemplo, el algoritmo genético se utiliza para optimizar la estructura de la red neuronal y eliminar conexiones redundantes y unidades de capa ocultas sin aumentar la tasa de error. El algoritmo genético se combina con el algoritmo BP para el entrenamiento de la red neuronal y luego se extraen las reglas; de la red, etc. Sin embargo, el algoritmo del algoritmo genético es relativamente complejo y el problema de la convergencia temprana al mínimo local aún no se ha resuelto.
(3) Método del árbol de decisión
El árbol de decisión es un algoritmo comúnmente utilizado en el modelado predictivo. Clasifica deliberadamente una gran cantidad de datos y encuentra información valiosa e información potencial. Sus principales ventajas son la descripción sencilla y la clasificación rápida, lo que resulta especialmente adecuado para el procesamiento de datos a gran escala. El método de árbol de decisión más antiguo y más influyente es el famoso algoritmo id3 basado en la entropía de la información propuesto por Quinlan. Sus principales problemas son: id3 es un algoritmo de aprendizaje no incremental; el árbol de decisión id3 es un árbol de decisión univariado, que es difícil de expresar conceptos complejos; la interrelación entre homología no se enfatiza lo suficiente y la capacidad anti-ruido es pobre; En respuesta a los problemas anteriores, han surgido muchos algoritmos mejorados, como el algoritmo de aprendizaje incremental id4 diseñado por Schlimmer y Fisher, el algoritmo ible propuesto por Zhong Ming, Chen Wenwei, etc.
(4) Método de conjuntos aproximados
La teoría de conjuntos aproximados es una herramienta matemática para estudiar conocimientos imprecisos e inciertos. El método del conjunto aproximado tiene las siguientes ventajas: no necesita proporcionar información adicional; simplifica el espacio de expresión de la información de entrada; el algoritmo es simple y fácil de operar; El objeto procesado por conjunto aproximado es una tabla de información similar a una tabla relacional bidimensional. El actual sistema de gestión de bases de datos relacionales maduro y el sistema de gestión de almacén de datos recientemente desarrollado han sentado una base sólida para la extracción de datos utilizando conjuntos aproximados. Sin embargo, la base matemática de los conjuntos aproximados es la teoría de conjuntos y es difícil tratar directamente con atributos continuos. Los atributos continuos son omnipresentes en las tablas de información real. Por tanto, la discretización de atributos continuos es una dificultad que restringe la aplicación práctica de la teoría de conjuntos aproximados. En la actualidad, se han desarrollado internacionalmente varios software de aplicación de herramientas basados en conjuntos, como kdd-r desarrollado por la Universidad de Regina en Canadá; lers desarrollado por la Universidad de Kansas en los Estados Unidos, etc.
(5) Método de cubrir ejemplos positivos y excluir contraejemplos
Utiliza la idea de cubrir todos los ejemplos positivos y excluir todos los contraejemplos para encontrar reglas. Primero seleccione cualquier semilla en el conjunto de ejemplos positivos y luego vaya al conjunto de ejemplos negativos para comparar una por una. Si es compatible con el selector formado por el valor del campo, se descarta; si no, se conserva; Según esta idea, todas las semillas de ejemplos positivos se procesan en un bucle y se obtendrán las reglas de los ejemplos positivos (fórmula de combinación del selector).
Los algoritmos típicos incluyen el método aq11 de Michalski, el método aq15 mejorado de Hong Jiarong y su método ae5.
(6) Métodos de análisis estadístico
Hay dos tipos de relaciones entre elementos de campo de la base de datos: relaciones funcionales (relaciones definidas que pueden expresarse mediante fórmulas funcionales) y relaciones de correlación (que no pueden expresarse mediante fórmulas funcionales). expresarse mediante fórmulas funcionales) (pero aún estar relacionados con ciertas relaciones), su análisis puede utilizar métodos estadísticos, es decir, utilizar principios estadísticos para analizar la información de la base de datos. Los más utilizados incluyen análisis estadístico (encontrar el valor máximo, valor mínimo, suma, valor promedio, etc. en una gran cantidad de datos), análisis de regresión (usando ecuaciones de regresión para expresar la relación cuantitativa entre variables) y análisis de correlación (usando coeficientes de correlación para medir la relación entre variables). Grado de correlación), análisis de varianza (juzgar si existen diferencias entre los parámetros generales a partir de las diferencias numéricas calculadas a partir de las estadísticas de la muestra), etc.
(7) Método de conjuntos difusos
Es decir, la teoría de conjuntos difusos se utiliza para realizar juicios difusos, toma de decisiones difusas, reconocimiento de patrones difusos y análisis de agrupamiento difuso en problemas prácticos. Cuanto mayor es la complejidad del sistema, más fuerte es la borrosidad. Generalmente, la teoría de conjuntos difusos utiliza grados de membresía para describir cosas difusas. Li Deyi y otros propusieron un modelo de conversión de incertidumbre cualitativa-cuantitativa: el modelo de nube basado en la teoría difusa tradicional y las estadísticas de probabilidad, y formaron la teoría de la nube.