Los diez mejores algoritmos clásicos para la minería de datos, siempre claros, si quieres mejorar, recógelos rápidamente
La Conferencia Internacional IEEE sobre Minería de Datos (ICDM), una organización académica internacional autorizada, seleccionó los diez mejores algoritmos clásicos en el campo de la minería de datos: C4.5, k-Means, SVM, Apriori, EM , PageRank, AdaBoost, kNN , Naive Bayes y CART.
No solo se seleccionan los diez mejores algoritmos, sino también los 18 algoritmos que participan en la selección. De hecho, cualquiera de ellos puede denominarse algoritmos clásicos y han tenido un profundo impacto en el campo de los datos. minería. Hoy compartimos principalmente 10 de los algoritmos clásicos. El contenido es relativamente aburrido. Se recomienda guardarlos para estudiarlos más adelante.
1.C4.5
El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación entre los algoritmos de aprendizaje automático, y el algoritmo central es el algoritmo ID3. El algoritmo C4.5 hereda las ventajas del algoritmo ID3 y mejora el algoritmo ID3 en los siguientes aspectos:
1) Uso de la tasa de ganancia de información para seleccionar atributos, superando las deficiencias del uso de la ganancia de información para seleccionar atributos. Puedes seleccionar atributos con más valores;
2) Podar durante el proceso de construcción del árbol;
3) Ser capaz de completar la discretización de atributos continuos;
4) Capaz de manejar datos incompletos.
El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. La desventaja es que en el proceso de construcción del árbol, el conjunto de datos debe escanearse y ordenarse varias veces, lo que resulta en la ineficiencia del algoritmo (el algoritmo CART relativo solo necesita escanear el conjunto de datos dos veces. A continuación solo se presentan las ventajas y desventajas del árbol de decisión).
2.El algoritmo k-means es el algoritmo K-Means
El algoritmo K-means es un algoritmo de agrupamiento que divide n según los atributos del objeto (k lt; n) objetos se dividen en k particiones. Es muy similar al algoritmo de expectativa máxima que maneja mezclas de distribuciones normales en el sentido de que ambos intentan encontrar los centros de conglomerados naturales. Se supone que los atributos del objeto provienen de vectores espaciales y el objetivo es minimizar la suma de los errores cuadráticos medios dentro de cada grupo.
3. Máquina de vectores de soporte
La máquina de vectores de soporte (SVM) es un método de aprendizaje supervisado. Es un método de aprendizaje supervisado ampliamente utilizado en clasificación estadística y análisis de regresión. Las máquinas de vectores de soporte asignan vectores a un espacio de alta dimensión donde se crea un hiperplano de espaciado máximo. Cree dos hiperplanos paralelos a ambos lados del hiperplano que separa los datos. Un hiperplano de separación maximiza la distancia entre dos hiperplanos paralelos. Cuanto mayor sea la distancia o espacio entre hipotéticos hiperplanos paralelos, menor será el error general del clasificador. van der Walt y Barnard compararon las máquinas de vectores de soporte con otros clasificadores.
4. Algoritmo apriori
El algoritmo Apriori es uno de los algoritmos más influyentes para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea de conjuntos de frecuencias de dos etapas. Las reglas de asociación se clasifican como reglas de asociación booleanas unidimensionales y de un solo nivel. Aquí, el conjunto de todos los elementos cuyo soporte es mayor que el soporte mínimo se denomina conjunto de elementos frecuentes o, para abreviar, conjunto de frecuencias.
5. Algoritmo de Maximización de Expectativas (EM)
En informática estadística, el algoritmo de Maximización de Expectativas (EM) es un método para encontrar la estimación de máxima verosimilitud de los parámetros en un modelo de probabilidad. en el que los modelos probabilísticos se basan en variables latentes no observables. La expectativa máxima se usa comúnmente en el campo de la agrupación de datos en el aprendizaje automático y la visión por computadora.
6.PageRank
PageRank es un elemento importante del algoritmo de Google En septiembre de 2001, Larry Page, uno de los fundadores de Google, obtuvo una patente estadounidense para este algoritmo. Por lo tanto, la página en PageRank no se refiere a la página web, sino a la página, es decir, este método de clasificación lleva el nombre de la página.
PageRank mide el valor de un sitio web en función del número y la calidad de los enlaces externos e internos que apuntan a él. El concepto detrás de PageRank es que cada enlace a una página es un voto para esa página. una página Cuantos más, más votos recibirá la página de otros sitios. Esto se llama "popularidad de enlaces", una medida de cuántas personas están dispuestas a vincular su sitio web al suyo. El concepto de PageRank tiene su origen en la frecuencia con la que se cita un artículo en el mundo académico, es decir, la frecuencia con la que otros lo citan. -Cuantas más veces un artículo sea citado por otros, más autoridad tendrá.
7.AdaBoost
Adaboost es un algoritmo iterativo. Su idea central es entrenar diferentes clasificadores (clasificadores débiles) para el mismo conjunto de entrenamiento y luego agregar estos clasificadores débiles. Forme un clasificador final más fuerte (clasificador fuerte). El algoritmo en sí funciona cambiando la distribución de los datos, lo que determina el peso de cada muestra en función de si se clasificó correctamente en cada conjunto de entrenamiento y la precisión de la última clasificación general. El nuevo conjunto de datos con pesos modificados se envía a clasificadores de nivel inferior para su entrenamiento y, finalmente, los clasificadores entrenados cada vez se fusionan para convertirse en el clasificador de decisión final.
8. KNN: Clasificación de K-Vecino más cercano
El algoritmo de clasificación K-Vecino más cercano (KNN) es un método teóricamente maduro y uno de los algoritmos de aprendizaje automático más simples. La idea de este método es que si la mayoría de las k muestras más similares (es decir, vecinas más cercanas en el espacio de características) de una muestra pertenecen a una determinada categoría, entonces la muestra también pertenece a esta categoría.
9. Modelo Bayesiano de Nairobi
Entre los muchos modelos de clasificación, los más utilizados son el modelo de árbol de decisión (DTM) y el modelo Bayesiano de Nairobi (NBC). El modelo Naive Bayesiano (NBC) se deriva de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable.
Al mismo tiempo, el modelo NBC requiere pocos parámetros para estimar, es menos sensible a los datos faltantes y tiene un algoritmo relativamente simple. En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Sin embargo, este no es siempre el caso en las aplicaciones prácticas, porque el modelo NBC supone que los atributos son independientes entre sí, y esta suposición a menudo no es cierta en las aplicaciones prácticas, lo que tiene un cierto impacto en la clasificación correcta del modelo NBC. Cuando el número de atributos es grande o la correlación entre atributos es grande, la eficiencia de clasificación del modelo NBC no es tan buena como la del modelo de árbol de decisión. El modelo NBC funciona mejor cuando la correlación entre atributos es pequeña.
10.CART: Árboles de Clasificación y Regresión
CART, Árboles de Clasificación y Regresión. Hay dos ideas clave en los árboles de clasificación. La primera es la idea de dividir recursivamente el espacio de la variable independiente (corte binario); la segunda idea es utilizar datos de verificación para la poda (prepoda, pospoda). La construcción de árboles modelo basada en árboles de regresión puede aumentar la dificultad, pero al mismo tiempo también se mejoran sus resultados de clasificación.
Bibliografía: "Aprendizaje automático en la práctica".