Red de conocimiento informático - Aprendizaje de código fuente - Los diez algoritmos clásicos de la minería de datos y sus respectivas ventajas

Los diez algoritmos clásicos de la minería de datos y sus respectivas ventajas

Los diez mejores algoritmos clásicos para la minería de datos y sus respectivas ventajas

No solo se seleccionan los diez mejores algoritmos, sino también los 18 algoritmos que participan en la selección. de ellos se puede llamar algoritmo clásico, que ha tenido un impacto muy profundo en el campo de la minería de datos.

1.C4.5

El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación entre los algoritmos de aprendizaje automático, y su algoritmo central es el algoritmo ID3. El algoritmo C4.5 hereda las ventajas del algoritmo ID3 y mejora el algoritmo ID3 en los siguientes aspectos:

1) Seleccionar atributos según la tasa de ganancia de información, lo que supera el problema de seleccionar valores al seleccionar atributos según la ganancia de información. Desventajas de más atributos; 2) poda durante la construcción del árbol; 3) capacidad de completar la discretización de atributos continuos;

El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. La desventaja es que en el proceso de construcción del árbol, el conjunto de datos debe escanearse y ordenarse varias veces, lo que genera ineficiencia en el algoritmo.

2.El algoritmo k-means es el algoritmo K-Means

El algoritmo k-means es un algoritmo de agrupamiento que combina n objetos según los atributos del objeto (k lt; n) El objeto se divide en k particiones, lo cual es muy similar al algoritmo de expectativa máxima que maneja mezclas de distribuciones normales, en el sentido de que ambos intentan encontrar los centros de agrupación naturales de los datos. Se supone que los atributos del objeto provienen de vectores espaciales y el objetivo es minimizar la suma de los errores cuadráticos medios dentro de cada grupo.

3. Máquina de vectores de soporte

La máquina de vectores de soporte (SVM) es un método de aprendizaje supervisado. Es un método de aprendizaje supervisado ampliamente utilizado en clasificación estadística y análisis de regresión. Las máquinas de vectores de soporte asignan vectores a un espacio de alta dimensión donde se crea un hiperplano de espaciado máximo. Cree dos hiperplanos paralelos a ambos lados del hiperplano que separa los datos. Un hiperplano de separación maximiza la distancia entre dos hiperplanos paralelos. Cuanto mayor sea la distancia o espacio entre hipotéticos hiperplanos paralelos, menor será el error general del clasificador. van der Walt y Barnard compararon las máquinas de vectores de soporte con otros clasificadores.

4. Algoritmo a priori

El algoritmo Apriori es uno de los algoritmos más influyentes para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea de conjuntos de frecuencias de dos etapas. Las reglas de asociación se clasifican como reglas de asociación booleanas unidimensionales y de un solo nivel. Aquí, el conjunto de todos los elementos cuyo soporte es mayor que el soporte mínimo se denomina conjunto de elementos frecuentes o, para abreviar, conjunto de frecuencias.

5. Algoritmo de maximización de expectativas (EM)

En informática estadística, el algoritmo de maximización de expectativas (EM) es un método para encontrar las estimaciones de máxima verosimilitud de los parámetros en un modelo de probabilidad. en el que los modelos probabilísticos se basan en variables latentes no observables. La expectativa máxima se usa comúnmente en el campo de la agrupación de datos en el aprendizaje automático y la visión por computadora.

6.PageRank

PageRank es un elemento importante del algoritmo de Google En septiembre de 2001, Larry Page, uno de los fundadores de Google, obtuvo una patente estadounidense para este algoritmo. Por lo tanto, la página en PageRank no se refiere a la página web, sino a la página, es decir, este método de clasificación lleva el nombre de la página.

PageRank mide el valor de un sitio web en función del número y la calidad de sus enlaces externos e internos. La idea detrás de PageRank es que cada enlace a una página es un voto para esa página. Cuantos más, más votos recibirá la página de otros sitios. Esto se llama "popularidad de enlaces", una medida de cuántas personas están dispuestas a vincular su sitio web al suyo. El concepto de PageRank tiene su origen en la frecuencia con la que se cita un artículo en el mundo académico, es decir, la frecuencia con la que otros lo citan. -Cuantas más veces un artículo sea citado por otros, más autoridad tendrá.

7.AdaBoost

Adaboost es un algoritmo iterativo. Su idea central es entrenar diferentes clasificadores (clasificadores débiles) para el mismo conjunto de entrenamiento y luego agregar estos clasificadores débiles para formar. un clasificador final más fuerte (clasificador fuerte). El algoritmo en sí funciona cambiando la distribución de los datos, lo que determina el peso de cada muestra en función de si se clasificó correctamente en cada conjunto de entrenamiento y la precisión de la última clasificación general. El nuevo conjunto de datos con pesos modificados se envía a clasificadores de nivel inferior para su entrenamiento y, finalmente, los clasificadores entrenados cada vez se fusionan como el clasificador de decisión final.

8.KNN: Clasificación de K-Vecino más cercano

El algoritmo de clasificación K-Vecino más cercano (KNN) es un método teóricamente maduro y uno de los algoritmos de aprendizaje automático más simples. La idea de este método es que si la mayoría de las k muestras más similares (es decir, vecinas más cercanas en el espacio de características) de una muestra pertenecen a una determinada categoría, entonces la muestra también pertenece a esta categoría.

9. Modelo bayesiano de Nairobi

Entre los numerosos modelos de clasificación, los más utilizados son el modelo de árbol de decisión (DTM) y el modelo bayesiano de Nairobi (NBC). El modelo Naive Bayesiano (NBC) se deriva de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable. Al mismo tiempo, el modelo NBC requiere que se estimen pocos parámetros, no es sensible a los datos faltantes y el algoritmo es relativamente simple. En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Pero este no es siempre el caso en las aplicaciones prácticas, porque el modelo NBC supone que los atributos son independientes entre sí, y esta suposición a menudo no es cierta en las aplicaciones prácticas, lo que tiene un cierto impacto en la clasificación correcta del modelo NBC. Cuando el número de atributos es grande o la correlación entre atributos es grande, la eficiencia de clasificación del modelo NBC no es tan buena como la del modelo de árbol de decisión. El modelo NBC funciona mejor cuando la correlación entre atributos es pequeña. 10.CART: Árboles de Clasificación y Regresión

CART, Árboles de Clasificación y Regresión. Hay dos ideas clave en los árboles de clasificación. La primera idea es dividir recursivamente el espacio de la variable independiente; la segunda idea es utilizar datos de verificación para la poda.

Los anteriores son los diez algoritmos clásicos de minería de datos y sus respectivas ventajas que he compartido con usted. Si desea obtener más información, puede seguir a Global Green Ivy para compartir más información útil.