¿Cuáles son los algoritmos clásicos para la minería de datos?
1.C4.5
El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación en algoritmos de aprendizaje automático. Su algoritmo central es el algoritmo ID3. Las ventajas del algoritmo y el algoritmo ID3 se han mejorado en los siguientes aspectos:
1) El uso de la tasa de ganancia de información para seleccionar atributos supera la desventaja de usar la ganancia de información para seleccionar atributos con más valores;
2) Realizar poda durante el proceso de construcción del árbol;
3) Ser capaz de completar la discretización de atributos continuos;
4) Ser capaz de completar los datos. procesado.
2. El algoritmo k-means es el algoritmo K-Means.
El algoritmo k-means es un algoritmo de agrupación que divide n objetos en k segmentos según sus atributos, k. < n. Es muy similar al algoritmo de maximización de expectativas que trata con distribuciones normales mixtas en el sentido de que ambos intentan encontrar los centros de grupos naturales en los datos. Se supone que los atributos del objeto provienen de vectores espaciales y el objetivo es minimizar la suma de los errores cuadráticos medios dentro de cada grupo.
3. Máquinas de vectores de soporte
Máquina de vectores de soporte, en inglés es Support Vector Machine, denominada máquina SV (generalmente denominada SVM en el documento). Es un método de aprendizaje supervisado que se utiliza ampliamente en clasificación estadística y análisis de regresión. Las máquinas de vectores de soporte asignan vectores a un espacio de dimensiones superiores, donde se establece un hiperplano de margen máximo. Se construyen dos hiperplanos paralelos a ambos lados del hiperplano que separa los datos. El hiperplano de separación maximiza la distancia entre dos hiperplanos paralelos.
4. El algoritmo Apriori
El algoritmo Apriori es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. El núcleo de su algoritmo es un algoritmo recursivo basado en la idea del conjunto de frecuencias de dos etapas. Esta regla de asociación se clasifica como regla de asociación booleana unidimensional y de un solo nivel. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes o, para abreviar, conjuntos de elementos frecuentes.
El editor de Qingteng compartirá contigo aquí cuáles son los algoritmos clásicos de minería de datos y cómo empezar. Si tiene un gran interés en la ingeniería de big data, espero que este artículo pueda ayudarle. Si desea saber más sobre las habilidades y materiales de los analistas de datos y los ingenieros de big data, puede hacer clic en otros artículos de este sitio para obtener más información.