¿Qué tecnologías se deben aprender para la minería de big data?
El procesamiento de big data requiere un sistema integral, complejo y multifacético. Hay muchos módulos de procesamiento en el sistema y la tecnología de minería de datos existe como una identidad independiente en todo el sistema que procesa big data. Los módulos se complementan y se desarrollan de forma coordinada. En la era del big data, el estado de la tecnología de minería de datos no tiene paralelo. El proceso básico de minería de datos
Antes de hablar formalmente sobre la lista de conocimientos de minería de datos, permítanme hablarles primero sobre el proceso básico de minería de datos.
El proceso de minería de datos se puede dividir en los siguientes 6 pasos.
Comprensión empresarial: la minería de datos no es nuestro propósito, nuestro propósito es ayudar mejor a la empresa, por lo que el primer paso es comprender los requisitos del proyecto desde una perspectiva empresarial. Sobre esta base, realizaremos la minería de datos. Se definen objetivos.
Comprensión de los datos: intente recopilar algunos datos y luego explore los datos, incluida la descripción de los datos, la verificación de la calidad de los datos, etc. Esto le ayudará a obtener una comprensión preliminar de los datos recopilados.
Preparación de datos: comience a recopilar datos, realice la limpieza de datos, la integración de datos y otras operaciones para completar el trabajo de preparación antes de la extracción de datos.
Construcción de modelos: seleccione y aplique varios modelos de minería de datos y optimícelos para obtener mejores resultados de clasificación.
Evaluación del modelo: evalúe el modelo y verifique cada paso de su construcción para confirmar si logra los objetivos comerciales predeterminados.
Comunicado en línea: La función del modelo es encontrar minas de oro a partir de los datos, que es lo que llamamos "conocimiento". El conocimiento adquirido debe transformarse en una forma que los usuarios puedan utilizar y el. La forma de presentación puede ser un informe. También puede implementar un proceso de extracción de datos relativamente complejo y repetible. Si los resultados de la minería de datos son parte de las operaciones diarias, el seguimiento y el mantenimiento posteriores serán importantes. Los diez mejores algoritmos para la minería de datos
Para realizar tareas de minería de datos, los científicos de datos han propuesto varios modelos. Entre los muchos modelos de minería de datos, la organización académica internacionalmente autorizada ICDM (la Conferencia Internacional sobre Minería de Datos IEEE). ) ) seleccionó los diez mejores algoritmos clásicos.
Según los diferentes propósitos, puedo dividir estos algoritmos en cuatro categorías para que puedas comprenderlos mejor.
Algoritmo de clasificación: C4.5, Naive Bayes, SVM, KNN, Adaboost, CART
Algoritmo de agrupamiento: K-Means, EM
Análisis de relaciones: A priori
Análisis de conexión: PageRank
1. C4.5
El algoritmo C4.5 es el algoritmo con mayor votación. Se puede decir que es el Top ten. algoritmos. C4.5 es un algoritmo de árbol de decisión. Realiza una poda de forma creativa durante el proceso de construcción del árbol de decisión y puede manejar atributos continuos y datos incompletos. Se puede decir que es un algoritmo histórico en la clasificación de árboles de decisión.
2. Naive Bayes (Naive Bayes)
El modelo Naive Bayes se basa en el principio de la teoría de la probabilidad. Su idea es la siguiente: para un objeto desconocido dado, imagine Clasificar. , debe encontrar la probabilidad de que aparezca cada categoría bajo la condición de que aparezca el objeto desconocido. La que sea más grande se considera la categoría a la que pertenece el objeto desconocido.
3. SVM
SVM se llama Support Vector Machine en chino y Support Vector Machine en inglés, o SVM para abreviar. SVM construye un modelo de clasificación de hiperplano durante el entrenamiento. Si no comprende los hiperplanos, no importa, se los presentaré más adelante en el capítulo del algoritmo.
4. KNN
KNN también se llama algoritmo de vecino más cercano K, y en inglés es K-Vecino más cercano. El llamado K vecino más cercano significa que cada muestra puede ser representada por sus K vecinos más cercanos. Si una muestra tiene K vecinos más cercanos y todos pertenecen a la categoría A, entonces esta muestra también pertenece a la categoría A.
5. AdaBoost
AdaBoost construye un modelo de clasificación conjunta durante el entrenamiento.
Boost significa impulsar en inglés, por lo que Adaboost es un algoritmo de impulso para crear clasificadores. Nos permite formar un clasificador fuerte a partir de múltiples clasificadores débiles, por lo que Adaboost también es un algoritmo de clasificación de uso común.
6. CART
CART significa Árboles de clasificación y regresión, y en inglés significa Árboles de clasificación y regresión. Al igual que el inglés, construye dos árboles: uno es un árbol de clasificación y el otro es un árbol de regresión. Al igual que C4.5, es un método de aprendizaje de árbol de decisiones.
7. Apriori
Apriori es un algoritmo para reglas de asociación minera. Revela la asociación entre elementos mediante la extracción de conjuntos de elementos frecuentes y se usa ampliamente en campos como la minería comercial y las redes. seguridad. Conjunto de elementos frecuentes se refiere a una colección de elementos que a menudo aparecen juntos. Las reglas de asociación implican que puede haber una fuerte relación entre dos elementos.
8. K-Means
El algoritmo K-Means es un algoritmo de agrupamiento. Puedes entender esto, en última instancia, quiero dividir los objetos en K categorías. Se supone que en cada categoría hay un "punto central", es decir, un líder de opinión, que es el núcleo de esta categoría. Ahora tengo un nuevo punto para clasificar. En este momento, solo necesito calcular la distancia entre este nuevo punto y K puntos centrales. Qué punto central está más cerca de él se convertirá en qué categoría.
9. EM
El algoritmo EM también se denomina algoritmo de expectativa máxima, que es un método para obtener la estimación de máxima verosimilitud de los parámetros. El principio es este: supongamos que queremos evaluar el parámetro A y el parámetro B. Ambos son desconocidos en el estado inicial. Si conocemos la información de A, podemos obtener la información de B. A su vez, si conocemos la información de B. , podemos obtener la información de A. . Puede considerar primero asignar un valor inicial a A para obtener la valoración de B y luego, a partir de la valoración de B, volver a estimar el valor de A. Este proceso continúa hasta la convergencia.
Los algoritmos EM se utilizan a menudo en los campos del clustering y el aprendizaje automático.
10. PageRank
PageRank se originó a partir del método de cálculo de la influencia de un artículo. Cuantas más veces se presenta un artículo, más fuerte es su influencia. De manera similar, Google ha aplicado creativamente el PageRank al cálculo del peso de una página web: cuando una página enlaza con más páginas, significa que la página tiene más "referencias"; cuando la página está enlazada con más frecuencia, significa que la página tiene más "referencias"; es Cuanto mayor es el número de citas. Con base en este principio, podemos obtener la división de peso del sitio web. Finalmente
Se puede decir que los algoritmos son el alma y la parte más esencial de la minería de datos. Estos 10 algoritmos clásicos tienen los votos más altos en todo el campo de la minería de datos, y algunos otros algoritmos siguientes se mejoran e innovan básicamente sobre esta base. Hoy primero tienes una comprensión preliminar de los diez algoritmos principales. Solo necesitas conocerlos.