¿Qué es la minería y el análisis de datos?
La dirección principal del aprendizaje de la minería de datos radica en el algoritmo de minería y qué algoritmo utilizar para obtener los mejores resultados.
En diciembre de 2006, la Conferencia Internacional IEEE sobre Minería de Datos (ICDM), una organización académica internacional autorizada, seleccionó los diez mejores algoritmos clásicos en el campo de la minería de datos: C4.5, k-Means, SVM. , A priori, EM, PageRank. AdaBoost, kNN, Naive Bayes y CART.
El análisis de datos se refiere al proceso de utilizar métodos de análisis estadístico apropiados para analizar una gran cantidad de datos recopilados, extraer información útil y formar conclusiones, y realizar investigaciones detalladas y resúmenes de los datos. Este proceso también respalda el sistema de gestión de calidad. En el trabajo real, el análisis de datos puede ayudar a las personas a emitir juicios y tomar las acciones adecuadas.
Herramientas para análisis de datos:
Excel es una herramienta de análisis de uso común que puede realizar trabajos de análisis básicos. En el campo de la inteligencia empresarial, existen Cognos, Style Intelligence, Microstrategy, Brio. , BO y Oracle, así como la suite de BI nacional Yonghong Z-Suite y otros productos.
Sin mencionar la diferencia entre minería y análisis de datos, se puede dividir en los siguientes puntos:
1. El "análisis de datos" se centra en la observación de datos, mientras que la "minería de datos" se centra en analizar datos. Las "reglas de conocimiento" KDD (reglas de conocimiento) se encuentran en los datos. Regla de conocimiento "KDD (Knowledge Discover in Database);
2. La conclusión extraída por el "análisis de datos" es el resultado de la actividad intelectual humana, mientras que la conclusión extraída por la "minería de datos" es la conclusión extraída por la máquina del conjunto de aprendizaje (o conjunto de entrenamiento, conjunto de muestra);
3. La aplicación de las conclusiones extraídas por el "análisis de datos" es el resultado de las actividades intelectuales humanas, mientras que las reglas de conocimiento descubiertas por los "datos". "minería" se pueden aplicar directamente reglas de conocimiento al descubrimiento de máquinas. Las reglas de conocimiento descubiertas mediante la minería de datos se pueden aplicar directamente a las predicciones.
4. El "análisis de datos" no puede establecer un modelo matemático y requiere un modelado manual, mientras que la "minería de datos" completa directamente el modelado matemático. Por ejemplo, la esencia del modelado cibernético tradicional es describir la relación funcional entre las variables de entrada y las variables de salida, mientras que la "minería de datos" puede establecer automáticamente la relación funcional entre la entrada y la salida a través del aprendizaje automático de acuerdo con las "reglas" derivadas de KDD. , dado un conjunto de entradas sigue "reglas" derivadas de KDD, y dado un conjunto de parámetros de entrada, se puede derivar un conjunto de salidas.