Red de conocimiento informático - Aprendizaje de código fuente - La diferencia entre minería de datos e investigación de cohortes

La diferencia entre minería de datos e investigación de cohortes

1. Diferentes requisitos para las habilidades de programación informática

Una persona que no sabe nada sobre programación y codificación es totalmente capaz de convertirse en un excelente analista de datos. El análisis de datos suele utilizar herramientas de análisis establecidas como Excel, SPSS y SAS. Estas herramientas ya pueden cumplir con la mayoría de los requisitos para el análisis de datos.

La minería de datos requiere una cierta base de programación. Al construir un almacén de datos, desarrollar sistemas de análisis, diseñar algoritmos de minería, etc., a menudo se requiere que el personal procese los datos originales en persona a partir de ETL, por lo que existen mayores requisitos de habilidades informáticas y direcciones más técnicas. En la actualidad, la mayoría de las personas que se dedican a trabajos relacionados con la minería de datos están afiliadas a departamentos de informática.

2. Centrarse en resolver diferentes problemas

El análisis de datos se centra principalmente en observar datos y realizar análisis estadísticos de datos históricos, mientras que la minería de datos consiste en descubrir "reglas de conocimiento" a partir de los datos. una cierta posibilidad en el futuro, centrándose en la relación intrínseca entre los datos.

3.

3. Diferentes requisitos de conocimiento profesional

Los analistas de datos deben tener un conocimiento profundo de la industria en la que participan y con la que deben combinar los datos. Estrechamente integrado con su propio negocio. Por supuesto, además de comprender tu industria, también debes saber estadística, marketing, sociología, psicología, economía y otros aspectos del conocimiento. Será de gran beneficio si tiene algunos conocimientos sobre minería de datos y otros conocimientos relacionados.

Para convertirse en un excelente ingeniero de minería de datos, es necesario tener buenos conocimientos estadísticos, capacidad matemática, capacidad de programación, estar familiarizado con la tecnología de bases de datos y los algoritmos de minería de datos, y ser capaz de establecer los algoritmos de minería de datos correspondientes de acuerdo con diferentes necesidades comerciales modelo de datos y combinar el modelo con la realidad, incluso es necesario optimizar los modelos y algoritmos existentes o desarrollar nuevos modelos de algoritmos.

Por el contrario, la minería de datos es ligeramente inferior al análisis de datos en términos de amplitud, pero en términos de profundidad, la minería de datos es superior.

Similitudes

Ya sean analistas de datos o mineros de datos, los datos son la clave para su supervivencia. Si no se pueden recopilar o no hay suficiente soporte de datos, el trabajo no se puede completar. . Y todos necesitan dominar conocimientos estadísticos relevantes y tener un alto grado de sensibilidad a los datos.

Aunque la minería de datos es diferente del análisis de datos, en muchos casos, los analistas y mineros de datos necesitan hacer el trabajo de los demás. Al realizar análisis de datos, deben utilizar herramientas y modelos de minería de datos; al realizar proyectos de minería de datos, también deben comprender el negocio, comprender los datos y poder proponer requisitos y soluciones de minería de datos correctos en función de las necesidades comerciales. Por lo tanto, en la carrera, no existe un límite claro entre los dos.

La minería de datos y el análisis de datos están estrechamente vinculados y tienen una relación cíclica. Los resultados del análisis de datos requieren una mayor extracción de datos para guiar la toma de decisiones, y la evaluación del valor en el proceso de minería de datos debe basarse. en restricciones a priori y el análisis de datos se ajustó nuevamente.

La diferencia específica entre los dos es: (De hecho, el alcance del análisis de datos es muy amplio, incluida la minería de datos. La diferencia aquí se refiere principalmente al análisis estadístico) Volumen de datos: la cantidad de datos en los datos Puede que el análisis no sea grande, pero los datos La cantidad de datos extraídos es enorme. Restricciones: el análisis de datos comienza a partir de suposiciones y es necesario establecer ecuaciones o modelos que coincidan con las suposiciones. La minería de datos no requiere suposiciones y puede establecer ecuaciones automáticamente. Objeto: el análisis de datos suele centrarse en datos digitales, mientras que la minería de datos puede utilizar diferentes tipos de datos, como sonido, texto, etc. Acerca de los resultados: el análisis de datos explica los resultados y presenta información efectiva, mientras que los resultados de la minería de datos no son fáciles de interpretar. Concede gran importancia a la información, se centra en predecir el futuro y hace sugerencias para la toma de decisiones. El análisis de datos es una herramienta que convierte datos en información, y la minería de datos es una herramienta que convierte información en cognición. Si queremos extraer ciertos patrones (es decir, cognición) de los datos, a menudo necesitamos combinar el análisis de datos y la minería de datos.

Por ejemplo: vas al mercado húmedo a comprar verduras por 50 yuanes. Para la deslumbrante variedad de pollo, pato, pescado y diversas verduras, si quieres mezclar carne y verduras, preguntarás al vendedor. Precios uno por uno y analiza constantemente las estadísticas. ¿Cuánta carne y verduras puedes comprar y cuánto tiempo tardarás en terminar de comer? Tienes un conjunto de información en tu mente. A la hora de tomar una decisión, es necesario evaluar el valor de esta información, analizar el valor de esta información en función de sus preferencias, valor nutricional, combinaciones científicas, planes de horarios de comidas, la combinación más rentable, etc., y Finalmente determine el plan de compra. Esto es minería de datos. La combinación de análisis de datos y minería de datos finalmente se puede implementar para maximizar el papel de los datos.

En cuanto a la minería de datos, los principales métodos involucrados incluyen: métodos de análisis de datos, tecnología de visualización, reglas de asociación, redes neuronales, árboles de decisión, algoritmos genéticos, etc. Las principales herramientas utilizadas incluyen lenguaje R, SAS, weka, SPSS Modeler (Clementine), etc. Puede consultar varios software de código abierto: