Una breve discusión sobre la comprensión del análisis de datos, la minería de datos y los big data
Introducción Se puede decir que estamos inundados de una gran cantidad de datos todos los días. La vida y el trabajo son inseparables de los datos en todo momento. Sin embargo, en el campo del big data, el análisis de datos y la minería de datos. y big data Los datos son diferentes. Muchas personas a menudo no pueden distinguir estos conceptos cuando comienzan. Pregúntele a diez personas qué significan estas palabras y puede obtener quince respuestas diferentes. Hoy, el editor utilizará un ejemplo relativamente conectado para hablarle sobre análisis de datos, minería de datos y big data.
Primero, introduzcamos la diferencia entre datos e información.
¿Qué son los datos y qué es la información? De hecho, la diferencia más esencial es que los datos existen, son rastreables y no necesitan ser procesados, mientras que la información sí debe procesarse.
Por ejemplo, si quieres comprar un armario nuevo para tu casa, primero debes medir el largo, ancho y alto de la habitación, de estos datos podemos obtener valores precisos siempre y cuando. a medida que los medimos, porque estos datos existen objetivamente y estos valores objetivamente existentes son datos.
Pero la información es diferente. Cuando vienes a un centro comercial de muebles a comprar un armario, dirás que el armario de 3 metros está justo en la habitación. El armario de 2 metros es un poco corto. Y no parece grandioso. El armario de 4 metros es perfecto. Es demasiado grande y no es rentable. Este tipo de información es información que el cerebro ha pensado detenidamente y ha emitido juicios subjetivos, y la base para que usted obtenga esta información son los datos objetivamente existentes.
En segundo lugar, el análisis de datos consiste en analizar datos objetivamente existentes o conocidos a través de varias dimensiones y sacar una conclusión.
Por ejemplo, descubrimos que la actividad de los usuarios de la aplicación de la empresa ha disminuido:
Desde una perspectiva regional, el porcentaje de actividad disminuye en una determinada región
Desde una perspectiva de género, El porcentaje de disminución de la actividad para los niños
En términos de edad, el porcentaje de disminución de la actividad para aquellos de 20 a 30 años
Espera, mira los diferentes tipos de negocios durante un período de tiempo Las tendencias de desarrollo se utilizan para sacar conclusiones.
La minería de datos no sólo utiliza conocimientos estadísticos, sino también conocimientos de aprendizaje automático, que implica el concepto de modelos. La minería de datos tiene un nivel más profundo para descubrir patrones y valores desconocidos. También presta más atención a la relación entre los datos en sí, para obtener algunas conclusiones no explícitas que no podemos obtener del análisis de datos. Por ejemplo, el análisis de correlación puede conocer la relación entre la cerveza y los pañales, y los árboles de decisión pueden conocer la relación. probabilidad de su compra y el análisis de conglomerados puede conocer la relación entre la cerveza y los pañales. El análisis de clase puede saber a quién es similar, etc. El objetivo es descubrir las conexiones internas entre los datos de varias dimensiones.
Por lo tanto. El propósito de los dos es diferente. El análisis de datos tiene un grupo de análisis claro, es decir, dividir, dividir y combinar grupos en varias dimensiones para encontrar el problema. Sin embargo, el grupo objetivo de la minería de datos es incierto. a partir de la relación interna de los datos, para combinar negocios, usuarios e interpretar los datos para obtener más información.
Por ejemplo, si una persona quiere encontrar una novia, puede aprender rápida y fácilmente sobre sus factores externos, como altura, peso, ingresos, educación, etc., pero no hay manera para él. Para obtener información de estos datos, saber si esta chica es adecuada para él y si su personalidad se lleva bien con él... En este momento, necesita hacer inferencias a partir de algunos datos de comportamiento diario. siente, estima, piensa: ¿Podemos estar juntos?
La otra es la inferencia objetiva y subjetiva, como integrar datos de plataformas sociales (puede conocer el contenido diario de Moments, Weibo, intereses y pasatiempos, etc.) y realizar minería de datos con su propio comportamiento. Echemos un vistazo con base en el grado de coincidencia inherente de los datos, en este momento, puede juzgar que la probabilidad de que estén juntos es 99, generando así confianza y comenzando a actuar...
De. Por supuesto, estadísticamente hablando, 100 La probabilidad de 0 puede no suceder, y la probabilidad de 0 puede no suceder. Esto es solo un pequeño evento de probabilidad. No permita que esto se convierta en un obstáculo para salir de los solteros.
Finalmente, la forma de pensar es diferente. En términos generales, el análisis de datos se basa en una verificación continua y suposiciones basadas en datos objetivos, mientras que la minería de datos no tiene suposiciones, pero también hay que dar en función del resultado. del modelo El estándar por el cual eres juzgado.
Cuando hacemos análisis a menudo, el análisis de datos requiere un pensamiento más sólido y se utilizan métodos de pensamiento más estructurados y MECE, similares a los supuestos en los programas.
Marco de análisis (hipótesis) Pregunta objetiva (datos análisis) = conclusión (juicio subjetivo)
La mayor parte de la minería de datos es grande y completa, rica y precisa. Cuantos más datos, más probabilidades hay de que el modelo sea preciso y cuantas más variables haya, más. cuanto más clara sea la relación entre ellas
Sean cuales sean las variables que se necesiten, primero seleccione las variables en el sentido del modelo (grandes y completas, numerosas y precisas) y luego en función del grado de correlación. , relación de sustitución, importancia de las variables, etc. Extráigalas desde varios aspectos y finalmente tírelas todas al modelo. Finalmente, juzgue si este método es razonable en función de los parámetros del modelo y el significado de la interpretación.
El análisis se basa más en el conocimiento empresarial, mientras que la minería de datos se centra más en la implementación de tecnología y los requisitos empresariales son ligeramente menores. La minería de datos a menudo requiere una mayor cantidad de datos, y cuanto mayor sea la cantidad de datos. Cuanto mayor sea la necesidad de Cuanto mayores sean los requisitos técnicos, más sólidas serán las habilidades de programación, habilidades matemáticas y habilidades de aprendizaje automático. Desde el punto de vista de los resultados, el análisis de datos se centra más en la presentación de resultados, que deben interpretarse en conjunto con el conocimiento empresarial. El resultado de la minería de datos es un modelo a través del cual se pueden analizar los patrones de todos los datos para lograr predicciones futuras, como determinar las características del usuario y para qué tipo de actividades de marketing es adecuado. Obviamente, la minería de datos es un nivel más profundo que el análisis de datos. El análisis de datos es una herramienta que transforma datos en información, mientras que la minería de datos es una herramienta que transforma información en cognición.
Lo anterior es el contenido relevante que el editor ha compilado y enviado hoy sobre "una breve discusión sobre la comprensión del análisis de datos, la minería de datos y los big data". . Si desea saber más sobre análisis de datos y análisis de puestos de trabajo con inteligencia artificial, siga al editor para obtener actualizaciones continuas.