Red de conocimiento informático - Aprendizaje de código fuente - ¿Qué es el análisis de datos?

¿Qué es el análisis de datos?

El análisis de datos se refiere al análisis de grandes cantidades de datos recopilados utilizando métodos de análisis estadístico apropiados.

La base matemática del análisis de datos se estableció a principios del siglo XX, pero no fue hasta la aparición de las computadoras que las operaciones prácticas se hicieron posibles y se promovió el análisis de datos. El análisis de datos es una combinación de matemáticas e informática. Los datos cualitativos que están representados por categorías pero que no distinguen el orden son datos categóricos, como género, marca, etc. Los datos cualitativos que están representados por categorías pero que se distinguen por el orden son datos ordinales, como calificaciones académicas, niveles de calidad del producto, etc. .

El análisis de datos se refiere al uso de métodos de análisis estadístico apropiados para analizar una gran cantidad de datos recopilados, resumirlos, comprenderlos y digerirlos, con el fin de maximizar el desarrollo de las funciones de los datos y desempeñar el papel de los datos. El análisis de datos es el proceso de estudiar y resumir datos en detalle para extraer información útil y formar conclusiones.

Tipos de análisis de datos

1. Análisis de datos exploratorio

El análisis de datos exploratorio se refiere al análisis de datos con el fin de formar una prueba digna de una hipótesis. Este método es un complemento de los métodos tradicionales de prueba de hipótesis estadísticas. El método fue nombrado por el famoso estadístico estadounidense John Tukey.

2. Análisis de datos cualitativos

El análisis de datos cualitativos también se denomina "análisis de datos cualitativos", "investigación cualitativa" o "análisis de datos de investigación cualitativa", que se refiere al análisis de palabras. , Análisis de datos (o datos) no numéricos como fotografías y observaciones.

3. Análisis de datos sin conexión

El análisis de datos sin conexión se utiliza para análisis y procesamiento de datos más complejos y que requieren más tiempo. Por lo general, se basa en una plataforma de computación en la nube, como la de código abierto. Archivos HDFS y marco informático MapReduce. Los clústeres de Hadoop contienen cientos o incluso miles de servidores, que almacenan PB o incluso PB de datos todos los días. Se ejecutan miles de trabajos de análisis de datos fuera de línea y cada trabajo procesa de cientos de MB a cientos de TB de datos, y el tiempo de ejecución es de minutos. , horas, días o incluso más.

El contenido anterior se refiere a la Enciclopedia Baidu-Análisis de datos