Red de conocimiento informático - Material del sitio web - ¿Cuáles son las tecnologías centrales de big data?

¿Cuáles son las tecnologías centrales de big data?

El sistema de tecnología de big data es grande y complejo, y sus tecnologías subyacentes incluyen recopilación de datos, preprocesamiento de datos, almacenamiento distribuido, bases de datos, almacenes de datos, aprendizaje automático, computación paralela, visualización, etc.

1. Recopilación y preprocesamiento de datos: el sistema de recopilación de registros en tiempo real FlumeNG admite la personalización de varios remitentes de datos en el sistema de registro para la recopilación de datos. Zookeeper es un servicio de coordinación de aplicaciones distribuidas de código abierto que proporciona servicios de sincronización de datos; .

2. Almacenamiento de datos: Hadoop es un marco de código abierto diseñado para análisis de datos a gran escala y fuera de línea, y HDFS, como su motor de almacenamiento central, se ha utilizado ampliamente para el almacenamiento de datos. Como base de datos de código abierto distribuida y orientada a columnas, HBase puede considerarse como un contenedor para HDFS. Su esencia es el almacenamiento de datos y la base de datos NoSQL.

3. Limpieza de datos: MapReduce, como motor de consultas de Hadoop, se utiliza para la computación paralela de conjuntos de datos a gran escala.

4. Análisis de consultas de datos: el trabajo principal de Hive es traducir declaraciones SQL en programas MR, que pueden asignar datos estructurados a tablas de bases de datos y proporcionar funciones de consulta HQL (HiveSQL). Spark implementa la distribución de memoria de conjuntos de datos y, además de proporcionar consultas interactivas, también puede optimizar cargas de trabajo iterativas.

5. Visualización de datos: Conéctese con algunas plataformas de BI para visualizar los datos obtenidos del análisis para brindar servicios guiados en la toma de decisiones.