Cuáles son las tecnologías básicas de big data_Conocimientos básicos de la tecnología de big data
El sistema de tecnología de big data es grande y complejo. Las tecnologías básicas incluyen recopilación de datos, preprocesamiento de datos, almacenamiento distribuido, bases de datos, almacenes de datos, aprendizaje automático, computación paralela, visualización, etc.
1. Recopilación y preprocesamiento de datos:
El sistema de recopilación de registros en tiempo real FlumeNG admite la personalización de varios transmisores de datos en el sistema de registro para la recopilación de datos.
Zookeeper es; un servicio distribuido de coordinación de aplicaciones distribuidas de código abierto que proporciona servicios de sincronización de datos.
2. Almacenamiento de datos:
Hadoop es un marco de código abierto diseñado para análisis de datos fuera de línea y a gran escala, y HDFS, como su motor de almacenamiento central, se ha utilizado ampliamente para datos. almacenamiento.
HBase es una base de datos de código abierto distribuida y orientada a columnas que puede considerarse como un contenedor para HDFS. Es esencialmente una base de datos NoSQL para almacenamiento de datos.
3. Limpieza de datos: MapRece, como motor de consultas de Hadoop, se utiliza para el cálculo paralelo de conjuntos de datos a gran escala.
4. p>Hive El trabajo principal es traducir declaraciones SQL en programas MR, que pueden asignar datos estructurados a tablas de bases de datos y proporcionar funciones de consulta HQL (HiveSQL).
Spark admite conjuntos de datos distribuidos en memoria y, además de proporcionar consultas interactivas, también puede optimizar cargas de trabajo iterativas.
5. Visualización de datos: Conéctese con algunas plataformas de BI para visualizar los datos obtenidos del análisis para brindar servicios guiados en la toma de decisiones.