¿Cuáles son las tecnologías centrales de big data?
El sistema de tecnología de big data es grande y complejo. Las tecnologías básicas incluyen recopilación de datos, preprocesamiento de datos, almacenamiento distribuido, bases de datos, almacenes de datos, aprendizaje automático, computación paralela, visualización, etc.
1. Recopilación y preprocesamiento de datos: el sistema de recopilación de registros en tiempo real FlumeNG admite la personalización de varios remitentes de datos en el sistema de registro para recopilar datos. Zookeeper es un servicio de coordinación de aplicaciones distribuido y de código abierto que proporciona servicios de sincronización de datos.
2. Almacenamiento de datos: como marco de código abierto, Hadoop está diseñado para análisis de datos fuera de línea y a gran escala, como motor de almacenamiento central, se ha utilizado ampliamente para el almacenamiento de datos. HBase es una base de datos de código abierto distribuida y orientada a columnas. Puede considerarse como una encapsulación de HDFS. Es esencialmente una base de datos NoSQL y de almacenamiento de datos.
3. Limpieza de datos: MapReduce, como motor de consultas de Hadoop, se utiliza para la computación paralela de conjuntos de datos a gran escala.
4. Análisis de consultas de datos: el trabajo principal de Hive es traducir declaraciones SQL en programas MR, que pueden asignar datos estructurados a una tabla de base de datos y proporcionar funciones de consulta HQL (HiveSQL). Spark habilita conjuntos de datos distribuidos en memoria, que además de poder proporcionar consultas interactivas, también pueden optimizar cargas de trabajo iterativas.
5. Visualización de datos: Conéctese con algunas plataformas de BI para visualizar los datos analizados y utilizarlos para guiar los servicios de toma de decisiones.