¿Cuáles son los pasos específicos para construir una plataforma de big data?
1. Selección del sistema operativo
El sistema operativo generalmente utiliza la versión de código abierto de RedHat, Centos o Debian como plataforma de producción subyacente, dependiendo de si se utilizan herramientas de análisis de datos. construido en la plataforma de big data puede admitir el sistema, seleccione correctamente la versión del sistema operativo.
2. Cree un clúster de Hadoop
Como canal de software para desarrollar y ejecutar procesamiento de datos a gran escala, Hadoop realiza la computación distribuida de datos masivos mediante un clúster compuesto por una gran cantidad. de ordenadores baratos. El núcleo de la estructura de Hadoop es HDFS y MapReduce es un sistema altamente tolerante a fallas, adecuado para implementación en máquinas económicas, que puede proporcionar acceso a datos de alto rendimiento y es adecuado para aplicaciones con grandes conjuntos de datos. Modelos de programación que pueden extraer y devolver resultados finales a partir de datos masivos. En aplicaciones de producción reales, Hadoop es muy adecuado para aplicaciones de almacenamiento y análisis de big data. Es adecuado para ejecutar de miles a decenas de miles de grandes clústeres de servidores y admite capacidad de almacenamiento de nivel PB.
3. Seleccionar cuestiones de preprocesamiento y acceso a los datos
Ante datos de diversas fuentes, el acceso a los datos consiste en integrar estos datos dispersos y resumirlos para su análisis. El acceso a los datos incluye principalmente el acceso a registros de archivos, registros de bases de datos, acceso a bases de datos relacionales y acceso a aplicaciones. Las herramientas más utilizadas para el acceso a datos incluyen Flume, Logstash, NDC (NetEase Data Canal System), sqoop, etc.
4. Almacenamiento de datos
Además de HDFS, el almacenamiento de datos que ha sido ampliamente utilizado por Hadoop, también se usa comúnmente la base de datos distribuida y de código abierto Hbase. es una clave/valor El sistema está organizado en HDFS Al igual que HDFS, el objetivo de HBase es depender principalmente de la expansión horizontal para aumentar las capacidades informáticas y de almacenamiento mediante la adición continua de servidores comerciales baratos. Al mismo tiempo, el administrador de recursos de Hadoop, Yarn, puede proporcionar gestión y programación de recursos unificadas para aplicaciones de capa superior, lo que aporta enormes ventajas al clúster en términos de utilización y unificación de recursos.
5. Seleccionar herramientas de minería de datos
Hive puede asignar datos estructurados a tablas de bases de datos y proporcionar funciones de consulta HQL. Está construido sobre la arquitectura raíz del almacén de datos de Hadoop. Trabajo de escritura de sistemas de procesamiento por lotes para MapReduce. Su apariencia permite a los usuarios que conocen la tecnología SQL pero no están familiarizados con MapReduce, tienen habilidades de programación débiles y no son buenos en Java usar consultas en lenguaje SQL en conjuntos de datos a gran escala HDFS. analizar datos.
6. API de visualización y salida de datos
El procesamiento de datos se puede conectar a los principales sistemas de BI, como Tableau, Qlikview, PowerBI, etc., SmallBI nacional y el emergente NetEase. También hay algunos (pruebas gratuitas), etc., para visualizar los resultados y utilizarlos para el análisis de la toma de decisiones, tal vez también puedan volver a estar en línea para apoyar el desarrollo de negocios en línea;