Se han construido varias plataformas de sistemas. ¿Qué datos?
(1) Selección del sistema operativo El sistema operativo generalmente utiliza la versión de código abierto de RedHat, Centos o Debian como plataforma de construcción subyacente. Debe basarse en el sistema que puede ser compatible con el análisis de datos. herramientas que se construirán en la plataforma de big data. Seleccione la versión correcta del sistema operativo.
(2) Construya un clúster de Hadoop. Como plataforma de software para desarrollar y ejecutar procesamiento de datos a gran escala, Hadoop permite la computación distribuida de datos masivos en un clúster compuesto por una gran cantidad de computadoras económicas. Los diseños principales en el marco de Hadoop son HDFS y MapReduce. HDFS es un sistema altamente tolerante a fallas, adecuado para implementación en máquinas económicas, capaz de proporcionar acceso a datos de alto rendimiento y adecuado para aplicaciones con conjuntos de datos extremadamente grandes. un conjunto de modelos de programación que pueden extraer datos de datos masivos y finalmente devolver un conjunto de resultados. En aplicaciones de producción prácticas, Hadoop es muy adecuado para aplicaciones de almacenamiento y análisis de big data. Es adecuado para operaciones de clúster que prestan servicio a miles o decenas de miles de servidores y admite capacidad de almacenamiento a nivel de PB. La familia Hadoop también contiene varios componentes de código abierto, como Yarn, Zookeeper, Hbase, Hive, Sqoop, Impala, Spark, etc. Las ventajas de utilizar componentes de código abierto son obvias. Una comunidad activa actualizará constantemente las versiones de los componentes y habrá muchas personas que los utilicen. Los problemas encontrados serán más fáciles de resolver. Al mismo tiempo, el código es de código abierto y alto. Los ingenieros de desarrollo de datos de nivel pueden combinarlo con las necesidades de sus propios proyectos. El código se modifica para servir mejor al proyecto.
(3) Seleccionar herramientas de preprocesamiento y acceso a datos Frente a datos de diversas fuentes, el acceso a los datos consiste en integrar estos datos dispersos y analizarlos de forma integral. El acceso a datos incluye principalmente acceso a registros de archivos, acceso a registros de bases de datos, acceso a bases de datos relacionales y acceso a aplicaciones. Las herramientas más utilizadas para el acceso a datos incluyen Flume, Logstash y NDC (NetEase Data Canal System). Para escenarios comerciales con altos requisitos en tiempo real, como el procesamiento rápido y la retroalimentación de los flujos de información de datos existentes en sitios de redes sociales, noticias, etc., se pueden utilizar Strom, Sparkstreaming, etc. de código abierto para el acceso a los datos. Cuando necesite utilizar datos de módulos ascendentes para cálculos, estadísticas y análisis, deberá utilizar un sistema de mensajería distribuida, como el sistema de mensajería de publicación/suscripción Kafka. También puede utilizar el servicio de coordinación de aplicaciones distribuidas Zookeeper para proporcionar servicios de sincronización de datos para garantizar mejor la confiabilidad y coherencia de los datos. El preprocesamiento de datos consiste en extraer funciones disponibles de datos masivos, crear tablas amplias y crear almacenes de datos. Se utilizan herramientas como HiveSQL, SparkSQL e Impala. A medida que aumenta el volumen de negocios, los datos que deben entrenarse y limpiarse se volverán cada vez más complejos. Puede utilizar azkaban u oozie como motor de programación de flujo de trabajo para resolver las dependencias entre múltiples tareas informáticas, como hadoop o spark.
(4) Además de HDFS, que se ha utilizado ampliamente para el almacenamiento de datos en Hadoop, la base de datos distribuida y de código abierto Hbase también se usa comúnmente como un sistema clave/valor implementado en. HDFS al igual que Hadoop, el objetivo de HBase es depender principalmente de la expansión horizontal agregando continuamente servidores comerciales baratos para aumentar las capacidades informáticas y de almacenamiento. Al mismo tiempo, el administrador de recursos de Hadoop, Yarn, puede proporcionar gestión y programación de recursos unificadas para aplicaciones de capa superior, lo que aporta enormes beneficios al clúster en términos de utilización y unificación de recursos. Kudu es un motor de almacenamiento construido alrededor del ecosistema Hadoop. Kudu tiene el mismo concepto de diseño que el ecosistema Hadoop y puede ejecutarse en servidores normales. Como motor de almacenamiento de código abierto, puede proporcionar lectura y escritura aleatorias de baja latencia al mismo tiempo. y capacidades eficientes de análisis de datos. Redis es una base de datos no relacional muy rápida que puede conservar datos de pares clave-valor almacenados en la memoria en el disco duro y puede almacenar asignaciones entre claves y 5 tipos diferentes de valores.
(5) Elija la herramienta de minería de datos Hive, que puede asignar datos estructurados a una tabla de base de datos y proporcionar una función de consulta HQL. Es una infraestructura de almacenamiento de datos construida sobre Hadoop. Un sistema de procesamiento por lotes que reduce la escritura en MapReduce. Su aparición permite a los usuarios que dominan las habilidades de SQL pero no están familiarizados con MapReduce, tienen habilidades de programación débiles y no son buenos en Java hacer un buen uso de las consultas del lenguaje SQL en conjuntos de datos a gran escala HDFS. Impala es un complemento de Hive y puede implementar consultas SQL eficientes. Sin embargo, Impala divide todo el proceso de consulta en un árbol de plan de ejecución en lugar de una serie de tareas de MapReduce. En comparación con Hive, Impala tiene una mejor concurrencia y evita la clasificación intermedia y la reproducción aleatoria. Spark puede guardar los resultados de salida intermedios del trabajo en la memoria sin leer HDFS. Spark habilita conjuntos de datos distribuidos en memoria Además de proporcionar consultas interactivas, también puede optimizar cargas de trabajo iterativas. Solr es un servidor de búsqueda de texto completo para aplicaciones de búsqueda independientes de nivel empresarial que se ejecutan en un contenedor de servlet. Los usuarios pueden enviar XML en un formato determinado al servidor del motor de búsqueda a través de solicitudes http para generar índices, o realizar solicitudes de búsqueda a través de operaciones HTTP GET y. obtener el formato XML. También puede modelar y analizar datos utilizando conocimientos relacionados con el aprendizaje automático y algoritmos de aprendizaje automático de uso común, como bayesiano, regresión logística, árboles de decisión, redes neuronales, filtrado colaborativo, etc.
(6) La API de salida y visualización de datos puede conectar los datos procesados a los principales sistemas de BI, como Tableau extranjero, Qlikview, PowerBI, etc., SmallBI nacional y NetEase emergente (prueba gratuita disponible), etc. ., para visualizar los resultados para el análisis de la toma de decisiones o transmitirlos nuevamente en línea para respaldar el desarrollo del negocio en línea. Construir una plataforma madura de análisis de big data no es una cuestión sencilla. Es una tarea compleja en sí misma. Hay muchos factores que deben considerarse en el proceso, como la estabilidad y la capacidad de ejecutar datos y programas a través de múltiples máquinas. Copia de seguridad, pero la calidad del servidor y el costo del presupuesto limitarán en consecuencia la estabilidad de la plataforma. Escalabilidad: la plataforma de big data se implementa en múltiples máquinas y, a menudo, se encuentra en aplicaciones prácticas cómo expandir nuevas máquinas sobre esta base. Problemas; Seguridad: Garantizar la seguridad de los datos es un problema que no se puede ignorar en las plataformas de big data durante el procesamiento de datos masivos, cómo prevenir la pérdida y fuga de datos siempre ha sido un punto candente de investigación en el campo de la seguridad de big data.