Cómo construir un sistema hadoop de big data
El big data es enorme en cantidad y en diversos formatos.
Grandes cantidades de datos son generados por dispositivos en hogares, plantas de fabricación y oficinas, transacciones por Internet, actividad en redes sociales, sensores autónomos, dispositivos móviles e instrumentos científicos.
Su explosivo crecimiento ha superado las capacidades de procesamiento de la infraestructura TI tradicional, provocando graves problemas de gestión de datos para las organizaciones y la sociedad.
Por lo tanto, es necesario desarrollar una nueva arquitectura de datos que se centre en todo el proceso de "recopilación de datos, gestión de datos, análisis de datos, formación de conocimientos y acción inteligente" para desarrollar y utilizar estos datos y liberar más El valor oculto de los datos.
?1. Ideas de construcción de big data
?1) Adquisición de datos
La razón fundamental del surgimiento del big data es el sistema de percepción Ampliamente utilizado.
Con el desarrollo de la tecnología, las personas tienen la capacidad de fabricar sensores ultrapequeños con capacidades de procesamiento, y comienzan a colocar estos dispositivos ampliamente en todos los rincones de la sociedad para monitorear el funcionamiento de toda la sociedad.
Estos dispositivos generan constantemente nuevos datos, y estos datos se generan automáticamente.
Por lo tanto, en términos de recopilación de datos, es necesario adjuntar etiquetas de espacio y tiempo a los datos de la red (incluido el Internet de las cosas, las redes sociales y los sistemas de información institucionales), eliminar las falsedades y conservar la autenticidad. y recopilar datos heterogéneos o incluso heterogéneos tanto como sea posible, y verificarlos con datos históricos cuando sea necesario para verificar la exhaustividad y credibilidad de los datos desde múltiples ángulos.
?2) Agregación y almacenamiento de datos
Internet es una gran red mágica, y el desarrollo de big data y la personalización de software también son un modelo. La cita más detallada se proporciona aquí, si. Si realmente quieres hacerlo, puedes venir aquí. El número de este teléfono móvil comienza con 187, tiene tres ceros en el medio y termina con 14250. Puedes encontrarlo combinándolo en orden. quiero decir es. A menos que quieras hacer o entender este aspecto, si simplemente te unes a la diversión, no vengas.
Los datos sólo pueden tener vitalidad si fluyen constantemente y se disfrutan plenamente.
Sobre la base de la construcción de varias bases de datos profesionales, el intercambio de datos y el intercambio de datos de varios tipos de sistemas de información en todos los niveles deben realizarse mediante la integración de datos.
Para lograr los objetivos de bajo costo, bajo consumo de energía y alta confiabilidad, el almacenamiento de datos generalmente utiliza tecnologías de configuración redundante, distribuida y de computación en la nube. Al almacenar datos, deben clasificarse de acuerdo con ciertas reglas y filtrarse y filtrarse. deduplicación para reducir el almacenamiento y al mismo tiempo agregar etiquetas para facilitar la recuperación futura.
?3) Gestión de datos
Las tecnologías de gestión de big data también están surgiendo sin cesar.
Entre muchas tecnologías, hay seis tecnologías de gestión de datos comúnmente seguidas, a saber, almacenamiento e informática distribuidos, tecnología de bases de datos en memoria, tecnología de bases de datos en columnas, bases de datos en la nube, bases de datos no relacionales y tecnología de bases de datos móviles.
Entre ellos, el almacenamiento distribuido y la informática reciben la mayor atención.
El diagrama anterior muestra un sistema de gestión de datos de una biblioteca.
?4) Análisis de datos
Análisis y procesamiento de datos: algunos datos de la industria involucran cientos de parámetros, y su complejidad no solo se refleja en la muestra de datos en sí, sino también en los múltiples -fuente heterogénea, la dinámica de las interacciones entre múltiples entidades y múltiples espacios es difícil de describir y medir utilizando métodos tradicionales, y la complejidad del procesamiento es muy grande. Las imágenes de alta dimensión y otros datos multimedia deben reducirse para medir y procesar alta-. Imágenes tridimensionales. Big data es una herramienta poderosa para analizar y sintetizar información en contenido comprensible a partir de grandes cantidades de datos dinámicos y potencialmente ambiguos.
Existen muchos tipos de procesamiento de big data y los modos de procesamiento principales se pueden dividir en procesamiento de transmisión y procesamiento por lotes.
El procesamiento por lotes implica almacenar y luego procesar, mientras que el procesamiento en flujo implica procesar directamente los datos.
Las principales tareas de la minería incluyen análisis de correlación, análisis de conglomerados, clasificación, predicción, patrón temporal y análisis de desviación.
?5) El valor del big data: sistema de apoyo a la toma de decisiones
La magia del big data es que a través del análisis de datos pasados y presentes, se puede predecir con precisión el futuro; el análisis de la integración organizacional de datos internos y externos puede proporcionar información sobre la correlación entre las cosas a través de la extracción de datos masivos, puede reemplazar el cerebro humano y asumir la importante tarea de la gestión corporativa y social.
La última versión de los procesadores Intel® Core™.
?6) Uso de datos
Big data tiene tres connotaciones: primero, datos masivos, provenientes de diversas fuentes y varios tipos de conjuntos de datos; segundo, un nuevo tipo de procesamiento de datos; y tecnología de análisis; el tercero es utilizar el análisis de datos para formar valor.
El big data está trayendo cambios revolucionarios a la investigación científica, la construcción económica, el desarrollo social y la vida cultural.
La clave de la aplicación del big data, y también su condición necesaria, reside en la integración de "TI" y "negocios". Por supuesto, la connotación de negocio aquí puede ser muy amplia, abarcando desde la operación. de una tienda minorista a la administración de una gran ciudad.
Arquitectura básica de big data
Según las características anteriores de big data, el costo de almacenar y procesar big data a través de la tecnología de TI tradicional es relativamente alto.
Si una empresa quiere desarrollar vigorosamente la aplicación de big data, primero necesita resolver dos problemas: en primer lugar, extraer y almacenar datos masivos de múltiples categorías a bajo costo y en segundo lugar, utilizarlos rápidamente; Nuevas tecnologías para analizar y analizar los datos. Excavar y crear valor para la empresa.
Por lo tanto, el almacenamiento y procesamiento de big data son inseparables de la tecnología de computación en la nube y, en las condiciones técnicas actuales, los sistemas distribuidos basados en hardware barato (como Hadoop, etc.) se consideran los más adecuados. Para el procesamiento de plataformas tecnológicas de big data.
Hadoop es una infraestructura distribuida que permite a los usuarios utilizar de manera conveniente y eficiente recursos informáticos y procesar cantidades masivas de datos. Ha sido ampliamente utilizado en muchas grandes empresas de Internet como Amazon, Facebook y Yahoo.
Es una arquitectura abierta y los miembros de la arquitectura se expanden y mejoran constantemente. La arquitectura habitual se muestra en la Figura 2:
?Arquitectura Hadoop
< p. > (1) La capa inferior de Hadoop es un HDFS (Hadoop Distributed File System, Hadoop Distributed File System). Los archivos almacenados en HDFS primero se dividen en bloques y luego se copian en varios hosts (DataNode, nodos de datos).(2)
(2) El núcleo de Hadoop es el motor MapReduce (modelo de programación de mapas y restauración). Map se refiere a descomponer una sola tarea en múltiples tareas, y Reduce se refiere al resumen de. Descomposición de tareas múltiples El resultado, que consta de JobTrackers (seguimiento de trabajos, correspondiente al nodo nombrado) y TaskTrackers (seguimiento de tareas, correspondiente al nodo de datos). correspondiente al nodo de datos).
Al procesar consultas de big data, MapReduce descompone las tareas en múltiples nodos para mejorar la eficiencia del procesamiento de datos y evitar cuellos de botella en el rendimiento de una sola máquina.
(3) Hive es un almacén de datos en la arquitectura Hadoop, que se utiliza principalmente para estructuras estáticas y trabajos que requieren análisis frecuentes.
Hbase se ejecuta principalmente en HDFS como una base de datos orientada a columnas que puede almacenar petabytes de datos.
Hbase utiliza MapReduce para procesar datos masivos internamente y encontrar y acceder a los datos que necesita en los datos masivos.
(4) Sqoop está diseñado para la interoperabilidad de datos y puede importar datos desde una base de datos relacional a Hadoop, o directamente a HDFS o Hive.
(5) Zookeeper es responsable de la coordinación de aplicaciones en la arquitectura Hadoop para mantener la sincronización dentro del clúster de Hadoop.
(6) Thrift es un marco de software para servicios escalables y en varios idiomas, desarrollado originalmente por Facebook, que se ejecuta de manera transparente y eficiente en todos los lenguajes de programación.
?Diseño central de Hadoop
?Hbase: sistema de almacenamiento de datos distribuido
Cliente: utilice el mecanismo HBase RPC para comunicarse con HMaster y HRegionServer
Zookeeper: gestión colaborativa de servicios. HMaster puede detectar el estado de salud de cada HRegionServer en cualquier momento a través de Zookeepere
HMaster: gestiona la adición, eliminación, modificación y eliminación de tablas por parte de los usuarios
HRegionServer: el módulo principal de HBase, Principalmente responsable de responder a las solicitudes de E/S del usuario y leer y escribir datos en el sistema de archivos HDFS.
Cliente: utiliza el mecanismo HBase RPC para comunicarse con HMaster y HRegionServer. Leer y escribir datos en el sistema de archivos HDFS
HRegion: la unidad de almacenamiento distribuido más pequeña en HBase, que puede entenderse como una tabla
HStore: el núcleo del almacenamiento de HBase.
Consta de MemStore y StoreFile.
HLog: cada vez que un usuario escribe datos en Memstore, también se escribirá una copia de los datos en el archivo HLog.
Combinando las características de la arquitectura Hadoop anteriores, el sistema de plataforma de big data Se propone la función Como se muestra en la figura:
Sistema de aplicación: para la mayoría de las empresas, las aplicaciones en el campo operativo son las aplicaciones principales de big data. En el pasado, las empresas utilizaban principalmente varios datos de informes de las operaciones de producción. pero con el advenimiento de la era de los big data, están llegando datos masivos de Internet, Internet de las cosas y varios sensores.
Por lo tanto, algunas empresas han comenzado a extraer y utilizar estos datos para impulsar mejoras en la eficiencia operativa.
Plataforma de datos: con la ayuda de la plataforma de big data, la Internet del futuro permitirá a las empresas comprender mejor los hábitos de los consumidores y mejorar su experiencia.
Basado en big data, el análisis correspondiente puede mejorar la experiencia del usuario de una manera más específica y explorar nuevas oportunidades comerciales.
Fuente de datos: Una fuente de datos es una base de datos o un servidor de base de datos utilizado por una aplicación de base de datos.
Las fuentes de datos enriquecidas son un requisito previo para el desarrollo de la industria del big data.
Las fuentes de datos continúan expandiéndose y volviéndose más diversas.
Por ejemplo, los automóviles inteligentes pueden convertir el proceso dinámico de conducción en datos, y el Internet de las cosas integrado en los equipos de producción puede convertir el estado dinámico del proceso y los equipos de producción en datos.
La continua expansión de las fuentes de datos no solo impulsa el desarrollo de equipos de recolección, sino que también controla mejor el valor de los datos mediante el control de nuevas fuentes de datos.
Sin embargo, la cantidad total de recursos de datos digitales en China es mucho menor que la de los países europeos y americanos. En términos de los recursos de datos limitados que ha dominado, todavía existen problemas como la baja estandarización y la baja. precisión, baja integridad y bajo valor de utilización. El problema es que reduce el valor de los datos.
?3. Efectos objetivo del big data
Mediante la introducción y despliegue de big data, se pueden lograr los siguientes efectos:
?1) Integración de datos
- Modelo de datos unificado: lleva el modelo de datos empresarial y promueve la unificación de modelos lógicos de datos en varios campos de la empresa
- Estándar de datos unificado: establece de forma unificada una codificación de datos estándar; directorio para realizar la estandarización y unificación del almacenamiento de datos empresariales
- Vista de datos unificada: Logre una vista de datos unificada, para que las empresas puedan comprender mejor a los clientes y la perspectiva de los recursos para acceder de manera consistente. información.
?2) Control de calidad de los datos
- Verificación de la calidad de los datos: verificar la coherencia, integridad y precisión de los datos almacenados de acuerdo con reglas para garantizar la coherencia, integridad y precisión de los datos p>
- Control de calidad de los datos: al establecer estándares de calidad de datos empresariales, organizaciones de control de datos y procesos de control de datos, se logra un control unificado de la calidad de los datos para lograr un control unificado de la calidad de los datos, logrando así la mejora gradual de la calidad de los datos. mejorar.
?3) Intercambio de datos
: elimine las interfaces de malla, establezca un centro de intercambio de big data y proporcione intercambio de datos para cada sistema empresarial, reduzca la complejidad de la interfaz y mejore la eficiencia y calidad de la interfaz entre sistemas;
- Proporcionar datos combinados o calculados a sistemas externos en tiempo real o casi real.
?4) Aplicación de datos
- Aplicación de consulta: la plataforma implementa funciones de consulta bajo demanda, con condiciones no fijas e impredecibles y formatos flexibles
- Fijo; Aplicación de informes: basándose en la visualización de dimensiones estadísticas fijas y resultados de análisis de indicadores, se pueden generar varios datos de informes comerciales según las necesidades del sistema empresarial.
- Aplicación de análisis dinámico: basada en las dimensiones e indicadores; de interés en los datos Análisis de datos. Realizar análisis temáticos de datos según las dimensiones e indicadores de interés. Las dimensiones e indicadores en las aplicaciones de análisis dinámico no son fijos.
La plataforma de big data basada en tecnología distribuida puede reducir efectivamente los costos de almacenamiento de datos, mejorar el análisis y la eficiencia del procesamiento de datos y tiene la capacidad de admitir datos masivos y escenarios de alta concurrencia. lo que puede acortar significativamente el tiempo de respuesta de las consultas de datos y satisfacer las necesidades de datos de diversas aplicaciones de capa superior de las empresas.