Cómo construir un sistema hadoop de big data
El big data es enorme en cantidad y en diversos formatos. Diversos dispositivos en los hogares, plantas de fabricación y oficinas, transacciones por Internet, actividades en redes sociales, sensores automáticos, dispositivos móviles e instrumentos de investigación científica generan enormes cantidades de datos. Esta explosión de datos ha excedido la capacidad de manejo de la infraestructura de TI tradicional. Su explosivo crecimiento ha superado las capacidades de procesamiento de la infraestructura de TI tradicional, provocando graves problemas de gestión de datos para las organizaciones y la sociedad. Por lo tanto, es necesario desarrollar y utilizar estos datos en todo el proceso de "recopilación de datos, gestión de datos, análisis de datos, formación de conocimientos y acción inteligente" y desbloquear más valor oculto de los datos, desarrollando así una nueva arquitectura de datos.
1. Ideas de construcción de big data
1) Adquisición de datos
La razón fundamental del surgimiento de big data es la aplicación generalizada de sistemas de percepción. Con el desarrollo de la ciencia y la tecnología, las personas tienen la capacidad de fabricar sensores extremadamente pequeños con funciones de procesamiento y han comenzado a implementar ampliamente estos dispositivos en todos los rincones de la sociedad. A través de estos dispositivos se puede monitorear el funcionamiento de toda la sociedad. Estos dispositivos generan constantemente nuevos flujos de datos y estos datos se generan automáticamente. Por lo tanto, en términos de recopilación de datos, es necesario adjuntar etiquetas espacio-temporales a los datos de Internet (incluido el Internet de las cosas, las redes sociales y los sistemas de información institucional), eliminar lo falso y preservar lo verdadero, recopilar heterogéneos o incluso heterogéneos. datos tanto como sea posible y compararlos con datos históricos cuando sea necesario. Verificar la exhaustividad y credibilidad de los datos desde múltiples perspectivas.
?2) Recopilación y almacenamiento de datos
Internet es una gran red mágica, y el desarrollo de big data y la personalización de software también son un modelo. La cita más detallada se proporciona aquí, si. Si realmente quieres hacerlo, puedes venir aquí. El comienzo de este número de teléfono móvil es 187, el medio es tres bajo cero y el último es 14250. Puedes encontrarlo combinándolo en orden. quiero decir es. A menos que quieras hacer o entender este aspecto, si es sólo para unirte a la diversión, no vengas.
Los datos tienen vitalidad sólo si continúan fluyendo y se disfrutan plenamente. Sobre la base de la construcción de varias bases de datos especiales, el intercambio de datos y el intercambio de datos de varios tipos de sistemas de información en todos los niveles deben realizarse mediante la integración de datos. Para lograr los objetivos de bajo costo, bajo consumo de energía y alta confiabilidad, el almacenamiento de datos generalmente adopta configuraciones redundantes, tecnologías de computación distribuida y en la nube cuando se almacenan, los datos deben clasificarse de acuerdo con ciertas reglas, y la cantidad de almacenamiento se puede reducir mediante filtrado. y deduplicación, y agregue etiquetas para facilitar la recuperación futura.
?3) Gestión de datos
Existen muchas tecnologías para gestionar big data. Entre las muchas tecnologías, seis tecnologías de gestión de datos han recibido amplia atención: tecnología de computación y almacenamiento distribuido, tecnología de bases de datos en memoria, tecnología de bases de datos en columnas, bases de datos en la nube, bases de datos no relacionales y tecnología de bases de datos móviles. Entre ellos, el almacenamiento distribuido y la informática reciben la mayor atención. La imagen de arriba muestra el sistema de gestión de datos de la biblioteca.
?4) Análisis de datos
Análisis y procesamiento de datos: algunos datos de la industria involucran cientos de parámetros, y su complejidad no solo se refleja en la muestra de datos en sí, sino también en los múltiples -Fuente heterogénea, la interacción dinámica entre múltiples entidades y múltiples espacios es difícil de describir y medir utilizando métodos tradicionales, y la complejidad del procesamiento es muy grande. Los datos multimedia, como las imágenes de alta dimensión, deben reducirse dimensionalmente para medirse y procesarse. Es necesario procesar datos como imágenes de alta dimensión, medición y procesamiento de reducción de dimensionalidad, análisis semántico mediante correlación contextual y síntesis de información a partir de grandes cantidades de datos dinámicos y potencialmente ambiguos para derivar contenido comprensible. Existen muchos tipos de procesamiento de big data y los principales modos de procesamiento se pueden dividir en procesamiento de transmisión y procesamiento por lotes. El procesamiento por lotes implica almacenar y luego procesar, mientras que el procesamiento en flujo implica procesar los datos directamente. Las principales tareas de la minería incluyen análisis de correlación, análisis de conglomerados, clasificación, predicción, patrón temporal y análisis de desviación.
?5) El valor del big data: sistema de apoyo a la toma de decisiones
La magia del big data es que a través del análisis de datos pasados y presentes, se puede predecir con precisión el futuro; el análisis de la integración organizacional de datos internos y externos puede proporcionar información sobre la correlación entre las cosas a través de la extracción de datos masivos, puede reemplazar el cerebro humano y asumir el trabajo de gestión de las empresas y la sociedad.
Estos son los métodos más habituales en la gestión empresarial.
?6) Aplicación de datos
Big data tiene tres connotaciones: primero, gran cantidad de datos, diversas fuentes y diversos tipos de conjuntos de datos; segundo, nuevo procesamiento y análisis de datos; tecnologías; el tercero es utilizar el análisis de datos para formar valor; Los macrodatos están teniendo un impacto revolucionario en diversos campos como la investigación científica, la construcción económica, el desarrollo social y la vida cultural. La clave para la aplicación de big data y su condición necesaria es la integración de "TI" y "gestión". Por supuesto, la connotación de gestión aquí puede ser muy amplia, desde la gestión de una tienda minorista hasta la gestión de una ciudad.
2. Arquitectura básica de big data
Basado en las características anteriores de big data, es costoso almacenar y procesar big data a través de la tecnología de TI tradicional. Si las empresas quieren desarrollar vigorosamente aplicaciones de big data, primero deben resolver dos problemas: primero, extraer y almacenar datos masivos de múltiples categorías a bajo costo y rápidamente, segundo, utilizar nuevas tecnologías para analizar y extraer datos para crear valor; para la empresa. Por tanto, el almacenamiento y procesamiento de big data son inseparables de la tecnología de computación en la nube. En las condiciones técnicas actuales, los sistemas distribuidos basados en hardware barato (como Hadoop, etc.) se consideran la plataforma tecnológica más adecuada para procesar big data.
Hadoop es una infraestructura distribuida que permite a los usuarios utilizar de manera conveniente y eficiente recursos informáticos y procesar datos masivos. Ha sido ampliamente utilizado en muchas grandes empresas de Internet como Amazon, Facebook y Yahoo. Es una arquitectura abierta y los miembros de la arquitectura se expanden y mejoran constantemente. La arquitectura habitual se muestra en la Figura 2:
?Arquitectura Hadoop
(1) Lo último de Hadoop. La capa inferior es un HDFS (Sistema de archivos distribuidos de Hadoop). Los archivos almacenados en HDFS primero se dividen en bloques y luego estos bloques se copian en varios hosts (DataNode).
(2) El núcleo de Hadoop es el motor MapReduce (modelo de programación de mapeo y restauración). Map se refiere a descomponer una sola tarea en múltiples tareas, y Reduce se refiere a agregar los resultados descompuestos de múltiples tareas. consta de JobTrackers (seguimiento de tareas, correspondiente a nodos con nombre) y TaskTrackers (seguimiento de tareas, correspondiente a nodos de datos). ) Al procesar consultas de big data, MapReduce descompondrá las tareas que deben procesarse en múltiples nodos, mejorando así la eficiencia del procesamiento de datos y evitando el cuello de botella en el rendimiento de una sola máquina.
(3) Hive es un almacén de datos en la arquitectura Hadoop, que se utiliza principalmente para estructuras estáticas y tareas que requieren análisis frecuentes. Hbase se ejecuta principalmente en HDFS como una base de datos orientada a columnas y puede almacenar petabytes de datos. Hbase utiliza MapReduce para procesar datos masivos internamente y puede encontrar y acceder a los datos requeridos en datos masivos.
(4) Sqoop está diseñado para la interoperabilidad de datos y puede importar datos desde una base de datos relacional a Hadoop o directamente a HDFS o Hive.
(5) Zookeeper es responsable de coordinar las aplicaciones en la arquitectura Hadoop para mantener la sincronización dentro del clúster de Hadoop.
(6) Thrift es un marco de software para desarrollar servicios escalables y en varios idiomas. Fue desarrollado originalmente por Facebook y su propósito es proporcionar servicios fluidos y eficientes entre varios lenguajes de programación.
Diseño central de Hadoop
Hbase: sistema de almacenamiento de datos distribuido
Cliente: utilice el mecanismo HBase RPC para comunicarse con HMaster y HRegionServer
Zookeeper : Gestión colaborativa de servicios.
HMaster puede detectar el estado de salud de cada HRegionServer en cualquier momento a través de Zookeepere
HMaster: gestiona la adición, eliminación, modificación y eliminación de tablas por parte de los usuarios
HRegionServer: el módulo principal de HBase, Principalmente responsable de responder a las solicitudes de E/S del usuario y leer y escribir datos en el sistema de archivos HDFS
El mecanismo HBase RPC se utiliza para comunicarse con HMaster y HRegionServer. Leer y escribir datos en el sistema de archivos HDFS
HRegión: la unidad de almacenamiento distribuido más pequeña en HBase, que puede entenderse como una tabla
HStore: el núcleo del almacenamiento de HBase. Compuesto por MemStore y StoreFile.
HLog: Cada vez que un usuario escribe datos en Memstore, también se escribirá una copia de los datos en el archivo HLog
Basado en las características de la arquitectura Hadoop anteriores, se propone una propuesta como se muestra en la figura Funciones del sistema de la plataforma de big data:
Sistema de aplicación: para la mayoría de las empresas, las aplicaciones en el campo operativo son las aplicaciones principales de big data. En el pasado, las empresas utilizaban principalmente varios datos de informes de producción. operaciones, pero Con el advenimiento de la era del big data, están llegando datos masivos de Internet, Internet de las cosas y varios sensores. Por lo tanto, algunas empresas han comenzado a extraer y utilizar estos datos para impulsar mejoras en la eficiencia operativa.
Plataforma de datos: con la ayuda de la plataforma de big data, la Internet del futuro permitirá a las empresas comprender mejor los hábitos de uso de los consumidores, mejorando así la experiencia. Un análisis correspondiente basado en big data puede mejorar la experiencia del usuario de forma más específica y explorar nuevas oportunidades de negocio.
Fuente de datos: Una fuente de datos es una base de datos o un servidor de base de datos utilizado por una aplicación de base de datos. Las fuentes de datos enriquecidas son el requisito previo para el desarrollo de la industria del big data. Las fuentes de datos se están expandiendo y volviéndose más diversas. Por ejemplo, los automóviles inteligentes pueden convertir el proceso dinámico de conducción en datos, y el Internet de las cosas integrado en los equipos de producción puede convertir el estado dinámico del proceso y los equipos de producción en datos. La expansión continua de las fuentes de datos no solo conducirá al desarrollo de equipos de recolección, sino también a un mejor control del valor de los datos al dominar nuevas fuentes de datos. Sin embargo, la cantidad total de recursos de datos digitales en mi país es mucho menor que la de los países europeos y americanos. En cuanto a los recursos de datos limitados existentes, todavía existen problemas como la baja estandarización, precisión, integridad y bajo valor de utilización, que son importantes. reduce en gran medida el valor de los datos.
3. Efectos objetivo del big data
A través de la introducción y despliegue del big data, se pueden lograr los siguientes efectos:
1) Integración de datos
p >
-Modelo de datos unificado: lleva el modelo de datos empresariales y promueve la unificación de modelos lógicos de datos en varios campos de la empresa;
-Estándar de datos unificados: establece de manera uniforme un directorio de codificación de datos estándar para lograr la estandarización y unificación del almacenamiento de datos empresariales
-Vista de datos unificada: lograr una vista de datos unificada, permitir a las empresas comprender mejor a los clientes
-Vista de datos unificada: lograr una vista de datos unificada; Ver, permitir a las empresas comprender a los clientes, productos y recursos. Obtener información consistente desde ángulos iguales.
?2) Control de calidad de los datos
-Verificación de la calidad de los datos: Verificar la coherencia, integridad y exactitud de los datos almacenados de acuerdo con las reglas para garantizar la coherencia, integridad y precisión de los datos
-Control de calidad de los datos: al establecer estándares de calidad de datos empresariales, control de datos organizacionales y control de datos de procesos, se lleva a cabo un control unificado de la calidad de los datos para lograr la mejora gradual de la calidad de los datos.
?3) Intercambio de datos
: elimine las interfaces de malla, establezca un centro de intercambio de big data y proporcione intercambio de datos para varios sistemas comerciales, reduzca la complejidad de la interfaz y mejore la eficiencia. y calidad de las interfaces entre sistemas;
--Proporciona datos integrados o calculados a sistemas externos en tiempo real o casi real.
?
?4) Aplicación de datos
-Aplicación de consulta: la plataforma implementa funciones de consulta bajo demanda con condiciones no fijas, condiciones impredecibles y formatos flexibles;
p>
-Aplicación de informes fijos: muestra resultados de análisis fijos basados en dimensiones e indicadores estadísticos, y puede analizar y generar varios datos de informes comerciales de acuerdo con las necesidades del sistema comercial.
-Aplicación de análisis dinámico: realiza análisis temático de datos según las dimensiones e indicadores de interés. Las dimensiones e indicadores en las aplicaciones de análisis dinámico no son fijos.
? IV. Resumen
La plataforma de big data construida sobre la base de tecnología distribuida puede reducir efectivamente los costos de almacenamiento de datos, mejorar el análisis de datos y la eficiencia del procesamiento, y tiene la capacidad de manejar datos masivos y escenarios de alta concurrencia capacidades de soporte, lo que acorta en gran medida el tiempo de respuesta de las consultas de datos y satisface las necesidades de datos de varias aplicaciones de capa superior de las empresas.