Red de conocimiento informático - Material del sitio web - ¿Qué marco es más adecuado para la arquitectura de big data?

¿Qué marco es más adecuado para la arquitectura de big data?

El big data es enorme en cantidad y en diversos formatos. Los dispositivos en los hogares, las plantas de fabricación y las oficinas, las transacciones por Internet, la actividad de las redes sociales, los sensores automatizados, los dispositivos móviles y los instrumentos de investigación científica generan enormes cantidades de datos. Su explosivo crecimiento ha superado las capacidades de procesamiento de la infraestructura de TI tradicional, lo que ha traído graves problemas de gestión de datos a las empresas y a la sociedad. Por lo tanto, se debe desarrollar una nueva arquitectura de datos para desarrollar y utilizar estos datos en todo el proceso de "recopilación de datos, gestión de datos, análisis de datos, formación de conocimientos y acción inteligente" para liberar más valor oculto de los datos.

? 1. Ideas de construcción de big data

? 1) Adquisición de datos

La razón fundamental para la generación de big data radica en el uso generalizado de sistemas de percepción. . Con el desarrollo de la tecnología, las personas han podido fabricar sensores extremadamente pequeños con funciones de procesamiento y han comenzado a implementar ampliamente estos dispositivos en todos los rincones de la sociedad, utilizándolos para monitorear el funcionamiento de toda la sociedad. Estos dispositivos generarán continuamente nuevos datos y la forma en que se generan estos datos es automática. Por lo tanto, en términos de recopilación de datos, es necesario asignar marcadores temporales y espaciales a los datos de Internet, incluido el Internet de las cosas, las redes sociales y los sistemas de información institucionales, para eliminar falsedades y preservar la verdad, recopilar datos heterogéneos o incluso datos heterogéneos en la medida de lo posible y compararlos con datos históricos cuando sea necesario. Verificar la exhaustividad y credibilidad de los datos desde múltiples ángulos.

? 2) Recopilación y almacenamiento de datos

Internet es una red mágica. El desarrollo de big data y la personalización de software también son un modelo. Si quieres hacerlo, puedes venir aquí. El número inicial de este teléfono móvil es 187, el número del medio es 3er0 y el último número es 14250. Puedes encontrarlos combinándolos en orden. es, a menos que quieras O comprenda el contenido de esta área. Si simplemente se está uniendo a la diversión, no venga.

Los datos solo pueden tener vitalidad si continúan fluyendo y se comparten por completo. Sobre la base de la construcción de bases de datos especiales, el intercambio de datos y el intercambio de datos de varios tipos de sistemas de información en todos los niveles deben realizarse mediante la integración de datos. Para lograr los objetivos de bajo costo, bajo consumo de energía y alta confiabilidad, el almacenamiento de datos generalmente utiliza tecnologías redundantes de configuración, distribución y computación en la nube. Los datos deben clasificarse de acuerdo con ciertas reglas durante el almacenamiento y, mediante filtrado y deduplicación, el almacenamiento puede clasificarse. volumen reducido y agregue etiquetas para recuperarlas fácilmente más adelante.

?3) Gestión de datos

Las tecnologías de gestión de big data también están surgiendo sin cesar. Entre las muchas tecnologías, hay seis tecnologías de gestión de datos que generalmente se preocupan, a saber, almacenamiento y computación distribuidos, tecnología de bases de datos en memoria, tecnología de bases de datos en columnas, bases de datos en la nube, bases de datos no relacionales y tecnología de bases de datos móviles. Entre ellos, el almacenamiento distribuido y la informática han atraído la mayor atención. La imagen de arriba es un sistema de gestión de datos de libros.

?4) Análisis de datos

Análisis y procesamiento de datos: algunos datos de la industria involucran cientos de parámetros, y su complejidad no solo se refleja en la muestra de datos en sí, sino también en los múltiples. -fuente y heterogénea La dinámica interactiva entre estructuras, múltiples entidades y múltiples espacios es difícil de describir y medir utilizando métodos tradicionales, y la complejidad del procesamiento es muy alta. Es necesario reducir la dimensionalidad de los datos multimedia, como los de alta dimensión. imágenes y luego medirlas y procesarlas, y utilizar la asociación de contexto para realizar análisis semántico, sintetizar información a partir de grandes cantidades de datos dinámicos y potencialmente ambiguos y derivar contenido comprensible. Hay muchos tipos de procesamiento de big data y los principales modos de procesamiento se pueden dividir en dos tipos: procesamiento de flujo y procesamiento por lotes. El procesamiento por lotes almacena los datos primero y luego los procesa, mientras que el procesamiento por secuencias procesa los datos directamente. Las principales tareas de la minería son el análisis de correlación, el análisis de conglomerados, la clasificación, la predicción, el análisis de patrones y desviaciones de series temporales, etc.

? 5) El valor del big data: sistema de apoyo a la toma de decisiones

La magia del big data es que puede predecir con precisión el futuro analizando datos pasados ​​y presentes integrando datos internos y actuales; datos externos dentro de una organización, puede obtener información sobre la correlación entre las cosas, al extraer cantidades masivas de datos, puede reemplazar el cerebro humano y asumir las responsabilidades de la gestión corporativa y social.

?6) Uso de datos

Big data tiene tres connotaciones: primero, conjuntos de datos con enormes cantidades de datos, diversas fuentes y tipos; segundo, nuevas tecnologías de procesamiento y análisis de datos; El tercero es utilizar el análisis de datos para formar valor. Los macrodatos están teniendo un impacto revolucionario en diversos campos como la investigación científica, la construcción económica, el desarrollo social y la vida cultural. La condición clave y necesaria para la aplicación de big data radica en la integración de "TI" y "operación". Por supuesto, la connotación de operación aquí puede ser muy amplia, desde la operación de una tienda minorista hasta la operación de una tienda. ciudad.

2. Arquitectura básica de big data

Basado en las características de big data mencionadas anteriormente, el costo de almacenar y procesar big data a través de la tecnología de TI tradicional es alto. Si una empresa quiere desarrollar vigorosamente aplicaciones de big data, primero necesita resolver dos problemas: primero, extraer y almacenar datos masivos de múltiples categorías a bajo costo y rápidamente, segundo, utilizar nuevas tecnologías para analizar y extraer datos; y crear datos para el valor empresarial. Por lo tanto, el almacenamiento y procesamiento de big data son inseparables de la tecnología de computación en la nube. En las condiciones técnicas actuales, los sistemas distribuidos basados ​​​​en hardware barato (como Hadoop, etc.) se consideran la plataforma tecnológica más adecuada para procesar big data.

Hadoop es una infraestructura distribuida que permite a los usuarios utilizar de manera conveniente y eficiente recursos informáticos y procesar datos masivos. Ha sido ampliamente utilizado en muchas grandes empresas de Internet, como Amazon, Facebook y Yahoo. Es una arquitectura abierta y los miembros de la arquitectura se amplían y mejoran constantemente. La arquitectura general se muestra en la Figura 2:

?Arquitectura del sistema Hadoop

(1) La capa inferior. de Hadoop es un HDFS (Sistema de archivos distribuidos de Hadoop), los archivos almacenados en HDFS primero se dividen en bloques y luego estos bloques se copian en varios hosts (DataNode, nodos de datos).

(2) El núcleo de Hadoop es el motor MapReduce (modelo de programación de mapeo y reducción). Map significa descomponer una sola tarea en múltiples tareas, y Reducir significa resumir los resultados descompuestos de múltiples tareas. El motor consta de JobTrackers (seguimiento de trabajos, correspondiente a nodos nombrados) y TaskTrackers (seguimiento de tareas, correspondiente a nodos de datos). Al procesar consultas de big data, MapReduce descompondrá la tarea en múltiples nodos para su procesamiento, mejorando así la eficiencia del procesamiento de datos y evitando cuellos de botella en el rendimiento de una sola máquina.

(3) Hive es un almacén de datos en la arquitectura Hadoop, que se utiliza principalmente para estructuras estáticas y trabajos que requieren análisis frecuentes. Hbase se ejecuta principalmente en HDFS como una base de datos orientada a columnas y puede almacenar datos a nivel de petabytes. Hbase utiliza MapReduce para procesar datos masivos internos y puede ubicar los datos requeridos en los datos masivos y acceder a ellos.

(4) Sqoop está diseñado para la interoperabilidad de datos. Puede importar datos de bases de datos relacionales a Hadoop e importarlos directamente a HDFS o Hive.

(5) Zookeeper es responsable de la coordinación de las aplicaciones en la arquitectura Hadoop para mantener la sincronización dentro del clúster de Hadoop.

(6) Thrift es un marco de software que se utiliza para desarrollar servicios escalables y en varios idiomas. Desarrollado originalmente por Facebook, es un servicio fluido y eficiente creado entre varios lenguajes de programación.

Diseño central de Hadoop

Hbase: sistema de almacenamiento de datos distribuido

Cliente: utilice el mecanismo HBase RPC para comunicarse con HMaster y HRegionServer

Zookeeper : Gestión de servicios colaborativos, HMaster puede detectar el estado de salud de cada HRegionServer en cualquier momento a través de Zookeeper

HMaster: gestiona las operaciones de adición, eliminación, modificación y consulta de usuarios en tablas

HRegionServer: el más popular en HBase El módulo central es el principal responsable de responder a las solicitudes de E/S del usuario y leer y escribir datos en el sistema de archivos HDFS

HRegión: la unidad más pequeña de almacenamiento distribuido en Hbase, que puede ser entendido como una Tabla

HStore: El núcleo del almacenamiento HBase. Compuesto por MemStore y StoreFile.

HLog: cada vez que se escribe una operación de usuario en Memstore, también se escribirá una copia de los datos en el archivo HLog

Combinado con las funciones de arquitectura Hadoop anteriores, la plataforma de big data Las recomendaciones de funciones del sistema se muestran en la figura Mostrar:

Sistema de aplicaciones: para la mayoría de las empresas, las aplicaciones en el campo operativo son las aplicaciones principales de big data. En el pasado, las empresas utilizaban principalmente varios datos de informes de producción. y operaciones, pero con la llegada de big data Con el advenimiento de la era, están inundando datos masivos de Internet, Internet de las cosas y varios sensores. Como resultado, algunas empresas comenzaron a extraer y utilizar estos datos para promover mejoras en la eficiencia operativa.

Plataforma de datos: con la ayuda de la plataforma de big data, la Internet del futuro permitirá a los comerciantes comprender mejor los hábitos de uso de los consumidores, mejorando así la experiencia de uso. Mediante el correspondiente análisis basado en big data, se puede mejorar la experiencia del usuario de forma más específica y al mismo tiempo se pueden explorar nuevas oportunidades de negocio.

Fuente de datos: La fuente de datos se refiere a la base de datos o al servidor de base de datos utilizado por la aplicación de base de datos. Las fuentes de datos enriquecidas son el requisito previo para el desarrollo de la industria del big data. Las fuentes de datos se expanden constantemente y se vuelven más diversas. Por ejemplo: los automóviles inteligentes pueden convertir el proceso de conducción dinámico en datos, y el Internet de las cosas integrado en los equipos de producción puede convertir el proceso de producción y el estado dinámico del equipo en datos. La expansión continua de las fuentes de datos no solo conduce al desarrollo de equipos de recolección, sino que también permite un mejor control del valor de los datos mediante el control de nuevas fuentes de datos. Sin embargo, la cantidad total de recursos de datos digitales en nuestro país es mucho menor que la de Estados Unidos y Europa. En cuanto a los recursos de datos limitados, todavía hay situaciones en las que la estandarización, la precisión y la integridad son bajas y el valor de utilización no. alto, lo que reduce en gran medida el valor de los datos.

? 3. Efectos objetivo del big data

A través de la introducción y despliegue del big data, se pueden lograr los siguientes efectos:

?

·Modelo de datos unificado: lleva el modelo de datos empresarial y promueve la unificación de modelos lógicos de datos en todos los dominios de la empresa;

·Estándar de datos unificado: establece uniformemente una codificación de datos estándar directorio para realizar la estandarización e integración de datos empresariales Almacenamiento unificado;

·Vista de datos unificada: implemente una vista de datos unificada para que las empresas puedan obtener información consistente desde las perspectivas de los clientes, productos y recursos.

? 2) Control de calidad de los datos

·Verificación de la calidad de los datos: verificar la coherencia, integridad y precisión de los datos almacenados de acuerdo con reglas para garantizar la seguridad, integridad y precisión de la coherencia de los datos;

·Control de calidad de los datos: Al establecer estándares de calidad de datos empresariales, organizaciones de control y gestión de datos y procesos de control y gestión de datos, se logra una gestión y control unificados de la calidad de los datos para lograr una mejora gradual de la calidad de los datos. .

? 3) Intercambio de datos

·Eliminar las interfaces de malla, establecer un centro de intercambio de big data, proporcionar datos compartidos para cada sistema empresarial y reducir la complejidad de las interfaces, mejorar la eficiencia y la calidad de interfaces entre sistemas;

·Proporcionar datos integrados o calculados a sistemas externos en tiempo real o casi en tiempo real.

?4) Aplicación de datos

·Aplicación de consulta: La plataforma implementa funciones de consulta bajo demanda con formatos no fijos, impredecibles y flexibles;

·Aplicación de informes fijos : Dependiendo de la visualización de los resultados del análisis con dimensiones e indicadores estadísticos fijos, se pueden analizar y generar varios datos de informes comerciales de acuerdo con las necesidades del sistema comercial;

·Aplicación de análisis dinámico: analiza datos de acuerdo con dimensiones e indicadores de interés Realizar análisis temáticos, y las dimensiones e indicadores en las aplicaciones de análisis dinámico no son fijos.

? 4. Resumen

La plataforma de big data construida sobre la base de tecnología distribuida puede reducir efectivamente los costos de almacenamiento de datos, mejorar el análisis de datos y la eficiencia del procesamiento, y admite datos masivos y alta concurrencia. escenarios Capacidad para acortar significativamente el tiempo de respuesta de consultas de datos y satisfacer las necesidades de datos de las aplicaciones de capa superior en las empresas.