Red de conocimiento informático - Aprendizaje de código fuente - La evolución de la formación informática comparte la jerarquía estructural del big data

La evolución de la formación informática comparte la jerarquía estructural del big data

Con el desarrollo de Internet, cada vez hay más información inundando Internet, y big data se basa en recopilar esta información, clasificar, resumir y organizar la información que necesitamos, y luego usar esta información. Una habilidad requerida para completar algún trabajo.

Hoy en día, la formación informática en Changping se basa principalmente en el análisis. ¿Cuántos niveles tiene la tecnología big data?

En la era de Internet móvil, la cantidad de datos ha aumentado exponencialmente, de los cuales los datos no estructurados como texto, audio y vídeo representan más del 85%, y seguirán aumentando en el futuro. El sistema de archivos distribuido, la base de datos distribuida y la tecnología de computación paralela distribuida de la arquitectura Hadoop resuelven los desafíos del almacenamiento, la gestión y el procesamiento de datos heterogéneos masivos de múltiples fuentes.

Desde el lanzamiento de la primera versión de Apache Hadoop en abril de 2006, Hadoop, como tecnología de código abierto que permite el almacenamiento, la gestión y la informática de datos masivos, se ha iterado hasta la versión estable v2.7.2, y su Los componentes también han evolucionado desde las tradicionales Las tres comunidades gigantes de HDFS, MapReduce y HBase se han convertido en un enorme ecosistema que consta de más de 60 componentes relacionados, incluido el almacenamiento de datos, la gestión de datos y el procesamiento de datos. Un vasto ecosistema de más de 60 componentes relacionados, incluido almacenamiento de datos, motores de ejecución, programación y marcos de acceso a datos. Su ecosistema se ha desarrollado desde la arquitectura de tres niveles de la versión 1.0 hasta la arquitectura actual de cuatro niveles: 1.

Capa inferior - capa de almacenamiento

Hoy en día, la cantidad de datos de Internet ha aumentado. Alcanzó el nivel PB. Los métodos de almacenamiento tradicionales ya no pueden cumplir con los requisitos de rendimiento y costo de IO eficiente. La tecnología de administración y almacenamiento de datos distribuidos de Hadoop se ha convertido en el estándar de facto para el almacenamiento en disco de big data, y han aparecido cada vez más paquetes de formatos de archivos. su capa superior (como Parquent) para adaptarse a más escenarios de aplicaciones, como análisis de datos de BI y aplicaciones de aprendizaje automático. En el futuro, HDFS continuará ampliando el soporte para arquitecturas de servidores y medios de almacenamiento emergentes. Por otro lado, Arrow, el último sistema de archivos de memoria distribuida, proporciona una especificación de interacción y procesamiento de almacenamiento de memoria en columnas que es diferente de los comúnmente utilizados Tachyon o Ignite, y cuenta con el respaldo de muchos desarrolladores y gigantes de la industria.

A diferencia de las bases de datos relacionales tradicionales, HBase es adecuado para el almacenamiento de datos no estructurados. Kudu es una base de datos relacional distribuida lanzada por Cloudera en octubre de 2015. Se espera que se convierta en una parte importante de la plataforma de análisis de próxima generación, que reducirá aún más la distancia entre el mercado de Hadoop y el mercado de almacenamiento de datos tradicional.

Capa intermedia - capa de control

La capa de control proporciona una gestión eficiente y confiable de recursos y datos para el clúster de Hadoop. YARN, nacido en MapReduce 1.0, se ha convertido en la plataforma universal de gestión de recursos para Hadoop 2.0. Cómo integrarse profundamente con la tecnología de contenedores, cómo mejorar las capacidades de programación, las capacidades de control detalladas y las capacidades de soporte multiinquilino son problemas que YARN necesita resolver aún más. Por otro lado, los componentes Ranger de Hortonworks, Sentry y RecordService de Cloudera permiten el control de seguridad a nivel de datos.