Red de conocimiento informático - Conocimiento informático - ¿Cómo interpretar el componente hdfs en la versión hadoop 2.x?

¿Cómo interpretar el componente hdfs en la versión hadoop 2.x?

Los componentes de HDFS son los siguientes:

1. NameNode

NameNode es el servidor maestro del clúster HDFS, a menudo llamado nodo de nombre o nodo maestro. . Una vez que NameNode está inactivo, ya no se puede acceder al clúster de Hadoop. NameNode se utiliza principalmente como gestión y almacenamiento de metadatos para mantener los nombres del sistema de archivos y gestionar el acceso de los clientes a los archivos.

El NameNode registra cualquier cambio en el espacio de nombres del sistema de archivos o sus atributos. HDFS es responsable de administrar todo el clúster de datos y la cantidad de copias de seguridad se puede configurar en el archivo de configuración, todas las cuales se almacenan mediante. el nodo de nombre.

2. DataNode (nodo de datos)

DataNode es un servidor esclavo en un clúster HDFS, generalmente llamado nodo de datos. La forma en que el sistema de archivos almacena archivos es dividiendo los archivos en múltiples bloques de datos. Estos bloques de datos en realidad se almacenan en nodos DataNode, por lo que la máquina DataNode requiere una gran cantidad de espacio en disco.

Mantiene comunicación continua con el NameNode. El DataNode almacenará y recuperará bloques de datos, realizará operaciones como crear y eliminar bloques de datos y enviará periódicamente una lista de bloques de datos almacenados al NameNode cuando se inicie el DataNode. También será responsable de enviar una lista de bloques de datos retenidos. la máquina NameNode.

3. Bloque

Cada disco tiene un tamaño de bloque predeterminado, que es la unidad más pequeña de lectura/escritura de datos en el disco. HDFS también tiene el concepto de bloque, que es un. abstracción en lugar de todo el archivo como unidades de almacenamiento. En Hadoop2,

El principal beneficio del almacenamiento en bloques es enmascarar el tamaño del archivo (en este caso, un archivo se puede dividir en N bloques de datos y almacenarse en un solo disco, lo que simplifica el diseño del sistema de almacenamiento). La seguridad de los datos requiere una copia de seguridad y los bloques son ideales para la copia de seguridad de los datos), proporcionando tolerancia a fallos y disponibilidad de los datos.

4. Rack (Rack)

Rack se utiliza para almacenar los racks donde se implementan los servidores del clúster Hadoop. Los nodos entre diferentes racks se comunican a través de conmutadores. HDFS utiliza políticas de rack para permitir que NameNode determine la ID del rack al que pertenece cada nodo de datos y utiliza políticas de almacenamiento replicadas para mejorar la confiabilidad, disponibilidad y utilización del ancho de banda de la red de los datos.

5. Metadatos

Los metadatos se pueden dividir en tres formas de información por tipo. El primero es mantener la información de los archivos y directorios en HDFS, como el nombre del archivo, el nombre del directorio, la información del directorio principal, el tamaño del archivo, la hora de creación, la hora de modificación, etc.; el segundo es registrar el contenido del archivo y almacenarlo; información relacionada, como bloques de archivos y copias, información del nodo de datos donde se encuentra cada copia, etc., en tercer lugar, se utiliza para registrar la información de todos los nodos de datos en HDFS para la gestión de nodos de datos.