Problemas de programación de HDFS
Permítame explicarle primero:
1. El nodo de nombre es responsable de administrar la información del directorio y del archivo, y los bloques de archivos reales se almacenan en el nodo de datos.
2. Cada mapa y reducción (es decir, tarea) es un proceso Java y tiene un jvm separado de forma predeterminada, por lo que los objetos del mismo tipo no pueden estar en nodos diferentes.
Mira tu descripción. Namenode y datanode están un poco confundidos con jobtracker y tasktracker.
Entonces:
Pregunta 1. Almacenado en bloques en el nodo de datos.
Pregunta 2. El formato de entrada está en el nodo de datos, especialmente en el rastreador de tareas. Cada mapa y reducción tiene su propio objeto. Cuando se leen varios mapas en un archivo, diferentes mapas en realidad leen diferentes bloques del archivo, y lo mismo ocurre con la reducción. Los datos leídos por cada tarea son disjuntos.
Pregunta 3. 3. La salida reducida debe estar en hdfs, como un archivo normal en el nodo de datos.
Pregunta 4. Cada reductor tiene su propio objeto de formato de salida por la misma razón que el formato de entrada anterior.