Red de conocimiento informático - Material del sitio web - Preguntas del examen escrito de Hadoop sobre tecnología de big data

Preguntas del examen escrito de Hadoop sobre tecnología de big data

Preguntas escritas de prueba de Hadoop sobre tecnología de big data

Introducción: Hadoop es altamente tolerante a fallas y está diseñado para implementarse en hardware barato (de bajo costo). Las siguientes son preguntas escritas de entrevistas y experiencias compiladas y recomendadas por el autor J.L.

Preguntas de opción múltiple

1. ¿Cuál de los siguientes programas es responsable del almacenamiento de datos HDFS?

a)NameNode

b)Jobtracker

c)Datanode

d)secundarioNameNode

e)tasktracker

2. En HDfS, ¿cuántas copias de un bloque de datos se almacenan por defecto?

a) 3 copias

b) 2 copias

c) 1 copia

d) No estoy seguro

3. ¿Cuál de los siguientes programas se inicia normalmente en un nodo con un NameNode?

a) SecondaryNameNode

b) DataNode

c) TaskTracker

d) Jobtracker

4. Hadoop Autor de

a) Martin Fowler

b) Kent Beck

c) Doug cortando

5.Tamaño de bloque predeterminado de HDFS p>

a) 32 MB

b) 64 MB

c) 128 MB

6. ¿Cuál de los siguientes suele ser el cuello de botella más importante en un clúster

p>

a) CPU

b) Red

c) Disco

d) Memoria

7. Acerca del SecondaryNameNode, ¿cuál de las siguientes opciones es correcta?

a) Es un nodo de espera activa del NameNode

b) No tiene requisitos de memoria

c) Su propósito es ayudar al NameNode a fusionar los editar el registro y reducir el tiempo de inicio de NameNode

d) SecondaryNameNode debe implementarse en el nodo con NameNode

Elección múltiple

8. ¿Cuál de los siguientes puede ser utilizado como herramienta de gestión de clústeres

a)Puppet

b)Pdsh

c)Cloudera Manager

d)d)Zookeeper

9. Al configurar el conocimiento del rack, ¿cuál de las siguientes opciones es correcta?

p> a) Si hay un problema con un rack, no afectará la lectura y escritura de datos

b) Las operaciones de escritura se escribirán en DataNodes en diferentes racks

c) MapReduce obtendrá datos de la red más cercana según el rack

10. Al cargar archivos en el cliente, cuál de las siguientes es correcta

a) Los datos se pasan a DataNode a través de NameNode y los datos se pasan a DataNode a través de NameNode.

Los datos se pasan al nodo de datos a través de NameNode

b) El cliente divide el archivo en fragmentos y los carga en orden

c) El cliente solo carga los datos en un solo dato nodo, y luego el cliente NameNode es responsable de la replicación de bloques

11. ¿Cuál de los siguientes es el modo operativo de Hadoop?

12. ¿Cuál de los siguientes es el modo operativo de Hadoop?

a) Operación independiente

b) Pseudodistribuida

c) Distribuida

12. ¿Cuál de los siguientes métodos proporciona Cloudera? para instalar CDH

a) Cloudera manager

b) Tar ball

c) Yum d) Rpm

Pregunta de verdadero o falso

13. Los ganglios no sólo pueden monitorear, también se pueden generar alertas. ( )

14. El tamaño del bloque no se puede modificar. ( )

15.Nagios no puede monitorear los clústeres de Hadoop porque no es compatible con Hadoop. ( )

16. Si un NameNode termina inesperadamente, el SecondaryNameNode tomará el control y mantendrá el clúster en ejecución. ( )

17. Cloudera CDH es de pago. ( )

18.Hadoop está desarrollado en Java, por lo que MapReduce solo se puede escribir en Java. ( )

19.Hadoop admite lectura y escritura aleatoria de datos. ( )

20. NameNode es responsable de administrar los metadatos. Cada vez que el cliente lee o escribe una solicitud, lee o escribe información de metadatos del disco y se la devuelve al cliente. ( )

21. El disco local del NameNode almacena la información de ubicación del bloque. ( )

22. El nodo de datos se comunica con el nodo de nombre a través de una conexión larga. ( )

23. El propio Hadoop tiene estrictas medidas de seguridad y gestión de permisos para garantizar el funcionamiento del clúster. ( )

24. Los nodos esclavos almacenan datos, por lo que cuanto más grande sea el disco, mejor. ( )

25. El comando hadoop dfsadmin ?report se utiliza para detectar bloques de datos corruptos en HDFS. ( )

26. La política de programación predeterminada de Hadoop es FIFO ( )

27. Cada nodo del clúster debe tener RAID habilitado para evitar que un solo disco se dañe y afecte a todo el nodo. ( )

28. Debido a que HDFS tiene múltiples copias, no existe un único punto de falla para NameNode. ( )

29. Cada espacio del mapa es un hilo. ( )

30. La partición de entrada de Mapreduce es un bloque. El puerto de interfaz de usuario web de NameNode es 50030, que inicia el servicio web a través de Jetty. ( )

32. HADOOP_HEAPSIZE en la variable de entorno Hadoop se utiliza para configurar la memoria de todos los procesos del demonio de Hadoop. El valor predeterminado es 200 GB. Cuando un nodo de datos se une por primera vez al clúster, si la versión del archivo informada en el registro es incompatible, el NameNode debe realizar la operación Hadoop namenode -format? ( )

¡No te vayas, la respuesta está detrás!

1. ¿Cuál de los siguientes programas es responsable del almacenamiento de datos HDFS?

Respuesta C nodo de datos

a)NameNode

b)Jobtracker

c)Datanode

d)secundarioNameNode

e)tasktracker

2. En HDfS, ¿cuántas copias de un bloque de datos se almacenan de forma predeterminada? ¿Cuántas copias se guardan por defecto? La respuesta A tiene como valor predeterminado 3 copias

a) 3 copias

b) 2 copias

c) 1 copia

d) No estoy seguro

3. ¿Cuál de los siguientes programas se inicia normalmente en un nodo con un NameNode? Respuesta D

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

Esto Análisis de preguntas:

El clúster de Hadoop se basa en el modelo maestro/esclavo. Namenode y jobtracker pertenecen al nodo maestro, y datanode y tasktracker pertenecen al nodo esclavo. Solo hay un nodo maestro y varios nodos esclavos. Los requisitos de memoria de SecondaryNameNode son del mismo orden de magnitud que los de NameNode. Por lo tanto, los requisitos de memoria de secondNameNode (que se ejecuta en el mismo servidor) son los mismos que los de NameNode. Por lo general, el SecondNameNode (que se ejecuta en el mismo servidor) tiene los mismos requisitos de memoria que el NameNode. NameNode (que se ejecuta en una máquina física separada) y NameNode que se ejecuta en máquinas diferentes.

JobTracker y TaskTracker

JobTracker corresponde a NameNode

TaskTracker corresponde a DataNode

DataNode y NameNode se utilizan para el almacenamiento de datos

p>

JobTracker y TaskTracker corresponden a NameNode. JobTracker y TaskTracker se utilizan para ejecutar varios conceptos clave en MapReduce.

Mapreduce en su conjunto se puede dividir en varios subprocesos de ejecución: Obclient, JobTracker y TaskTracker.

1. JobClient empaquetará los parámetros de la aplicación configurados en archivos jar y los almacenará en hdfs a través de la clase JobClient en el lado del usuario, y enviará la ruta a Jobtracker, y luego JobTracker creará cada tarea (es decir, MapTask y ReduceTask), MapTask y ReduceTask) y asignarlos a cada ejecución del servicio TaskTracker.

2. JobTracker es un servicio principal. Una vez iniciado el software, JobTracker recibe el trabajo y es responsable de programar el trabajo de cada subtarea para que se ejecute en TaskTracker, monitorearlos y volver a ejecutarlo si una tarea falla. Generalmente, debe implementar rastreadores de trabajos en una máquina separada.

3. TaskTracker es un servicio esclavo que se ejecuta en múltiples nodos. TaskTracker se comunicará activamente con JobTracker, recibirá tareas y será responsable de ejecutar cada tarea directamente.

Todo TaskTracker debe ejecutarse en HDFS DataNode.

4. Respuesta del autor de Hadoop C Doug cortando

a) Martin Fowler

b) Kent Beck

c) Doug cortando

p>

p>

5.Respuesta del tamaño de bloque predeterminado de HDFS: B

a: B

a) 32 MB

b) 64 MB

c) 128 MB

(Debido a la rápida actualización de la versión, la respuesta aquí es solo como referencia)

6. ¿Cuál de las siguientes suele ser la más importante? cuello de botella en el clúster: Respuesta: disco CC

a) CPU

b) Red

c) Disco IO

d) Memoria

Análisis del problema:

Primero, el propósito de la agrupación en clústeres es ahorrar costos reemplazando computadoras pequeñas y grandes con PC baratas. ¿Cuáles son las características de las minicomputadoras y mainframes?

1. La CPU tiene una gran potencia de procesamiento

2. La memoria es lo suficientemente grande

Por lo tanto, el cuello de botella del clúster no puede ser a y d

3 . La red es un recurso escaso, pero no es un cuello de botella.

4. Debido a que big data enfrenta cantidades masivas de datos, la lectura y escritura de datos requiere IO, y luego Hadoop generalmente prepara 3 copias de datos, por lo que se descontará IO.

7. ¿Cuál es la correcta sobre SecondaryNameNode? Respuesta C

a) Es el nodo de espera activa de NameNode

b) No tiene requisitos de memoria

c) Su propósito es ayudar a NameNode a fusionarse y editarse logs y reducir el tiempo de inicio de NameNode

d) SecondaryNameNode debe implementarse en el mismo nodo que NameNode.

Elección múltiple:

8. ¿Cuál de los siguientes se puede gestionar como un clúster? Respuesta: ABDABD

a) Marioneta

b) Pdsh

c) Cloudera Manager

d) Zookeeper

9. ¿Cuál de las siguientes opciones es correcta para configurar el conocimiento del rack? Respuesta ABC

a) Si el rack se cae, no afectará la lectura/escritura de datos

b) Al escribir datos, los datos se escribirán en DataNodes en diferentes racks

c) MapReduce obtendrá datos de redes más cercanas basadas en el rack

10. Cuando un cliente carga un archivo , ¿cuál de las siguientes es correcta? Respuesta B

a) Los datos se cargan en DataNode a través de NameNode

b) El cliente corta el archivo en trozos y los carga en orden

c) El cliente solo Los datos se cargan en un DataNode, y luego el NameNode es responsable de copiar los bloques

Esta pregunta. Análisis:

El cliente envía una solicitud de escritura de archivo al NameNode.

El NameNode devuelve información al cliente sobre la parte del DataNode que administra en función del tamaño del archivo y la configuración del bloque de archivos.

El cliente divide el archivo en fragmentos y escribe cada fragmento de nodo de datos secuencialmente en función de la información de la dirección del nodo de datos.

11. ¿Cuál de los siguientes es el modo de funcionamiento de Hadoop? Respuesta ABC

a) Operación independiente

b) Pseudodistribuido

c) Distribuido

12. ¿Cuál de los siguientes métodos proporciona Cloudera para instalar CDH? Respuesta: ABCDABCD

a)Administrador de Cloudera

b)Tarball

c)Yum

d)Rpm

Pregunta de Verdadero o Falso:

13. Los ganglios no sólo pueden monitorear, sino también emitir alarmas. (Correcto)

Análisis: El propósito de esta pregunta es probar la capacidad de comprensión de Ganglia. Estrictamente hablando, esto es correcto. Ganglia es uno de los software de monitoreo más utilizados en entornos Linux y es bueno para recopilar datos de nodos a bajo costo según las necesidades del usuario. Sin embargo, los ganglios no son buenos para alertar y notificar a los usuarios cuando sucede algo. Los últimos ganglios tienen algunas de estas características. Sin embargo, Nagios también destaca en cuanto a alertas y notificaciones. Combinando Ganglia y Nagios, utilizando los datos recopilados por Ganglia como fuente de datos de Nagios y luego usando Nagios para enviar notificaciones de advertencia, puede implementar perfectamente un sistema completo de monitoreo y gestión.

14. El tamaño del bloque no se puede modificar. (Error)

Análisis: el archivo de configuración básico que puede modificar Hadoop es hadoop-default.xml. De forma predeterminada, cuando se crea un trabajo, se crea la configuración del trabajo y primero se lee hadoop-default. xml y luego lea la configuración de hadoop-site.xml (la configuración inicial de este archivo está vacía). hadoop-site.xml se usa principalmente para anular la configuración a nivel de sistema de hadoop-default.xml.

15.Nagios no puede monitorear los clústeres de Hadoop porque no proporciona soporte para Hadoop. (Error)

Análisis: Nagios es una herramienta de monitoreo de clústeres y una de las tres herramientas principales para la computación en la nube

16. Si un NameNode termina inesperadamente, el SecondaryNameNode se hará cargo para mantener el clúster se ejecuta normalmente. (Error)

Análisis: SecondaryNameNode es una herramienta auxiliar para la recuperación, no un reemplazo, puede aprender cómo recuperar

17. Se cobra Cloudera CDH. (Incorrecto)

Análisis: El primer producto pago es Cloudera Enterprise, que fue presentado por Cloudera Enterprise en la Cumbre Hadoop en California. Utiliza una serie de herramientas operativas, de monitoreo y de administración patentadas. El precio se basa en el contrato y varía según el tamaño del clúster de Hadoop utilizado.

18.Hadoop está desarrollado en Java, por lo que MapReduce solo se puede escribir en Java. (Error)

Análisis: Rhadoop está desarrollado en lenguaje R y MapReduce es un marco que puede entenderse como una idea que se puede desarrollar en otros lenguajes.

19.Hadoop admite lectura y escritura aleatoria de datos. (Error)

Análisis: Lucene admite lectura y escritura aleatoria, mientras que hdfs solo admite lectura aleatoria. Pero HBase puede compensar esto. HBase proporciona lecturas y escrituras aleatorias para resolver problemas que Hadoop no puede manejar.

HBase fue diseñado desde cero para abordar diversos problemas de escalabilidad: las tablas pueden ser muy altas, con miles de millones de filas de datos. HBase se ha centrado en varios problemas de escalabilidad desde el principio: las tablas pueden ser muy altas, con miles de millones de filas de datos, también pueden ser muy anchas, con millones de columnas de datos, pueden dividirse horizontalmente y abarcar miles de datos comunes; empresas replicadas automáticamente en nodos de máquinas. El esquema de tabla es un reflejo directo del almacenamiento físico, lo que permite que el sistema mejore la eficiencia de la serialización, el almacenamiento y la recuperación de estructuras de datos.

20. NameNode es responsable de administrar los metadatos. Cada vez que el cliente realiza una solicitud de lectura o escritura, lee o escribe información de metadatos del disco y la envía de vuelta al cliente. (Error)

Análisis:

NameNode no necesita leer los metadatos del disco. Todos los datos están en la memoria. Los datos en el disco duro son solo el resultado de la serialización. no se leerá hasta el primer inicio.

1) Escritura de archivos

El cliente inicia una solicitud de escritura de archivos al NameNode.

El NameNode devuelve información al cliente sobre la parte del DataNode que administra en función del tamaño del archivo y la configuración del bloque de archivos.

El cliente divide el archivo en bloques según la información de dirección de los nodos de datos y escribe cada bloque de nodos de datos en secuencia.

2) Lectura de archivos

El cliente inicia una solicitud de lectura de archivos al NameNode.

21. El disco local de NameNode guarda la información de ubicación del bloque. (Personalmente creo que esto es correcto, otras opiniones son bienvenidas)

Análisis: DataNode es la unidad básica de almacenamiento de archivos. Almacena bloques en el sistema de archivos local, donde se guardan los metadatos de los bloques. a intervalos regulares envía toda la información sobre los bloques existentes al NameNode y el NameNode devuelve la información del DataNode almacenada en el archivo.

El cliente lee la información del archivo.

22. DataNode se comunica con NameNode a través de conexiones persistentes. ( )

Esto es divisivo: estoy buscando información favorable al respecto. La siguiente información está disponible como referencia.

Primero aclaremos el concepto:

(1). Conexión larga

El cliente y el servidor primero establecen una conexión de comunicación. no habrá conexión. Desconéctese, luego envíe y reciba mensajes. Este método se utiliza normalmente para comunicaciones punto a punto porque la conexión de comunicación siempre existe.

(2). Conexión corta

El cliente y el servidor solo se conectan una vez al enviar y recibir mensajes, y se desconectan inmediatamente después de que se completa la transacción. Este método se utiliza normalmente para comunicaciones punto a multipunto, como la conexión de varios clientes a un servidor. El propio Hadoop tiene estrictas medidas de seguridad y gestión de permisos para garantizar el funcionamiento normal del clúster. (Error)

Hadoop solo puede evitar que las personas buenas cometan errores, pero no puede evitar que las personas malas hagan cosas malas

24. Los nodos esclavos necesitan almacenar datos, por lo que cuanto más grande sea disco, mejor. (Error)

Análisis: una vez que el nodo esclavo cae, la recuperación de datos es un desafío

25. El comando hadoop dfsadmin ?report se utiliza para detectar bloques dañados de HDFS. (Incorrecto)

26. La política de programación predeterminada de Hadoop es FIFO (Correcto)

27. Cada nodo del clúster debe estar emparejado con RAID para evitar el impacto de la operación de corrupción de un solo disco de todo el nodo. (Incorrecto)

Análisis: Primero, para comprender qué es RAID, puede consultar Disk Array en Wikipedia. El error de esta frase es que es un análisis demasiado absoluto y caso por caso. La pregunta no es el foco, los puntos de conocimiento son los más importantes.

Debido a que Hadoop tiene redundancia, no es necesario configurar RAID si no es muy estricto. Consulte la pregunta 2 para obtener más detalles.

28. Debido a que HDFS tiene múltiples copias, no hay un solo punto de problema para NameNode. (Error)

29. Cada ranura de mapeo es un hilo. (Error)

Análisis: en primer lugar, sabemos qué es el slot del mapa, map slot-gt; map slotmap slot es solo un valor lógico (org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots ), no Corresponde a un hilo o proceso. Hilo o proceso

30. La división de entrada de Mapreduce es un bloque (error)

31. El puerto de la interfaz de usuario web de NameNode es 50030, que inicia el servicio web a través de Jetty. (Error)

32. HADOOP_HEAPSIZE en la variable de entorno Hadoop se utiliza para configurar la memoria de todos los demonios de Hadoop. Su valor predeterminado es 200 GB. (Error)

La memoria asignada uniformemente por hadoop para cada proceso de demonio (namenode, secondnamenode, jobtracker, datanode, tasktracker) se establece en hadoop-env.sh a través del parámetro HADOOP_HEAPSIZE, y el valor predeterminado es 1000M. Cuando un nodo de datos se une por primera vez al clúster, si se informa la incompatibilidad de la versión del archivo en el registro, el NameNode debe realizar una operación de formato de nombre de Hadoop para formatear el disco. (Error)

Análisis:

Primero, comprenda la introducción, qué es ClusterID

ClusterID

Agregue un nuevo identificador ClusterID, use Se utiliza para identificar todos los nodos del clúster. Este identificador es obligatorio o se genera automáticamente al formatear el Namenode. Este identificador se puede utilizar para formatear otros Namenodes que se unan al clúster.

Organización Secundaria

Las preguntas de algunos estudiantes no se centraron en el análisis anterior: son las siguientes:

Este error indica que la versión de Hadoop instalada en el nodo de datos es diferente del otro Las versiones de los nodos no coinciden, por lo que debe verificar la versión de Hadoop en el nodo de datos

Este error indica que la versión de Hadoop instalada en el nodo de datos sí; no coincide con la versión de los otros nodos.

Este error indica que la versión de Hadoop instalada en el DataNode no es coherente con la de otros nodos.