Red de conocimiento informático - Material del sitio web - Las diferencias entre los tres modos operativos de big data hadoop e instrucciones de configuración detalladas.

Las diferencias entre los tres modos operativos de big data hadoop e instrucciones de configuración detalladas.

Al desarrollar basado en Hadoop, a veces se siente confundido por el modo operativo de Hadoop. Es una tontería no poder distinguir las diferencias entre los distintos modos operativos, lo que genera mucha confusión en el desarrollo diario y hay diferentes archivos de configuración de clúster. también diferente. Para comprender cómo funciona Hadoop y su papel en el archivo de configuración, debe tener la mente clara para poder tener éxito en su trabajo.

Todos los archivos de configuración de Hadoop se configuran mediante archivos XML. Tiene cuatro archivos de configuración más comunes, que son:

El archivo core-site.xml se utiliza principalmente para configurar propiedades públicas.

El archivo hdfs-site.xml se utiliza para configurar las propiedades de hdfs.

El archivo Mapred-site.xml se utiliza para configurar las propiedades de Mapreduce.

El archivo Yarn-site.xml se utiliza para configurar las propiedades de Yarn.

En términos generales, estos cuatro archivos de configuración se almacenan en el subdirectorio etc/hadoop del directorio de instalación predeterminado de Hadoop. Sin embargo, también podemos copiar el directorio etc/hadoop y sus archivos a otra ubicación según las necesidades reales al crear un clúster. Esto puede separar los archivos de configuración y los archivos de instalación para facilitar la administración.

Nota: Si copia el directorio etc/hadoop y los archivos que contiene a otra ubicación.

Necesitamos configurar hadoop_conf_dir para que apunte al nuevo directorio en la variable de entorno.

1. Modo de operación local

No se requiere ningún proceso demonio y todos los programas se ejecutan en la misma JVM. La depuración de programas MR en modo local es muy eficiente y conveniente. Generalmente este modelo se utiliza principalmente en la etapa de aprendizaje o desarrollo.

2. Modo pseudodistribuido

El demonio Hadoop se ejecuta en la máquina local, simulando un clúster a pequeña escala. En otras palabras, se puede configurar un clúster de Hadoop de una máquina. Las pseudodistribuciones son casos especiales de distribuciones perfectas.

3. Modo totalmente distribuido

El demonio Hadoop se ejecuta en el clúster. Este modo de funcionamiento es también una de nuestras nubes comunes y se utiliza principalmente en entornos de producción a gran escala.

Nota: Iniciar el demonio en modo distribuido significa que cuando se usa hadoop distribuido, se deben iniciar algunos procesos de preparación antes de usarlo. Por ejemplo, start-dfs.sh start-yarn.sh, no es necesario iniciar estos demonios en modo local.

Nota: En modo local, se utilizará el sistema de archivos local y el ejecutor MapReduce local. En modo distribuido, se iniciarán HDFS y los demonios de hilo.