Las diferencias entre los tres modos operativos de big data hadoop e instrucciones de configuración detalladas.
Todos los archivos de configuración de Hadoop se configuran mediante archivos XML. Tiene cuatro archivos de configuración más comunes, que son:
El archivo core-site.xml se utiliza principalmente para configurar propiedades públicas.
El archivo hdfs-site.xml se utiliza para configurar las propiedades de hdfs.
El archivo Mapred-site.xml se utiliza para configurar las propiedades de Mapreduce.
El archivo Yarn-site.xml se utiliza para configurar las propiedades de Yarn.
En términos generales, estos cuatro archivos de configuración se almacenan en el subdirectorio etc/hadoop del directorio de instalación predeterminado de Hadoop. Sin embargo, también podemos copiar el directorio etc/hadoop y sus archivos a otra ubicación según las necesidades reales al crear un clúster. Esto puede separar los archivos de configuración y los archivos de instalación para facilitar la administración.
Nota: Si copia el directorio etc/hadoop y los archivos que contiene a otra ubicación.
Necesitamos configurar hadoop_conf_dir para que apunte al nuevo directorio en la variable de entorno.
1. Modo de operación local
No se requiere ningún proceso demonio y todos los programas se ejecutan en la misma JVM. La depuración de programas MR en modo local es muy eficiente y conveniente. Generalmente este modelo se utiliza principalmente en la etapa de aprendizaje o desarrollo.
2. Modo pseudodistribuido
El demonio Hadoop se ejecuta en la máquina local, simulando un clúster a pequeña escala. En otras palabras, se puede configurar un clúster de Hadoop de una máquina. Las pseudodistribuciones son casos especiales de distribuciones perfectas.
3. Modo totalmente distribuido
El demonio Hadoop se ejecuta en el clúster. Este modo de funcionamiento es también una de nuestras nubes comunes y se utiliza principalmente en entornos de producción a gran escala.
Nota: Iniciar el demonio en modo distribuido significa que cuando se usa hadoop distribuido, se deben iniciar algunos procesos de preparación antes de usarlo. Por ejemplo, start-dfs.sh start-yarn.sh, no es necesario iniciar estos demonios en modo local.
Nota: En modo local, se utilizará el sistema de archivos local y el ejecutor MapReduce local. En modo distribuido, se iniciarán HDFS y los demonios de hilo.