¿Cuáles son los archivos de configuración más utilizados y qué propiedades se configuran para crear un clúster de hadoop?
Después de consultar muchos tutoriales en línea, hadoop finalmente se instaló y configuró con éxito en ubuntu14.04. Los pasos de instalación detallados se describen a continuación. El entorno que uso: dos escritorios ubuntu 14.04 de 64 bits y hadoop versión 2.7.1. (La configuración de la versión independiente se presentó principalmente anteriormente. La versión del clúster se basa en la versión independiente, principalmente porque los archivos de configuración son diferentes, lo que se explicará en detalle más adelante).
2. Preparación
2.1 Crear usuario
Cree un usuario y agréguele permisos de root. Después de la verificación personal, el siguiente método es mejor.
1 sudo adduser Hadoop 2 sudo vim/etc/sudoers 3 #Modificar de la siguiente manera: 4 root all =(all)all 5 Hadoop all =(all)all.
Cree un directorio para el usuario de hadoop y agréguelo al grupo de usuarios sudo. El comando es el siguiente:
1 sudo ChownHadoop/Home/Hadoop 2 #Agregar al grupo de usuarios de Sudo 3 sudo adduser hadoop sudo.
Finalmente, cierre la sesión del usuario actual e inicie sesión con el usuario de hadoop recién creado.
2.2? Instalar el servicio ssh
De forma predeterminada, no hay ningún servidor ssh instalado en ubuntu (solo cliente ssh), así que primero ejecute el siguiente comando para instalar openssh-server. El proceso de instalación es fácil y agradable ~
Instalar ssh openssh-server
2.3 Configurar el inicio de sesión sin contraseña ssh
Codificación directa: después de ejecutar el siguiente código, puede inicie sesión directamente (puede ejecutar ssh localhost para verificar).
1 cd~/. ssh #Si no se puede encontrar esta carpeta, primero ejecute "ssh localhost" 2sh-keygen-t RSA 3c PID_RSA.pub autorizado_keys.
Nota:
Lo que se implementa aquí es su propio inicio de sesión sin contraseña, que solo se aplica al entorno independiente de Hadoop. Si configura su clúster Hadoop y configura inicios de sesión SSH no secretos para los servidores maestro y esclavo, puede
Tres. Proceso de instalación
3.1 Descargue el paquete de instalación de hadoop
Hay dos métodos de descarga:
1 Vaya directamente al sitio web oficial para descargar:
2. Utilice el comando wget para descargar:
3.2 Configuración de hadoop
1. Descomprima el paquete de instalación de hadoop descargado y modifique el archivo de configuración. Mi directorio de descompresión es (/home/hadoop/Hadoop-2. 7. 1), es decir, ingrese a la carpeta /home/Hadoop/ y ejecute el siguiente comando de descompresión.
tar-zxvf Hadoop-2 .7 1 .gz
2. Modifique el archivo de configuración en el directorio (hadoop2.7.1/etc/hadoop/): hadoop-. env .sh, core-site.xml, mapred-site.xml.template, hdfs-site.xml.
Configuración (1).core-site.xml: la ruta de hadoop.tmp.dir se puede configurar según sus propios hábitos.
<Configuration><Properties><Name>Hadoop.tmp.dir</name><Value>file:/home/Hadoop/Hadoop/tmp</ value><description>La base para otros directorios temporales.
</description></property><properties><name>fs.defaultFS </name><value>hdfs://localhost:9000</value>< /property></configuration>
(2).? Configuración de Mapred-site.xml.template:?
<Configuration><Properties><Name>mapred.job.tracker</name><Value>localhost:9001</value></ property></configuration>
(3).? Configuración hdfs-site.xml :? Las rutas de dfs.namenode.name.dir y dfs.datanode.data.dir se pueden configurar libremente, preferiblemente en el directorio hadoop.tmp.dir
Nota: si descubre que no se puede encontrar jdk cuando Al ejecutar Hadoop, puede colocar directamente la ruta jdk en hadoop-env.sh, de la siguiente manera:
export java _ home = "/opt/Java _ file/JDK 1. 7. 0 _ 79", esta es la ruta de instalación en Java.
<Configuration><Properties><Name>dfs.replication</name><Value>1</value></property>& ltproperties><name>DFS .nameNode .name .dir </name><value>file:/home/Hadoop/Hado. op/tmp/DFS/nombre< /value>< /property><property><name>DFS.datanode.data.dir</name><value>file:/home/Hadoop/Hadoop/tmp/DFS/data</ value></property></configuration>
Ejecute hadoop una vez completada la configuración.
Paso 4: Ejecutar hadoop
4.1? Inicializar el sistema HDFS
Ejecute el comando en el directorio haop2.7.1:
bin/ hdfs con nombre de formato de nodo
Los siguientes resultados indican que la inicialización fue exitosa.
4.2? ¿Nodo de nombre? Entonces qué. ¿Nodo de datos? Proceso demonio
Ejecute el comando en el directorio hadop2.7.1:
sbin/start-dfs.sh
La captura de pantalla exitosa es la siguiente:
4.3 Utilice el comando jps para ver la información del proceso:
Si aparece el resultado que se muestra en la figura, significa que se han abierto tanto DataNode como NameNode.
4.4 Ver la interfaz de red
¿Ingresar en el navegador? http://localhost:50070? , puede ver información relevante, la captura de pantalla es la siguiente
En este punto, se ha configurado el entorno hadoop.
5. Ejecute la demostración de recuento de palabras.
1.? Cree un nuevo archivo localmente y complete el contenido como desee: por ejemplo, creé un nuevo archivo haha.txt en el directorio inicio/hadoop y el contenido es "¡hola mundo!".
2. Luego cree una nueva carpeta de prueba en el sistema de archivos distribuido (hdfs), cargue nuestro archivo de prueba haha.txt y ejecute el comando en el directorio hadoop-2.7.1:
#Crea un directorio de prueba en el directorio raíz de hdfs.
bin/hdfs dfs -mkdir /test
#Ver la estructura del directorio en el directorio raíz de HDFS
bin/hdfs dfs -ls /
Los resultados son los siguientes:
3.? Cargue el archivo haha.txt local en el directorio de prueba;
#Upload
bin/hdfsdfs-put/home/Hadoop/haha .txt/test/# View
.bin/HDFS DFS-ls/test/
Los resultados son los siguientes:
4. Ejecute Word Countdemo
#Guarde los resultados de ejecución en /test/out En el directorio
bin/Hadoop jar share/Hadoop/MapReduce/Hadoop-MapReduce-examples-2 1 . /p>
#Ver los archivos en el directorio /test/out
bin/HDFS DFS-ls/test/output
Los resultados son los siguientes:
Los resultados de la ejecución indican que la operación fue exitosa, el resultado se guarda en part-r-00000.
5. Verifique los resultados de la ejecución;
#Ver los resultados de la ejecución en la parte r-00000
bin/Hadoop fs-cat/test/out/part - r-00000
Los resultados son los siguientes:
En este punto, se completa la demostración del recuento de palabras.
Resumen de verbos intransitivos
Se encontraron muchos problemas durante el proceso de configuración, pero al final se resolvieron todos uno por uno y los resultados fueron fructíferos. Me gustaría compartir mi experiencia en esta configuración para comodidad de los amigos que quieran configurar el entorno Hadoop ~
(El proceso de instalación y configuración del clúster Hadoop es básicamente el mismo que el de la versión independiente , principalmente en términos de archivos de configuración. El inicio de sesión sin clave SSH requiere que el maestro y el esclavo puedan iniciar sesión entre sí.