Cómo configurar el entorno Hadoop
Antes de instalar Hadoop, debe ingresar a su entorno Linux y conectarse a Linux mediante SSH (Secure Shell). Siga los pasos a continuación para configurar su entorno Linux.
Crear un usuario
Al principio, se recomienda crear un usuario Hadoop separado para aislar el sistema de archivos Hadoop del sistema de archivos Unix. Siga estos pasos para crear un usuario:
Utilice el comando "su" para habilitar root.
Utilice el comando "useradd nombre de usuario" para crear un usuario desde la cuenta raíz.
Las cuentas de usuario existentes ahora se pueden abrir usando el comando "su nombre de usuario".
Abra una terminal Linux e ingrese el siguiente comando para crear un usuario.
$ su
contraseña:
# useradd hadoop
# passwd hadoop
Nueva contraseña:
p>
Vuelva a escribir la nueva contraseña
Configuración de SSH y generación de claves
La configuración de SSH es para realizar diferentes operaciones en el clúster (como iniciar, detener, shell de demonio distribuido requerido para operación). La autenticación de diferentes usuarios de Hadoop requiere un par de claves pública/privada para el aprovisionamiento de usuarios de Hadoop y por parte de diferentes usuarios.
Los siguientes comandos se utilizan para generar pares clave-valor usando SSH. Copie la clave pública en el formato id_rsa.pub en el archivo Authorized_keys y otorgue al propietario permisos de lectura y escritura en el archivo Authorized_keys.
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~ /.ssh/authorized_keys
Instalación de Java
Java es el principal requisito previo para Hadoop. Primero, debes verificar la presencia de Java en tu sistema usando el comando "java-version". La sintaxis del comando de la versión Java es la siguiente.
$ java -version
Si todo va bien, obtendrá el siguiente resultado.
versión de Java "1.7.0_71"
Entorno de ejecución Java(TM) SE (compilación 1.7.0_71-b13)
Lado del cliente Java HotSpot(TM) VM (compilación 25.0-b02, modo mixto)
Si Java aún no está instalado en su sistema, siga los pasos a continuación para instalar Java.
Paso 1
Descarga Java (JDK<última versión> - X64.tar.gz)
Luego JDK-7u71-linux-x64.tar. será descargado al sistema.
Paso 2
Normalmente, los archivos Java están en la carpeta de descargas. Utilice el siguiente comando para descomprimir el archivo jdk-7u71-linux-x64.gz.
$ Descargas cd/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71- linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71- linux-x64.gz
Paso 3
Para que Java esté disponible para todos los usuarios, muévalo al directorio "/usr/local/". Abra el directorio raíz y escriba los siguientes comandos.
$ su
contraseña:
# mv jdk1.7.0_71 /usr/local/
# salir
Paso 4
Para configurar las variables PATH y JAVA_HOME, agregue los siguientes comandos en el archivo ~/.bashrc.
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin
Ahora verifique el comando java -version de el terminal es como se mencionó anteriormente.
Descargar Hadoop
Descarga el software de Apache Foundation y descomprime Hadoop 2.4.1 usando el siguiente comando:
$ su
contraseña:
# cd /usr/local
# wget mon/hadoop- 2.4.1/
hadoop-2.4.1.tar.gz p>
p>
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# salir
Modo de ejecución de Hadoop
Después de descargar Hadoop, puede ejecutar el clúster de Hadoop en uno de los siguientes tres modos admitidos:
Modo local/independiente: Después de descargar Hadoop en el sistema, el caso predeterminado, se configurará para ejecutar un programa Java en modo independiente.
Modo de simulación distribuida: Se trata de una simulación distribuida realizada en una única máquina. Hadoop protege cada proceso, como hdfs, Yarn, MapReduce, etc., y lo ejecuta como un programa Java independiente. Este modo es muy útil para el desarrollo.
Modo totalmente distribuido: Este modo es un clúster totalmente distribuido que consta de al menos dos o más ordenadores. Usaremos este patrón en los siguientes capítulos.
Instalación de Hadoop en modo independiente
Aquí analizamos la instalación de Hadoop 2.4.1 en modo independiente.
Solo una JVM ejecuta todos los procesos del demonio. El modo independiente es adecuado para ejecutar programas MapReduce durante el desarrollo porque es fácil de probar y depurar.
Configurar Hadoop
Agregue los siguientes comandos al archivo ~/.bashrc para configurar las variables de entorno de Hadoop.
exportar HADOOP_HOME=/usr/local/hadoop
Antes de continuar, debemos asegurarnos de que Hadoop se esté ejecutando correctamente. Emita el siguiente comando:
$ versión de hadoop
Si todo está configurado correctamente, debería ver los siguientes resultados:
Hadoop 2.4.1
Subversion mon -r 1529768
Compilado por hortonmu el 2013-10-07T06:28Z
Compilado con el protocolo 2.5.0
De la fuente con suma de comprobación 79e53ce7994d1628b240f09af91e1af4
Esto significa que Hadoop en modo independiente puede ejecutarse normalmente en modo independiente. De forma predeterminada, Hadoop está configurado para ejecutarse en una sola máquina en modo no distribuido.