Red de conocimiento informático - Conocimiento informático - Cómo configurar el entorno Hadoop

Cómo configurar el entorno Hadoop

Configuración previa a la instalación

Antes de instalar Hadoop, debe ingresar a su entorno Linux y conectarse a Linux mediante SSH (Secure Shell). Siga los pasos a continuación para configurar su entorno Linux.

Crear un usuario

Al principio, se recomienda crear un usuario Hadoop separado para aislar el sistema de archivos Hadoop del sistema de archivos Unix. Siga estos pasos para crear un usuario:

Utilice el comando "su" para habilitar root.

Utilice el comando "useradd nombre de usuario" para crear un usuario desde la cuenta raíz.

Las cuentas de usuario existentes ahora se pueden abrir usando el comando "su nombre de usuario".

Abra una terminal Linux e ingrese el siguiente comando para crear un usuario.

$ su

contraseña:

# useradd hadoop

# passwd hadoop

Nueva contraseña:

Vuelva a escribir la nueva contraseña

Configuración de SSH y generación de claves

La configuración de SSH es para realizar diferentes operaciones en el clúster (como iniciar, detener, shell de demonio distribuido requerido para operación). La autenticación de diferentes usuarios de Hadoop requiere un par de claves pública/privada para el aprovisionamiento de usuarios de Hadoop y por parte de diferentes usuarios.

Los siguientes comandos se utilizan para generar pares clave-valor usando SSH. Copie la clave pública en el formato id_rsa.pub en el archivo Authorized_keys y otorgue al propietario permisos de lectura y escritura en el archivo Authorized_keys.

$ ssh-keygen -t rsa

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 0600 ~ /.ssh/authorized_keys

Instalación de Java

Java es el principal requisito previo para Hadoop. Primero, debes verificar la presencia de Java en tu sistema usando el comando "java-version". La sintaxis del comando de la versión Java es la siguiente.

$ java -version

Si todo va bien, obtendrá el siguiente resultado.

versión de Java "1.7.0_71"

Entorno de ejecución Java(TM) SE (compilación 1.7.0_71-b13)

Lado del cliente Java HotSpot(TM) VM (compilación 25.0-b02, modo mixto)

Si Java aún no está instalado en su sistema, siga los pasos a continuación para instalar Java.

Paso 1

Descarga Java (JDK<última versión> - X64.tar.gz)

Luego JDK-7u71-linux-x64.tar. será descargado al sistema.

Paso 2

Normalmente, los archivos Java están en la carpeta de descargas. Utilice el siguiente comando para descomprimir el archivo jdk-7u71-linux-x64.gz.

$ Descargas cd/

$ ls

jdk-7u71-linux-x64.gz

$ tar zxf jdk-7u71- linux-x64.gz

$ ls

jdk1.7.0_71 jdk-7u71- linux-x64.gz

Paso 3

Para que Java esté disponible para todos los usuarios, muévalo al directorio "/usr/local/". Abra el directorio raíz y escriba los siguientes comandos.

$ su

contraseña:

# mv jdk1.7.0_71 /usr/local/

# salir

Paso 4

Para configurar las variables PATH y JAVA_HOME, agregue los siguientes comandos en el archivo ~/.bashrc.

export JAVA_HOME=/usr/local/jdk1.7.0_71

export PATH=PATH:$JAVA_HOME/bin

Ahora verifique el comando java -version de el terminal es como se mencionó anteriormente.

Descargar Hadoop

Descarga el software de Apache Foundation y descomprime Hadoop 2.4.1 usando el siguiente comando:

$ su

contraseña:

# cd /usr/local

# wget mon/hadoop- 2.4.1/

hadoop-2.4.1.tar.gz

# tar xzf hadoop-2.4.1.tar.gz

# mv hadoop-2.4.1/* to hadoop/

# salir

Modo de ejecución de Hadoop

Después de descargar Hadoop, puede ejecutar el clúster de Hadoop en uno de los siguientes tres modos admitidos:

Modo local/independiente: Después de descargar Hadoop en el sistema, el caso predeterminado, se configurará para ejecutar un programa Java en modo independiente.

Modo de simulación distribuida: Se trata de una simulación distribuida realizada en una única máquina. Hadoop protege cada proceso, como hdfs, Yarn, MapReduce, etc., y lo ejecuta como un programa Java independiente. Este modo es muy útil para el desarrollo.

Modo totalmente distribuido: Este modo es un clúster totalmente distribuido que consta de al menos dos o más ordenadores. Usaremos este patrón en los siguientes capítulos.

Instalación de Hadoop en modo independiente

Aquí analizamos la instalación de Hadoop 2.4.1 en modo independiente.

Solo una JVM ejecuta todos los procesos del demonio. El modo independiente es adecuado para ejecutar programas MapReduce durante el desarrollo porque es fácil de probar y depurar.

Configurar Hadoop

Agregue los siguientes comandos al archivo ~/.bashrc para configurar las variables de entorno de Hadoop.

exportar HADOOP_HOME=/usr/local/hadoop

Antes de continuar, debemos asegurarnos de que Hadoop se esté ejecutando correctamente. Emita el siguiente comando:

$ versión de hadoop

Si todo está configurado correctamente, debería ver los siguientes resultados:

Hadoop 2.4.1

Subversion mon -r 1529768

Compilado por hortonmu el 2013-10-07T06:28Z

Compilado con el protocolo 2.5.0

De la fuente con suma de comprobación 79e53ce7994d1628b240f09af91e1af4

Esto significa que Hadoop en modo independiente puede ejecutarse normalmente en modo independiente. De forma predeterminada, Hadoop está configurado para ejecutarse en una sola máquina en modo no distribuido.

上篇: ¿Cuáles son los beneficios de aprender a programar en Scratch para los niños? 下篇: ¿La camiseta de qué equipo en PES se parece a la camiseta del Liverpool?

Cómo configurar el entorno Hadoop

Artículos populares