Red de conocimiento informático - Aprendizaje de programación - ¿Existe una versión de hadoop para Windows?

¿Existe una versión de hadoop para Windows?

1 Instale y configure Cygwin

Es una forma sencilla y conveniente de simular un entorno Linux en Windows instalando Cygwin y luego instalando Hadoop. El proceso de instalación del entorno Linux simulado preparado para Hadoop es el siguiente:

1.1 Descargar el archivo de instalación

Mi sistema aquí es Windows 7, por lo que el archivo descargado es setup-x86. exe

p>

1.2 Instalación de Cygwin

El archivo que acaba de descargar es una herramienta de administración y descarga de paquetes de software que simula sistemas Linux. Debe utilizar esta herramienta para instalar o actualizar el software. un entorno Linux simulado. Para completar, ¡ejecutemos esto primero! Las herramientas son las siguientes:

Haga doble clic en el archivo setup-x86.exe con el botón izquierdo para ejecutar el asistente de instalación:

instalación de cygwin

Haga clic Haga clic en el botón Siguiente para ingresar a la página de instalación de inicio del programa, hay tres opciones, primero elija instalación de red:

Instalación de red: descargue e instale el paquete de software a través de la red

Descargar pero no instalar: descargue el paquete de software a través de la red

Instalación local: use paquetes de software locales para la instalación

instalación de cygwin

Haga clic en "Siguiente" para ingresar a la página del asistente , donde selecciona el directorio raíz y el usuario del sistema Linux simulado. Solo hay un directorio raíz en el sistema de archivos de Linux, así que seleccione el directorio raíz en Linux y seleccione el valor predeterminado: c:\cygwin. Los usuarios deben seleccionar la primera opción: Todos los usuarios válidos del sistema.

Instalación de cygwin

Haga clic en Siguiente y seleccione el directorio del paquete de software local. La herramienta recordará y colocará automáticamente todos los paquetes de software descargados en el directorio especificado aquí. Elijo C:\Users\Administrator\Desktop\1. Si el directorio seleccionado no existe, se le preguntará si desea crear el directorio. Seleccione Sí y estará bien.

Instalación de cygwin

Haga clic en Siguiente para seleccionar su conexión de red. Utilizo un servidor proxy para acceder a Internet, así que seleccioné la segunda opción: Usar la configuración de proxy del navegador IE. Después de la prueba, cuando selecciono el tercer elemento e ingreso la dirección y el puerto del servidor proxy, no puedo acceder a la red normalmente por razones desconocidas.

Instalación de Cygwin

Haga clic en Siguiente y espere a que se descargue la lista de sitios espejo. Una vez completada la descarga, aparecerá el sitio de selección para descargar el paquete de software.

Instalación de Cygwin

Elija la dirección de descarga adecuada según su propia situación. Elegí el sitio web nacional 163. Haga clic en Siguiente y la herramienta enumerará automáticamente la información del paquete de software descargado. Una vez completada la descarga, ingrese a la página de selección del paquete de instalación, como se muestra a continuación:

instalación de cygwin

Este paso es más importante. Debe asegurarse de que los siguientes paquetes estén instalados:

instalación de cygwin

Nota: esta lista de paquetes incluye de adelante hacia atrás: Categoría, Versión de instalación actual, Versión más reciente, ¿Instalación ejecutable? , instalar archivos de código fuente? Tamaño, nombre del paquete y descripción.

Paquete de software básico: Base y todos los paquetes de software debajo de él. Método de operación: haga clic en Predeterminado detrás de Base para instalar.

Paquetes de software relacionados con SSH: OpenSSL y OpenSSH en Net, utilizados para el acceso SSH requerido por Hadoop. Método de operación: haga clic en + para expandir el nodo Net. Haga clic en la columna Conservar frente al número de versión más reciente de cada paquete de software y seleccione el número de versión que se instalará.

Puedes elegir si deseas instalar otros paquetes de software según tus propias necesidades. También he elegido herramientas comunes como Emacs, VIM, Perl, Python, Ruby, Science y subversion.

Después de seleccionar el paquete de software, haga clic en "Siguiente" para ingresar a la descarga e instalación automática, como se muestra en la siguiente figura:

instalación de cygwin

Haga clic en "Siguiente" " Ingrese a la página final del asistente, marque Crear acceso directo en el escritorio y haga clic en "Finalizar", como se muestra en la siguiente figura:

instalación de cygwin

En este punto, ha completado el instalación del entorno Linux simulado, haga doble clic en el ícono del escritorio para abrir esta ventana de terminal de Linux simulada e ingrese varios comandos de Linux de uso común para experimentar este sistema Linux simulado. Además de ejecutar comandos de Linux de uso común, también puede ejecutar comandos de Windows. tales como: net start nombre_servicio, etc. Una vez completada la experiencia, continúe con el siguiente trabajo de configuración.

1.3 Configurar el servicio SSH de Cygwin

Después de instalar Cygwin, debe configurar el servicio SSH para cumplir con el inicio de sesión SSH sin contraseña propuesto por Hadoop. El proceso específico es el siguiente:

Abra la terminal Linux simulada e ingrese al entorno Linux

Ejecute el comando: ssh-host-config, como se muestra en la siguiente figura:

Ejecute el comando: ssh-host-config, como se muestra en la siguiente figura Mostrar. Configuración, como se muestra a continuación:

Instalación de Hadoop

Cuando se le pregunte por primera vez: "¿Se debe utilizar la separación de permisos? (Sí/No)", ingrese "No" para ingresar.

Cuando se le pregunte por segunda vez: "¿Desea instalar sshd como servicio?", ingrese sí.

La tercera pregunta: "Ingrese el valor de CYGWIN como demonio: []" y presione Enter directamente.

Cuarto consejo: ¿Quieres utilizar un nombre diferente? (Sí/No)", ingrese "No" y luego regrese.

El quinto mensaje: "Ingrese la contraseña del usuario 'cyg_server':", ingrese la contraseña y presione Entrar.

El último mensaje completa la configuración

1.4 Inicie el servicio SSH

Ejecute el comando net start sshd o cygrunsrv -S sshd en la terminal de Linux o en la línea de comandos de Windows para inicie el servicio SSH.

p>

Pruebe el inicio de sesión ssh en esta máquina:

Ejecute el comando en la terminal: ssh localhost

Solicite la contraseña: ingrese la contraseña. contraseña y regrese a la siguiente imagen:

Instalación de Hadoop

1.5 Configurar inicio de sesión sin contraseña SSH

Ejecute el comando en la terminal: ssh-keygen - - t dsa -P " -f " t dsa -P " -f ~ /.ssh/id_dsa genera la clave secreta.

Ejecute el comando: cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys para generar el archivo de autenticación.

Ejecute el comando: ssh localhost para probar si puede iniciar sesión sin ingresar una contraseña.

Instalación de Hadoop

1.6 Acumulación de uso de Cygwin

1.6.1 Acceder al disco de Windows en cygwin

cd /cygdrive/c

p>

1.6.2 Integrando comandos cygwin en Windows

Supuestos. cygwin está instalado en d:/develop/cygwin. Agregue d:/develop/cygwin/bin a la variable del sistema PATH (es mejor colocarlo delante de

Windows. En este caso, algunas de los mismos comandos se ejecutarán primero, en lugar de comandos de Windows como buscar).

Después de agregarlo, puede ejecutar tar czvf xxx.tgz directamente en cmd.exe.

Básicamente todos los comandos están disponibles, incluidos ls, more, less, find, grep, etc.

1.6.3 Usar copia de seguridad TGZ

Agregar el BIN de cygwin a PATH

Crear un archivo BAT:

@echo off

d:

cd d:/website/8thmanage

tar czvf 8thmanage.tgz 8thmanage

1.6.4 Usando el script SHELL Windows4 Windows usa SHELL script

Agregue el BIN de cygwin en PATH

Cree el script t.sh en el directorio /var/ en $CYGWIN. Tenga en cuenta que la ruta en t.sh es relativa a la ruta de $. CYGWIN. En CYGWIN, si necesita acceder a la unidad C, utilice /cygdrive/c/

Ejecutar en Windows:

d:/cygwin/bin/bash d:/cygwin/ var /t.sh

(Se puede ejecutar regularmente)

1.6.5 Sincronizar usuarios del sistema Windows

mkpasswd -l > /etc/passwd

mkgroup -l > /etc/group

Si hay un dominio, debe agregar -d domainname

1.6.6 Instalar servicios del sistema

cygrunsrv

1.6.7 Usando rsync en cygwing

Instale el componente rsync

Ingrese cygwin y configure el servidor

vi / etc/rsyncd.conf

p>

...screts file=/ etc/tom.ipaddr.pas

Para obtener el archivo de configuración, consulte otro artículo sobre rsync que escribí. : el permiso del archivo de contraseña debe ser 0400

chmod 0400 /etc/tom.ipaddr.pas

Iniciar servidor

rsync -daemon

Sincronización del cliente

Ejecute la sincronización rsync en cygwin en el cliente. Para comandos específicos, consulte otro artículo sobre rsync.

SSHD en 1.6.8 cygwin

Requiere cygrunsrc y openssh

Ejecute ssh-host-config -y

Sigue presionando Enter, hasta que aparezca CYGWIN=, luego escriba tty ntsec y presione Enter,

(O agregue una variable de entorno del sistema CUGWIN=nesec tty)

El servicio SSHD se ha instalado en el servicio de Windows , puede iniciarlo y cerrarlo directamente en el servicio.

(cygrunsrc -S sshd o net start sshd)

1.6.9 Pantalla china

vi ~/.bashrc

# Uso Los comandos ls y dir muestran chino y colores

alias ls='ls -show-control-chars -color'

alias dir='dir -N -color'

# Establecer el entorno chino para que el mensaje muestre chino

exportar LANG="zh_CN.GBK"

# La salida es codificación china

exportar OUTPUT_CHARSET =" GBK"

~/.inputrc está

establecer el caso de ignorar finalización en

establecer metamarca en

set El script output-meta.bat es:

@echo off

set MAKE_MODE=UNIX

2 Instalar y configurar Hadoop-1.2.1

2.1 Instalar JDK

Dirección de descarga de JDK:

Dirección de descarga de JDK:/technetwork/java/javase/downloads/index.html

Atención especial debe pagarse aquí Lo interesante es que en Linux, las rutas o comandos distinguen estrictamente entre mayúsculas y minúsculas. Para los directorios con espacios, se deben agregar comillas dobles (""). Por lo tanto, se recomienda colocar el JDK directamente en el directorio raíz del disco en lugar del directorio Archivos de programa de la instalación predeterminada.

El autor no descargó el último JDK aquí. Saqué el jdk1.6.0_14 de Windows de 32 bits que había estado inactivo durante mucho tiempo de la máquina de trabajo y lancé directamente el jdk1.6.0_14. el directorio raíz de la unidad C y luego configure las variables de entorno de la siguiente manera:

JAVA_HOME=c:\jdk1.6.0_14

PATH=%JAVA_HOME%\bin;.. Nota: agregue %JAVA_HOME%\bin;

Abra la línea de comando de Windows, escriba java -version, se ejecutará normalmente y luego estará bien.

He intentado no configurar las variables de entorno Java en Windows y Hadoop puede ejecutarse normalmente, porque aún conoceremos JAVA_HOME explícitamente en el script de ejecución de Hadoop.

Instalación de Hadoop

2.2 Descargue la última versión estable de Hadoop

Dirección de descarga: http://hadoop.apache.org/releases.html#Download

Descargué la última versión estable: hadoop-1.2.1-bin.tar.gz

2.3 Planificación del directorio de Hadoop

Hay varias Varias herramientas. En el ecosistema de Hadoop, hay una variedad de herramientas que puede usar en algún momento, y parece necesario dedicar algo de tiempo a planificar el M/R del desarrollo de Hadoop, el M/R de implementación y la actualización del directorio de instalación de Hadoop.

El Windows en el que instalé Hadoop era una máquina virtual y solo creé una partición, por lo que la carpeta hadoop estaba en la raíz de la unidad C.

La siguiente es mi estructura de directorios:

Instalación de Hadoop

Hadoop se encuentra en el directorio raíz de la unidad C, bajo el cual se encuentran el código (ubicación de almacenamiento del código), la implementación (instalación de hadoop y del ecosistema). almacenamiento de archivos) ubicación) y sysdata (donde se almacenan los datos dfs, los datos de origen de SecondNameNode y los archivos temporales de tiempo de ejecución).

Descomprima el hadoop-1.2.1-bin.tar.gz descargado en el directorio c:\hadoop\deploy\hadoop-1.2.1.