¿Existe una versión de hadoop para Windows?
Es una forma sencilla y conveniente de simular un entorno Linux en Windows instalando Cygwin y luego instalando Hadoop. El proceso de instalación del entorno Linux simulado preparado para Hadoop es el siguiente:
1.1 Descargar el archivo de instalación
Mi sistema aquí es Windows 7, por lo que el archivo descargado es setup-x86. exe
p>1.2 Instalación de Cygwin
El archivo que acaba de descargar es una herramienta de administración y descarga de paquetes de software que simula sistemas Linux. Debe utilizar esta herramienta para instalar o actualizar el software. un entorno Linux simulado. Para completar, ¡ejecutemos esto primero! Las herramientas son las siguientes:
Haga doble clic en el archivo setup-x86.exe con el botón izquierdo para ejecutar el asistente de instalación:
instalación de cygwin
Haga clic Haga clic en el botón Siguiente para ingresar a la página de instalación de inicio del programa, hay tres opciones, primero elija instalación de red:
Instalación de red: descargue e instale el paquete de software a través de la red
Descargar pero no instalar: descargue el paquete de software a través de la red
Instalación local: use paquetes de software locales para la instalación
instalación de cygwin
Haga clic en "Siguiente" para ingresar a la página del asistente , donde selecciona el directorio raíz y el usuario del sistema Linux simulado. Solo hay un directorio raíz en el sistema de archivos de Linux, así que seleccione el directorio raíz en Linux y seleccione el valor predeterminado: c:\cygwin. Los usuarios deben seleccionar la primera opción: Todos los usuarios válidos del sistema.
Instalación de cygwin
Haga clic en Siguiente y seleccione el directorio del paquete de software local. La herramienta recordará y colocará automáticamente todos los paquetes de software descargados en el directorio especificado aquí. Elijo C:\Users\Administrator\Desktop\1. Si el directorio seleccionado no existe, se le preguntará si desea crear el directorio. Seleccione Sí y estará bien.
Instalación de cygwin
Haga clic en Siguiente para seleccionar su conexión de red. Utilizo un servidor proxy para acceder a Internet, así que seleccioné la segunda opción: Usar la configuración de proxy del navegador IE. Después de la prueba, cuando selecciono el tercer elemento e ingreso la dirección y el puerto del servidor proxy, no puedo acceder a la red normalmente por razones desconocidas.
Instalación de Cygwin
Haga clic en Siguiente y espere a que se descargue la lista de sitios espejo. Una vez completada la descarga, aparecerá el sitio de selección para descargar el paquete de software.
Instalación de Cygwin
Elija la dirección de descarga adecuada según su propia situación. Elegí el sitio web nacional 163. Haga clic en Siguiente y la herramienta enumerará automáticamente la información del paquete de software descargado. Una vez completada la descarga, ingrese a la página de selección del paquete de instalación, como se muestra a continuación:
instalación de cygwin
Este paso es más importante. Debe asegurarse de que los siguientes paquetes estén instalados:
instalación de cygwin
Nota: esta lista de paquetes incluye de adelante hacia atrás: Categoría, Versión de instalación actual, Versión más reciente, ¿Instalación ejecutable? , instalar archivos de código fuente? Tamaño, nombre del paquete y descripción.
Paquete de software básico: Base y todos los paquetes de software debajo de él. Método de operación: haga clic en Predeterminado detrás de Base para instalar.
Paquetes de software relacionados con SSH: OpenSSL y OpenSSH en Net, utilizados para el acceso SSH requerido por Hadoop. Método de operación: haga clic en + para expandir el nodo Net. Haga clic en la columna Conservar frente al número de versión más reciente de cada paquete de software y seleccione el número de versión que se instalará.
Puedes elegir si deseas instalar otros paquetes de software según tus propias necesidades. También he elegido herramientas comunes como Emacs, VIM, Perl, Python, Ruby, Science y subversion.
Después de seleccionar el paquete de software, haga clic en "Siguiente" para ingresar a la descarga e instalación automática, como se muestra en la siguiente figura:
instalación de cygwin
Haga clic en "Siguiente" " Ingrese a la página final del asistente, marque Crear acceso directo en el escritorio y haga clic en "Finalizar", como se muestra en la siguiente figura:
instalación de cygwin
En este punto, ha completado el instalación del entorno Linux simulado, haga doble clic en el ícono del escritorio para abrir esta ventana de terminal de Linux simulada e ingrese varios comandos de Linux de uso común para experimentar este sistema Linux simulado. Además de ejecutar comandos de Linux de uso común, también puede ejecutar comandos de Windows. tales como: net start nombre_servicio, etc. Una vez completada la experiencia, continúe con el siguiente trabajo de configuración.
1.3 Configurar el servicio SSH de Cygwin
Después de instalar Cygwin, debe configurar el servicio SSH para cumplir con el inicio de sesión SSH sin contraseña propuesto por Hadoop. El proceso específico es el siguiente: p>
Abra la terminal Linux simulada e ingrese al entorno Linux
Ejecute el comando: ssh-host-config, como se muestra en la siguiente figura:
Ejecute el comando: ssh-host-config, como se muestra en la siguiente figura Mostrar. Configuración, como se muestra a continuación:
Instalación de Hadoop
Cuando se le pregunte por primera vez: "¿Se debe utilizar la separación de permisos? (Sí/No)", ingrese "No" para ingresar.
Cuando se le pregunte por segunda vez: "¿Desea instalar sshd como servicio?", ingrese sí.
La tercera pregunta: "Ingrese el valor de CYGWIN como demonio: []" y presione Enter directamente.
Cuarto consejo: ¿Quieres utilizar un nombre diferente? (Sí/No)", ingrese "No" y luego regrese.
El quinto mensaje: "Ingrese la contraseña del usuario 'cyg_server':", ingrese la contraseña y presione Entrar.
El último mensaje completa la configuración
1.4 Inicie el servicio SSH
Ejecute el comando net start sshd o cygrunsrv -S sshd en la terminal de Linux o en la línea de comandos de Windows para inicie el servicio SSH.
p>Pruebe el inicio de sesión ssh en esta máquina:
Ejecute el comando en la terminal: ssh localhost
Solicite la contraseña: ingrese la contraseña. contraseña y regrese a la siguiente imagen:
Instalación de Hadoop
1.5 Configurar inicio de sesión sin contraseña SSH
Ejecute el comando en la terminal: ssh-keygen - - t dsa -P " -f " t dsa -P " -f ~ /.ssh/id_dsa genera la clave secreta.
Ejecute el comando: cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys para generar el archivo de autenticación.
Ejecute el comando: ssh localhost para probar si puede iniciar sesión sin ingresar una contraseña.
Instalación de Hadoop
1.6 Acumulación de uso de Cygwin
1.6.1 Acceder al disco de Windows en cygwin
cd /cygdrive/c
p>1.6.2 Integrando comandos cygwin en Windows
Supuestos. cygwin está instalado en d:/develop/cygwin. Agregue d:/develop/cygwin/bin a la variable del sistema PATH (es mejor colocarlo delante de
Windows. En este caso, algunas de los mismos comandos se ejecutarán primero, en lugar de comandos de Windows como buscar).
Después de agregarlo, puede ejecutar tar czvf xxx.tgz directamente en cmd.exe.
Básicamente todos los comandos están disponibles, incluidos ls, more, less, find, grep, etc.
1.6.3 Usar copia de seguridad TGZ
Agregar el BIN de cygwin a PATH
Crear un archivo BAT:
@echo off
d:
cd d:/website/8thmanage
tar czvf 8thmanage.tgz 8thmanage
1.6.4 Usando el script SHELL Windows4 Windows usa SHELL script
Agregue el BIN de cygwin en PATH
Cree el script t.sh en el directorio /var/ en $CYGWIN. Tenga en cuenta que la ruta en t.sh es relativa a la ruta de $. CYGWIN. En CYGWIN, si necesita acceder a la unidad C, utilice /cygdrive/c/
Ejecutar en Windows:
d:/cygwin/bin/bash d:/cygwin/ var /t.sh
(Se puede ejecutar regularmente)
1.6.5 Sincronizar usuarios del sistema Windows
mkpasswd -l > /etc/passwd
mkgroup -l > /etc/group
Si hay un dominio, debe agregar -d domainname
1.6.6 Instalar servicios del sistema
cygrunsrv
1.6.7 Usando rsync en cygwing
Instale el componente rsync
Ingrese cygwin y configure el servidor
vi / etc/rsyncd.conf
p>...screts file=/ etc/tom.ipaddr.pas
Para obtener el archivo de configuración, consulte otro artículo sobre rsync que escribí. : el permiso del archivo de contraseña debe ser 0400 p>
chmod 0400 /etc/tom.ipaddr.pas
Iniciar servidor
rsync -daemon
Sincronización del cliente
Ejecute la sincronización rsync en cygwin en el cliente. Para comandos específicos, consulte otro artículo sobre rsync.
SSHD en 1.6.8 cygwin
Requiere cygrunsrc y openssh
Ejecute ssh-host-config -y
Sigue presionando Enter, hasta que aparezca CYGWIN=, luego escriba tty ntsec y presione Enter,
(O agregue una variable de entorno del sistema CUGWIN=nesec tty)
El servicio SSHD se ha instalado en el servicio de Windows , puede iniciarlo y cerrarlo directamente en el servicio.
(cygrunsrc -S sshd o net start sshd)
1.6.9 Pantalla china
vi ~/.bashrc
# Uso Los comandos ls y dir muestran chino y colores
alias ls='ls -show-control-chars -color'
alias dir='dir -N -color'
# Establecer el entorno chino para que el mensaje muestre chino
exportar LANG="zh_CN.GBK"
# La salida es codificación china
exportar OUTPUT_CHARSET =" GBK"
~/.inputrc está
establecer el caso de ignorar finalización en
establecer metamarca en
set El script output-meta.bat es:
@echo off
set MAKE_MODE=UNIX
2 Instalar y configurar Hadoop-1.2.1
2.1 Instalar JDK
Dirección de descarga de JDK:
Dirección de descarga de JDK:/technetwork/java/javase/downloads/index.html
Atención especial debe pagarse aquí Lo interesante es que en Linux, las rutas o comandos distinguen estrictamente entre mayúsculas y minúsculas. Para los directorios con espacios, se deben agregar comillas dobles (""). Por lo tanto, se recomienda colocar el JDK directamente en el directorio raíz del disco en lugar del directorio Archivos de programa de la instalación predeterminada.
El autor no descargó el último JDK aquí. Saqué el jdk1.6.0_14 de Windows de 32 bits que había estado inactivo durante mucho tiempo de la máquina de trabajo y lancé directamente el jdk1.6.0_14. el directorio raíz de la unidad C y luego configure las variables de entorno de la siguiente manera:
JAVA_HOME=c:\jdk1.6.0_14
PATH=%JAVA_HOME%\bin;.. Nota: agregue %JAVA_HOME%\bin; p>
Abra la línea de comando de Windows, escriba java -version, se ejecutará normalmente y luego estará bien.
He intentado no configurar las variables de entorno Java en Windows y Hadoop puede ejecutarse normalmente, porque aún conoceremos JAVA_HOME explícitamente en el script de ejecución de Hadoop.
Instalación de Hadoop
2.2 Descargue la última versión estable de Hadoop
Dirección de descarga: http://hadoop.apache.org/releases.html#Download p>
Descargué la última versión estable: hadoop-1.2.1-bin.tar.gz
2.3 Planificación del directorio de Hadoop
Hay varias Varias herramientas. En el ecosistema de Hadoop, hay una variedad de herramientas que puede usar en algún momento, y parece necesario dedicar algo de tiempo a planificar el M/R del desarrollo de Hadoop, el M/R de implementación y la actualización del directorio de instalación de Hadoop.
El Windows en el que instalé Hadoop era una máquina virtual y solo creé una partición, por lo que la carpeta hadoop estaba en la raíz de la unidad C.
La siguiente es mi estructura de directorios:
Instalación de Hadoop
Hadoop se encuentra en el directorio raíz de la unidad C, bajo el cual se encuentran el código (ubicación de almacenamiento del código), la implementación (instalación de hadoop y del ecosistema). almacenamiento de archivos) ubicación) y sysdata (donde se almacenan los datos dfs, los datos de origen de SecondNameNode y los archivos temporales de tiempo de ejecución).
Descomprima el hadoop-1.2.1-bin.tar.gz descargado en el directorio c:\hadoop\deploy\hadoop-1.2.1.