¿Rhadoop está instalado encima de hadoop?
III. Instalación
Debido a restricciones de red, solo puede descargar los archivos fuente localmente y luego instalarlos a través del comando shell R CMD INSTALL 'nombre_paquete'.
a) Primero instale rhdfs. Este paquete depende del paquete rJava, por lo que también debe descargar el código fuente de rJava e instalarlo.
R CMD INSTALL 'rJava_0.9-3.tar.gz'
R CMD INSTALL 'rhdfs_1.0.1.tar.gz'
Al instalar rJava Puede ocurrir un error: "comprobando si los programas JNI se pueden compilar..."
configure: error: Los programas JNI simples no se pueden compilar. Consulte config.log para obtener más detalles. ", esto puede deberse a la versión jdk, se recomienda instalar jdk1.6.
b) Instale rmr. Este paquete depende de los paquetes RJSONIO, itertools y digest, y de RJSONIO, itertools y paquetes de resumen También depende de los iteradores 0.5.tar.gz'
R CMD INSTALL 'itertools_0.1-1.tar.gz'
R CMD INSTALL 'RJSONIO_0.96-0. .tar .gz'
R CMD INSTALL 'digest_0.5.1.tar.gz'
R CMD INSTALL 'rmr_1.1.tar.gz'
c) Instale rhbase (consulte /RevolutionAnalytics/RHadoop/wiki/rhbase). Antes de instalar rhbase, debe instalar la biblioteca Thrift. Se recomienda instalar Thrift versión 0.6.1, que se puede descargar desde http://thrift. apache.org/ para conocer los pasos de instalación específicos:
i. Ingrese el comando de shell sudo yum install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel lib-devel python-devel ruby-. devel para instalar algunas herramientas o bibliotecas relacionadas con Thrift. Debido a problemas de conexión de red, no fue posible instalarlas completamente al intentarlo. Personalmente, no creo que sea necesaria una instalación completa, solo asegúrese de tener g++ 3.3.5 o superior y aumentar. 1.33.1 o superior están disponibles
ii.
tar -zvxf thrift-0.6.1.tar.gz
cd thrift-0.6.1 p>
./configure --with -boost=/usr/include/boost JAVAC=/usr/jdk1.6/bin/javac
make
make install
donde -with-boost El valor de JAVAC se modificará según la situación del servidor (no estoy seguro de si se requiere la configuración de javac)
iii.
Ingrese /etc/profile
exportar PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/lib/pkgconfig/ (y use el comando /etc/profile para que la variable de entorno sea efectiva) . Luego, ingrese el comando de shell pkg-config --cflags thrift para verificar que la ruta pkg-config esté configurada correctamente y devolver el resultado de -I/usr/local/include/thrift.
iv. Copiar el archivo de la biblioteca.
cp /usr/local/lib/libthrift.so.0 /usr/lib
v. Instalar rhbase.
R CMD INSTALL 'rhbase_1.0.1 .tar.gz'
iv. Verificación y prueba
Ingrese biblioteca (rmr), biblioteca (rhdfs), biblioteca (rhbase) en la línea de comando de R. La carga exitosa significa una instalación exitosa. .
Caso de prueba: use mapreduce para lograr la misma función que la función sapply.
Código R binario:
grupos = rbinom(32, n = 50, prob = 0.4)
tapply(grupos, grupos, longitud)
Código R usando mapreduce:
groups = to.dfs(groups) (aún usando la agrupación anterior para asegurar los mismos datos)
from.dfs(mapreduce(input) = grupos, mapa = función(k,v) keyval(v, NULL), reducir = función(k,vv) keyval(k, longitud(vv)))))