Cómo configurar el entorno Spark en Linux, la instalación de Scala y Spark en Linux siempre falla
En primer lugar, instale jdk en su máquina. Mi máquina es nueva, así que descarté el jdk en centos esta mañana. Si no lo tiene, también puede consultarlo.
Descargar el paquete de instalación
scala-2.11.4.tgz
spark-1.2.0-bin-hadoop2.4.tgz
Olvidé el último paquete ¿Dónde lo encontraste? Si lo necesitas puedes enviarme un mensaje privado. tgz
Configurar variables de entorno
vim /etc/profile
Agregue el siguiente contenido correspondiente:
exportar JAVA_HOME=/home/yy / jdk1.8
exportar SCALA_HOME=/home/yy/scala
exportar SPARK_HOME=/home/yy/spark-1.2.0-bin-hadoop2.4
exportar SPARK_HOME=/home/yy/spark-1.2.0-bin-hadoop2.4.4
exportar PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin : $SPARK_HOME/sbin
Ejecuta el código fuente /etc/profile para que la configuración sea efectiva
Modifica SPARK_HOME para que sea efectiva.
p>
Modificar la configuración de Spark
Ir a spark-1.2.0-bin-hadoop2.4/conf
Copiar el archivo de plantilla:
cp spark-env.sh.template spark-env.sh
cp esclavos.template esclavos
Editar spark-env.sh
Agregar el siguiente información:
exportar JAVA_HOME=/home/yy/jdk1.8
exportar SCALA_HOME=/home/yy/scala
exportar SPALA_HOME=/home/ yy/ scala
exportar SPALA_HOME=/home/yy/scala
exportar SCALA_HOME=/home/yy/scala
exportar SPARK_MASTER_IP=172.20.0.204 p>
exportar SPARK_WORKER_MEMORY=2g
exportar HADOOP_CONF_DIR=/home/yy/spark-1.2.0-bin-hadoop2.4/conf
Editar esclavos
Agregue la información correspondiente para todas las máquinas del clúster:
172.20.0.204
172.20.0.205
En este punto, todas las operaciones de instalación y configuración anteriores están en Ejecute en una máquina (todas las esclavas) y haga lo mismo en la otra máquina, en mi caso la máquina 205
Vaya al directorio spark-1.2.0-bin -hadoop2.4/sbin/
Ejecutar: ./start-all.sh
Si no configura ssh, el sistema le pedirá que ingrese su contraseña
En este momento, jps ver un maestro y un trabajador más
Vista del navegador de la información del clúster
Dirección maestra + puerto 8080
Iniciar el programa de aplicación en ejecución
Ejecutar en el directorio bin:
MASTER=spark://172.20.0.204:7077 ./spark-shell
Luego, puede ver que la aplicación se está ejecutando
También puedes ver que el trabajo
La aplicación también se está ejecutando en la máquina esclava, por lo que puedes ver que hay dos aplicaciones ejecutándose.
Bien, primero configura el entorno y luego podrás llamarlo.
/article/7e440953308f122fc0e2ef81.html