Red de conocimiento informático - Conocimiento del nombre de dominio - Cómo hacer que el programa se ejecute en el clúster Spark

Cómo hacer que el programa se ejecute en el clúster Spark

La premisa de este artículo es que Scala, sbt y spark se han instalado correctamente. Introduzcamos brevemente los pasos para montar el programa para ejecutarlo en el clúster:

1. Construya la estructura de ingeniería del proyecto estándar de sbt: SBT. Estructura de ingeniería del proyecto: ~ El archivo /build.sbt se usa para configurar la información básica del proyecto (nombre del proyecto, nombre de la organización, versión del proyecto, el archivo sbt usado se usa para configurar la información básica del proyecto (nombre del proyecto, nombre de la organización , versión del proyecto, versión de Scala utilizada o configuración. Algunos paquetes de dependencia requeridos por el proyecto configuran qué versión de sbt desea usar para operar el proyecto; agregue los complementos necesarios al proyecto; el archivo project/Build.scala Algunas configuraciones complejas y avanzadas para configurar el proyecto se utilizan en el archivo ~/build.sbt para la instalación y configuración detallada de sbt. Por razones prácticas, consulte la publicación del blog:

2. Escriba el programa en el directorio apropiado. El programa Spark debe crear una instancia de SparkContext SparkContext("master", "projectName", "SPARK_HOME", yourProject. jar")

3. Después de que el comando sbt compile compila el programa correctamente, use el comando sbt package para empaquetar el programa. La ruta de almacenamiento predeterminada del archivo jar empaquetado es: directorio raíz del proyecto/target/scala- xx.xx.xx/your-project-name_xx.xx.xx.xx-xx.jar

4. Agregue los requisitos del jar empaquetado a SPAK_CLASSPATH (hay muchas formas de cambiar las variables de entorno según el alcance). en Linux Este es mi método: conf/spark- en el directorio raíz de SPARK) Agregue SPARK_CLASSPATH:xxxxxxxxxx al archivo env.sh)

5. Configurar variables de entorno

6. Agregue los requisitos del jar empaquetado a SPARK_CLASSPATH. Después de configurar las variables de entorno, puede utilizar el script ./run en el directorio raíz de SPARK para ejecutar el script, por ejemplo: ./run spark.examples.SparkPi spark://masterIP: port Tenga en cuenta que si el programa implica operaciones IO, la ruta predeterminada es SPARK_HOME; en cuanto a cómo modificar esta ruta, queda por estudiar

Reimpreso solo como referencia

Reimpreso para. sólo referencia.