Cómo usar Spark en ipython o python
Instrucciones:
spark 1.6.0
scala 2.10.5
La ruta de instalación de Spark es /usr / local/spark; la variable de entorno SPARK_HOME se ha configurado en .bashrc.
Método 1
/usr/local/Spark/bin/pyspark se abre con Python de forma predeterminada, no con ipython.
cp pyspark ipyspark
vi ipyspark
# Agregar
IPYTHON=1
# Iniciar
ipyspark
Método 2:
Abra ipyspark creando una configuración de ipython para Spark.
# Crear un perfil de ipython para spark
Perfil de ipython crear spark
# Crear un archivo de configuración de inicio
cd ~/. /ipython/profile_spark/startup
vi 00-pyspark-setup.py
Agregue el siguiente contenido en 00-pyspark-setup. py:
importar sistema operativo
importar sistema
# Configurar entorno
si 'SPARK_HOME' no está en os.environ:
os.environ['SPARK_HOME'] = '/srv/spark'
# Crear una variable para nuestra ruta raíz
SPARK_HOME = os.environ['SPARK_HOME ' ] = '/srv/spark'
# Crear un RDD de 0 a 1.000.000
nums = sc.parallelize(xrange(1000000))
# Calcular números primos en RDD
imprimir "Resultado:", nums.filter(isprime).count()
Método 3
Voluntad El programa anterior se coloca en el archivo test.py y ejecuta el comando python test.py. Se encontró un error. Porque la ruta de pyspark no se agrega a la variable de entorno PYTHONPATH.
Agregue el siguiente contenido a ~/.bashrc o /etc/profile:
# python puede llamar a pyspark directamente
exportar PYTHONPATH=$SPARK_HOME/python: $SPARK_HOME/ python/pyspark:$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
Ejecute el siguiente comando:
# Haga que la configuración surta efecto
fuente ~/.bashrc
# Programa de prueba
python test.py
Ahora puedes ejecutarlo.