Cómo importar PySpark a Python
Cómo importar PySpark a Python
Pregunta 1. ImportError: No hay ningún módulo llamado pyspark
Fenómeno:
PySpark se ha instalado y configurado, puede abrir la interfaz interactiva de PySpark;
pysaprk no se puede encontrar en Python.
Solución:
a. Utilice findspark
Utilice pip para instalar findspark: pip install findspark;
Introduzca findspark en el archivo py. : >>> import findspark;
>>> findspark.init();
Importa la biblioteca pyspark que deseas usar: >>> desde pyspark import *.
Ventajas: Simple y rápido
Desventajas: Trata los síntomas pero no la causa raíz Cada vez que escribes una nueva aplicación, debes cargar findspark
exportar SPARK_HOME=su directorio PySpark
exportar PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/. libexec/python/build :$PYTHONPATH
Ventajas: de una vez por todas
Desventajas: los principiantes pueden no saber qué son las variables de entorno
Pregunta 2. ImportError: No hay ningún módulo llamado 'py4j '
Fenómeno:
PySpark ha sido instalado y configurado y puede abrir la interfaz interactiva de PySpark;
Este problema ocurre después de configurar en el método b anterior.
Solución:
Agregue py4j a la variable de entorno de Python export PYTHONPATH= $SPARK_HOME/python/lib/py4j-x.xx-src.zip:$PYTHONPATH12 p>
Nota: El py4j-x.xx-src.zip aquí está determinado por la versión de py4j en su computadora.
El entorno donde la prueba fue exitosa: Python: 3.7, 2.7
PySpark: 1.6.2 - paquete precompilado
OS: Mac OSX 10.11.1