Red de conocimiento informático - Material del sitio web - Cómo importar PySpark a Python

Cómo importar PySpark a Python

Cómo importar PySpark a Python

Pregunta 1. ImportError: No hay ningún módulo llamado pyspark

Fenómeno:

PySpark se ha instalado y configurado, puede abrir la interfaz interactiva de PySpark;

pysaprk no se puede encontrar en Python.

Solución:

a. Utilice findspark

Utilice pip para instalar findspark: pip install findspark;

Introduzca findspark en el archivo py. : >>> import findspark;

>>> findspark.init();

Importa la biblioteca pyspark que deseas usar: >>> desde pyspark import *.

Ventajas: Simple y rápido

Desventajas: Trata los síntomas pero no la causa raíz Cada vez que escribes una nueva aplicación, debes cargar findspark

b Incluir el paquete precompilado. Agregar el archivo de la biblioteca de Python a la variable de entorno de Python

exportar SPARK_HOME=su directorio PySpark

exportar PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/. libexec/python/build :$PYTHONPATH

Ventajas: de una vez por todas

Desventajas: los principiantes pueden no saber qué son las variables de entorno

Pregunta 2. ImportError: No hay ningún módulo llamado 'py4j '

Fenómeno:

PySpark ha sido instalado y configurado y puede abrir la interfaz interactiva de PySpark;

Este problema ocurre después de configurar en el método b anterior.

Solución:

Agregue py4j a la variable de entorno de Python export PYTHONPATH= $SPARK_HOME/python/lib/py4j-x.xx-src.zip:$PYTHONPATH12

Nota: El py4j-x.xx-src.zip aquí está determinado por la versión de py4j en su computadora.

El entorno donde la prueba fue exitosa: Python: 3.7, 2.7

PySpark: 1.6.2 - paquete precompilado

OS: Mac OSX 10.11.1