Red de conocimiento informático - Conocimiento informático - Cómo operar el proceso de instancia de SparkContext a través de Spark Shell

Cómo operar el proceso de instancia de SparkContext a través de Spark Shell

Los scripts interactivos de Spark son una manera fácil de aprender la API y una poderosa herramienta para analizar las interacciones de conjuntos de datos.

El espacio de clúster distribuido abstracto de Spark se llama Conjunto de datos distribuidos resilientes (RDD).

Entre ellos, hay dos formas de crear RDD:

(1), entrada del sistema de archivos de Hadoop (como HDFS);

(2) , con Otros RDD existentes se convierten en nuevos RDD;

A continuación se realiza una prueba simple:

1. Ingrese SPARK_HOME/bin y ejecute el comando:

[java] ¿ver copia simple imprimir?

$./spark-shell

2. Cree un nuevo RDD usando un archivo de texto en HDFS:

[java] ] ver impresión de copia simple?

scala> var textFile = sc.textFile("hdfs://localhost:50040/input/WordCount/text1");

[java] ver ¿imprimir copia simple?

textFile: org.apache.spark.rdd.RDD[String] = MappedRDD[1] en textFile en :12

3. tipos de RDD Los tipos de operaciones son Acción (devuelve valores) y Transformaciones (devuelve un nuevo RDD)

(1) Acción equivale a ejecutar una acción y devolverá un resultado: