Operadores RDD en Spark: operadores de transformación
El operador de conversión es una función de interfaz que se utiliza para operar en RDD y convertir uno o más RDD en nuevos RDD.
Cuando se usa Spark para calcular datos, después de usar el operador de creación para generar RDD, la parte más crítica del diseño del algoritmo de procesamiento de datos y la escritura del programa es usar el operador de transformación para transformar gradualmente el RDD generado a partir del original. datos y finalmente obtener el resultado deseado. En el diseño de algoritmos y la programación del procesamiento de datos, la parte más crítica es utilizar operadores de transformación para transformar gradualmente el RDD generado a partir de los datos originales y finalmente obtener los resultados de cálculo requeridos.
Los operadores de transformación pueden entenderse como dos categorías: 1. Operadores que convierten RDD de tipo valor; 2. Operadores de conversión RDD de tipo clave/valor. En cada transformación, solo hay un RDD para transformar y hay dos RDD para transformar.
El RDD actual se reparticionará para generar un nuevo RDD con el número de particiones especificado por el parámetro numPartitions. Si el parámetro aleatorio es verdadero, se realiza la reproducción aleatoria durante el proceso de conversión; de lo contrario, no se realiza la reproducción aleatoria.
En Linux, existen muchos comandos de shell para procesar datos, y podemos usar algunos comandos de shell para generar nuevos RDD en Spark mediante la transformación de canalizaciones.
Ordene los elementos en el RDD original de acuerdo con las reglas especificadas por la función f. Puede establecer el orden ascendente o descendente a través del parámetro ascendente. El resultado de la clasificación genera un nuevo RDD. RDD se puede especificar mediante el parámetro numPartitions. De forma predeterminada, el número de particiones es el mismo que el RDD original.
El parámetro de entrada es otro RDD y devuelve el producto cartesiano de todos los elementos de los dos RDD.
El parámetro de entrada es otro RDD, y se devuelve el complemento del RDD original y el parámetro de entrada RDD, es decir, un nuevo RDD compuesto por elementos en el RDD original que no están en el parámetro de entrada RDD Se genera el número de particiones del nuevo RDD. Se especifica el parámetro numPartitions.
Devuelve la unión del RDD original con otro RDD.
Genera todos los pares Clave/Valor compuestos por el valor del RDD original como Clave y el valor de otro RDD como Valor en secuencia, y devuelve un nuevo RDD formado por el conjunto de estos pares Clave/Valor
p>
Extraiga las claves de los elementos en el RDD de tipo Clave/Valor y forme una secuencia de todos los valores clave para formar una nueva
Utilice el parámetro de entrada función f para convertir el valor de los elementos en el valor clave/valor RDD, formando un nuevo RDD.