Red de conocimiento informático - Problemas con los teléfonos móviles - Hay varias formas de crear un RDD Spark

Hay varias formas de crear un RDD Spark

Spark opera en torno al concepto de RDD, que son colecciones de elementos tolerantes a fallas que se pueden operar en paralelo. Hay dos formas de crear un RDD: paralelizar una colección existente en el controlador o hacer referencia al conjunto de datos desde un sistema de almacenamiento externo. Una característica importante de RDD es el almacenamiento distribuido. La mayor ventaja del almacenamiento distribuido es que permite almacenar datos en paralelo en diferentes nodos trabajadores para que puedan operarse en paralelo cuando sea necesario. La flexibilidad significa que puede utilizar tanto la memoria interna como la externa al almacenar nodos, lo que facilita a los usuarios el procesamiento de big data. Además, otra característica importante de RDD es el cálculo retrasado, lo que significa que la tarea de ejecutar un RDD completo se divide en dos partes: transformación y operación

1 Al crear la transformación, también proporciona una gran cantidad. de operaciones, incluyendo map, filter, groupBy, join, etc., RDD usa estas operaciones para generar un nuevo RDD, pero debe tenerse en cuenta que no importa cuántas veces se realice la Transformación, la Acción no puede ejecutarse antes de que el RDD realmente calcule los datos.

2. Acción

La acción es la parte de ejecución de datos, que en realidad ejecuta la parte de cálculo de datos realizando operaciones de conteo, reducción, recopilación y otras. De hecho, todas las operaciones en RDD se ejecutan en modo Lazy. El resultado final no se calcula inmediatamente cuando se ejecuta en la compilación, sino que todos los pasos y métodos de la operación se recuerdan y se muestran solo cuando se encuentra un comando de inicio. La ventaja de esto es que la mayor parte del trabajo inicial se realizó durante la Transformación y, cuando se trabaja en Acción, solo es necesario utilizar todos los grados de libertad para completar el trabajo central del negocio.