Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Qué son los RDD en Spark?

¿Qué son los RDD en Spark?

En términos generales, la primera reacción de las personas ante un término desconocido es "¿Qué es?

RDD es el núcleo de Spark. La documentación oficial de Spark lo explica de la siguiente manera: Primero, la tolerancia a fallas es una característica importante de RDD; En segundo lugar, son datos utilizados para la computación paralela.

La explicación china de RDD es "conjunto de datos distribuidos elásticos": el objeto de RDD es un conjunto de datos, es decir, el RDD en memoria se lee. Solo y divisible. Todo o parte del conjunto de datos se puede almacenar en caché en la memoria y reutilizarse entre múltiples cálculos. La llamada elasticidad significa que se puede intercambiar con el disco cuando la memoria es insuficiente. Esto implica otra característica de RDD: en memoria. informática, es decir, guardar datos en la memoria. Al mismo tiempo, para resolver el problema de las limitaciones de capacidad de la memoria, Spark nos proporciona el mayor grado de libertad para almacenar en caché todos los datos, incluido si y cómo. cache it.

(Acerca de la configuración de caché y algunos conceptos básicos de Spark,