La diferencia entre almacenamiento en caché y persistencia en Spark
De forma predeterminada, los datos se almacenan en la memoria y se ejecutan de forma diferida
def cache(): this.type = persist()
persist
persist
p>Puede especificar el nivel de persistencia.
Los más utilizados son MEMORY_ONLY y MEMORY_AND_DISK.
"_2" indica el número de copias. Intente evitar el uso de los niveles _2 y DISK_ONLY
Notas sobre el almacenamiento en caché y la persistencia
1 Ambas son ejecuciones diferidas (algunas personas las llaman ejecuciones retrasadas) y requieren operaciones para desencadenar la ejecución, la más pequeña. la unidad es una partición
2. Después de realizar almacenamiento en caché o persistencia en RDD. La próxima vez que la variable se use directamente, se usarán datos persistentes
3 Si se usa el segundo método, el operador no se puede seguir inmediatamente
.