Red de conocimiento informático - Problemas con los teléfonos móviles - La diferencia entre almacenamiento en caché y persistencia en Spark

La diferencia entre almacenamiento en caché y persistencia en Spark

Caché

De forma predeterminada, los datos se almacenan en la memoria y se ejecutan de forma diferida

def cache(): this.type = persist()

persist

persist

p>

Puede especificar el nivel de persistencia.

Los más utilizados son MEMORY_ONLY y MEMORY_AND_DISK.

"_2" indica el número de copias. Intente evitar el uso de los niveles _2 y DISK_ONLY

Notas sobre el almacenamiento en caché y la persistencia

1 Ambas son ejecuciones diferidas (algunas personas las llaman ejecuciones retrasadas) y requieren operaciones para desencadenar la ejecución, la más pequeña. la unidad es una partición

2. Después de realizar almacenamiento en caché o persistencia en RDD. La próxima vez que la variable se use directamente, se usarán datos persistentes

3 Si se usa el segundo método, el operador no se puede seguir inmediatamente

.