Red de conocimiento informático - Problemas con los teléfonos móviles - El tamaño de reproducción aleatoria leído en la interfaz de usuario de Spark.

El tamaño de reproducción aleatoria leído en la interfaz de usuario de Spark.

El rendimiento de la mayoría de los trabajos de Spark se consume principalmente en el proceso de barajado.

Entonces, en las versiones posteriores a Spark1 y 2, el ShuffleManager predeterminado se cambia a SortShuffleManager, y SortShuffleManager se mejora en comparación con HashShuffleManager.

El punto es que cada tarea generará más archivos de disco temporales al barajar, pero al final todos los archivos temporales se fusionarán en un archivo de disco, por lo que solo hay un archivo de disco para cada tarea.

Cuando la tarea shufflereadtask en la siguiente etapa extrae sus propios datos, solo necesita leer parte de los datos en cada archivo de disco según el índice.