Red de conocimiento informático - Problemas con los teléfonos móviles - El tamaño de reproducción aleatoria leído en la interfaz de usuario de Spark.

El tamaño de reproducción aleatoria leído en la interfaz de usuario de Spark.

El rendimiento de la mayoría de los trabajos de Spark se consume principalmente en el proceso de barajado.

Entonces, en las versiones posteriores a Spark1 y 2, el ShuffleManager predeterminado se cambia a SortShuffleManager, y SortShuffleManager se mejora en comparación con HashShuffleManager.

El punto es que cada tarea generará más archivos de disco temporales al barajar, pero al final todos los archivos temporales se fusionarán en un archivo de disco, por lo que solo hay un archivo de disco para cada tarea.

Cuando la tarea shufflereadtask en la siguiente etapa extrae sus propios datos, solo necesita leer parte de los datos en cada archivo de disco según el índice.

上篇: Solución al problema de la desaparición del cursor del mouse de la computadora en el sistema Win10 (desaparición del cursor del mouse de la computadora portátil) 下篇: ¿Quién interpreta a Yu Manli en "The Pretender"?

El tamaño de reproducción aleatoria leído en la interfaz de usuario de Spark.

Artículos populares