Red de conocimiento informático - Problemas con los teléfonos móviles - La diferencia entre dependencias amplias y dependencias estrechas en Spark

La diferencia entre dependencias amplias y dependencias estrechas en Spark

Dependencia estrecha significa que cada partición del RDD principal solo es utilizada por una partición del RDD secundario. La partición RDD secundaria generalmente corresponde a un cierto número de particiones RDD principales (O (1), independientemente del tamaño de los datos)

Con esta correspondencia y amplia dependencia significa que cada partición del RDD principal puede ser utilizada por múltiples particiones RDD secundarias, y las particiones RDD secundarias generalmente corresponden a todas las particiones RDD principales (O(n), independientemente del tamaño de los datos).

En pocas palabras, las dependencias estrechas son de uno a uno o de muchos a uno, y las dependencias amplias son de muchos a muchos o de uno a uno. Esto está relacionado con el tamaño de los datos)

En pocas palabras, las dependencias estrechas son de uno a uno o de muchos a uno, mientras que las dependencias amplias son de muchos a muchos o de uno a muchos.