La diferencia entre dependencias amplias y dependencias estrechas en Spark
Dependencia estrecha significa que cada partición del RDD principal solo es utilizada por una partición del RDD secundario. La partición RDD secundaria generalmente corresponde a un cierto número de particiones RDD principales (O (1), independientemente del tamaño de los datos)
Con esta correspondencia y amplia dependencia significa que cada partición del RDD principal puede ser utilizada por múltiples particiones RDD secundarias, y las particiones RDD secundarias generalmente corresponden a todas las particiones RDD principales (O(n), independientemente del tamaño de los datos).
En pocas palabras, las dependencias estrechas son de uno a uno o de muchos a uno, y las dependencias amplias son de muchos a muchos o de uno a uno. Esto está relacionado con el tamaño de los datos)
En pocas palabras, las dependencias estrechas son de uno a uno o de muchos a uno, mientras que las dependencias amplias son de muchos a muchos o de uno a muchos.