La diferencia entre reducebykey y groupbykey
reduceByKey se utiliza para fusionar varios valores en cada clave y, lo mejor de todo, se puede realizar primero localmente y la operación de fusión se puede personalizar mediante una función.
groupByKey también opera en cada tecla, pero solo genera una secuencia. Necesitamos prestar especial atención al texto en los comentarios, que nos indica si necesitamos realizar una operación de agregación en la secuencia (tenga en cuenta que. groupByKey en sí no tiene esta función), podemos usar groupByKey para generar una secuencia. Tenga en cuenta que groupByKey en sí no se puede personalizar), entonces reduceByKey es una mejor opción que agregadoByKey. Esto se debe a que groupByKey no tiene una función personalizada. Necesitamos usar groupByKey para generar un RDD antes de poder ejecutar la función personalizada en el RDD a través del mapa.