Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Cuáles son las cinco características principales de rdd?

¿Cuáles son las cinco características principales de rdd?

1. Lista de particiones

RDD es una lista que consta de múltiples particiones (un dato continuo en un nodo, cuando se cargan datos como un RDD, generalmente se sigue la localidad de los datos (generalmente, en); HDFS Una porción de se cargará como una partición).

2. Función utilizada para calcular cada división

Una función calcula cada partición. Habrá una función en cada partición del RDD, que es una aplicación de función, utilizada para implementar la conversión. de particiones entre RDD.

3. Lista de dependencias de otros RDD

Los RDD registran sus dependencias, que se dividen en dependencias amplias y dependencias estrechas, pero no todos los RDD tienen dependencias. Para la tolerancia a fallos (nuevo cálculo, almacenamiento en caché, puntos de control), es decir, si una operación RDD en memoria sale mal o se pierde, se realizará un nuevo cálculo.

4. Opcionalmente, el divisor rdd clave-valor

es opcional. Si los datos almacenados en el RDD están en formato clave-valor, puede pasar un divisor definido por el usuario para particionarlos nuevamente. Por ejemplo, si un particionador definido por el usuario realiza particiones según claves, los datos con la misma clave en diferentes RDD se colocarán en la misma partición.

5. (Opcional) Calcular la lista de posiciones preferidas para cada división

La mejor posición calculada, es decir, la localidad de los datos.

/zym 1117/article/details/79532458