Red de conocimiento informático - Problemas con los teléfonos móviles - La descripción correcta de rdd es

La descripción correcta de rdd es

La descripción correcta de RDD es Conjuntos de datos distribuidos resilientes (RDD, ResilientDistributedDatasets).

Como abstracción de la memoria distribuida, RDD proporciona un modelo de memoria de disfrute altamente restringido, es decir, RDD es una colección de particiones de registros de solo lectura que solo se puede ejecutar en otros RDD. operaciones de transformación deterministas como map, join y groupby; sin embargo, estas limitaciones permiten lograr tolerancia a fallas con una sobrecarga baja.

Para los desarrolladores, RDD puede considerarse como un objeto de Spark, que a su vez se ejecuta en la memoria. Por ejemplo, leer un archivo es un RDD y leer un archivo es un RDD. es un RDD, el archivo de cálculo es un RDD y el conjunto de resultados es un RDD. Los diferentes fragmentos, las dependencias entre datos y los tipos de valores clave de datos mapeados pueden considerarse RDD.

Explicación

Los conjuntos de datos distribuidos resistentes (RDD, ResilientDistributedDatasets) tienen las características de tolerancia a fallas de los modelos de flujo de datos como MapReduce, lo que permite a los desarrolladores realizar cálculos basados ​​en memoria en grandes cantidades. cúmulos. Los sistemas de transmisión de datos existentes son ineficientes para dos tipos de aplicaciones: algoritmos iterativos comunes en aplicaciones gráficas y aprendizaje automático, y herramientas interactivas de minería de datos.

En ambos casos, mantener los datos en la memoria puede mejorar enormemente el rendimiento. Para lograr una tolerancia a fallas eficiente, RDD proporciona un uso compartido de memoria altamente restringido, es decir, RDD es de solo lectura y solo se puede crear mediante operaciones por lotes en otros RDD. Aún así, los RDD son suficientes para representar muchos tipos de cálculos, incluido MapReduce y modelos de programación iterativos especializados como Pregel.

RDD es una colección de registros particionados y de solo lectura. Los RDD solo se pueden crear en función de operaciones deterministas en el conjunto de datos y otros RDD existentes en un almacenamiento físico estable. Estas operaciones deterministas se denominan transformaciones, como mapear, filtrar, agrupar por y unir (los programadores no realizan operaciones de transformación en RDD).

No es necesario que RDD esté materializado. Un RDD contiene información (es decir, linaje) sobre cómo este RDD se deriva (es decir, se calcula) de otros RDD, a partir de los cuales se pueden calcular las particiones RDD correspondientes a partir de los datos almacenados físicamente.

Como estructura de datos, un RDD es esencialmente una colección de registros particionados de solo lectura. Un RDD puede contener varias particiones, siendo cada partición un fragmento del conjunto de datos. Si cada partición del RDD solo puede ser utilizada por como máximo una partición del RDD secundario, se denomina dependencia estrecha; si varias particiones ChildRDD pueden depender de ella, se denomina dependencia amplia.

Diferentes operaciones pueden tener diferentes dependencias según sus características. Por ejemplo, las operaciones de mapas producen dependencias estrechas, mientras que las operaciones de unión producen dependencias amplias.