Red de conocimiento informático - Material del sitio web - ¿Cuál es el marco para el aprendizaje de big data? ¿Qué es un ecosistema?

¿Cuál es el marco para el aprendizaje de big data? ¿Qué es un ecosistema?

Hay tres marcos principales principales en las plataformas de big data:

(1) ecosistema Hadoop

HDFS: sistema de archivos distribuido, que resuelve el almacenamiento de big data

Yarn (MapReduce): marco informático distribuido para resolver cálculos de big data

Hive: motor de análisis de datos en Hadoop, compatible con SQL

HBase: base de datos NoSQL basada en HDFS

ZooKeeper: servicio de coordinación distribuida, que se puede utilizar para implementar HA (arquitectura de alta disponibilidad)

Otros

(2) Spark Ecosystem Circle

Spark Core: el núcleo de Spark, utilizado para computación fuera de línea

Spark SQL: el motor de análisis de datos de Spark, que admite declaraciones SQL

Spark Streaming: el motor informático de Streaming de Spark, pero su esencia es informática aún sin conexión

MLlib: marco de aprendizaje automático

(3) ecosistema de Flink

Flink DataSet: API de procesamiento por lotes de Flink (computación sin conexión)

Flink DataStream: API de procesamiento de flujo de Flink (computación en tiempo real)

Flink Table&SQL: motor de análisis de datos de Flink, compatible con declaraciones SQL

MLlib: marco de aprendizaje automático