¿Cuál es el marco para el aprendizaje de big data? ¿Qué es un ecosistema?
Hay tres marcos principales principales en las plataformas de big data:
(1) ecosistema Hadoop
HDFS: sistema de archivos distribuido, que resuelve el almacenamiento de big data
Yarn (MapReduce): marco informático distribuido para resolver cálculos de big data
Hive: motor de análisis de datos en Hadoop, compatible con SQL
HBase: base de datos NoSQL basada en HDFS p>
ZooKeeper: servicio de coordinación distribuida, que se puede utilizar para implementar HA (arquitectura de alta disponibilidad)
Otros
(2) Spark Ecosystem Circle
Spark Core: el núcleo de Spark, utilizado para computación fuera de línea
Spark SQL: el motor de análisis de datos de Spark, que admite declaraciones SQL
Spark Streaming: el motor informático de Streaming de Spark, pero su esencia es informática aún sin conexión
MLlib: marco de aprendizaje automático
(3) ecosistema de Flink
Flink DataSet: API de procesamiento por lotes de Flink (computación sin conexión)
Flink DataStream: API de procesamiento de flujo de Flink (computación en tiempo real)
Flink Table&SQL: motor de análisis de datos de Flink, compatible con declaraciones SQL
MLlib: marco de aprendizaje automático