Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Cuál es la relación entre Spark SQL y Hive?

¿Cuál es la relación entre Spark SQL y Hive?

Hive es un almacén de datos basado en HDFS. Proporciona un motor de consultas basado en el modelo SQL para consultas interactivas distribuidas en almacenes de datos que almacenan big data.

SparkSQL no puede reemplazar completamente a Hive. Reemplaza el motor de consultas de Hive. Debido a que su capa subyacente se basa en las características de memoria del propio Spark, SparkSQL es varias veces más rápido que el propio motor de consultas de Hive. , por lo que no puede reemplazar la función de Hive como almacén de datos.

Otra ventaja de SparkSQL sobre Hive es que admite una gran cantidad de fuentes de datos diferentes, incluidas hive, json, parquet, jdbc, etc. SparkSQL se integra perfectamente con otros componentes de Spark porque pertenece a la pila de tecnología Spark y funciona en RDD. SparkSQL funciona en la pila de tecnología Spark basada en RDD, por lo que puede integrarse perfectamente con otros componentes de Spark para implementar conjuntamente muchas funciones complejas. Por ejemplo, SparkSQL admite la ejecución de declaraciones SQL directamente en archivos hdfs.