Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Cuál es la diferencia entre sparkSQL y spark?

¿Cuál es la diferencia entre sparkSQL y spark?

Spark presenta un módulo de programación llamado Spark SQL para el procesamiento de datos estructurados. En resumen, sparkSQL es el predecesor de Spark. Fue desarrollado durante el proceso de desarrollo de Hadoop para proporcionar al personal técnico que está familiarizado con RDBMS pero no comprende MapReduce una herramienta para comenzar rápidamente.

sparkSQL proporciona una abstracción de programación llamada DataFrame (marco de datos). La capa inferior de DF sigue siendo RDD y puede actuar como un motor de consulta SQL distribuido.

¿Cuáles son las características de SparkSql?

1) Se introduce un nuevo tipo de RDD, SchemaRDD, que se puede definir como una tabla de definición de base de datos tradicional.

2) Se pueden mezclar datos de diferentes fuentes en la aplicación. Por ejemplo, se pueden unir datos de HiveQL y datos de SQL.

3) Se incorpora un marco de optimización de consultas. Después de analizar SQL en un plan de ejecución lógica, finalmente se convierte en cálculo RDD.