El software central de la plataforma de big data es
El software principal de la plataforma de big data es:
1. Phoenix
Esta es una capa intermedia de Java que permite a los desarrolladores ejecutar SQL en Apache HBase Query. . Phoenix está escrito completamente en Java, el código está en GitHub y proporciona un controlador JDBC integrable en el cliente.
El motor de consultas Phoenix convertirá la consulta SQL en uno o más escaneos HBase y organizará la ejecución para generar un conjunto de resultados JDBC estándar. Al utilizar directamente la API de HBase, los coprocesadores y los filtros personalizados, los niveles de rendimiento varían desde milisegundos para consultas simples hasta segundos para millones de filas.
2. Stinger
Originalmente llamado Tez, es la próxima generación de Hive, desarrollada por Hortonworks y es un marco informático DAG que se ejecuta en YARN. Según algunas pruebas, Stinger puede mejorar el rendimiento aproximadamente 10 veces y también permitirá que Hive admita más SQL. Sus principales ventajas incluyen: permitir a los usuarios obtener más coincidencias de consultas en Hadoop. Estos incluyen funciones de análisis de palabras similares a OVER y admiten consultas WHERE, lo que hace que el sistema de estilo de Hive sea más consistente con el modelo SQL.
3. Presto
Presto, el motor de consulta de datos de código abierto de Facebook, puede analizar de forma rápida e interactiva más de 250 PB de datos. El proyecto comenzó a desarrollarse en el otoño de 2012 y actualmente lo utilizan más de 1.000 empleados de Facebook, ejecutando más de 30.000 consultas y 1 PB de datos diarios. Facebook afirma que el rendimiento de Presto es más de 10 veces mejor que el de Hive y Map*Reduce.
4. Shark
Shark es Hive en Spark. Básicamente, utiliza el análisis HQL de Hive para traducir HQL en operaciones RDD en Spark y luego obtiene la base de datos a través de los metadatos de Hive. Shark obtendrá la información, los datos reales y los archivos en HDFS y los colocará en Spark para su cálculo.
5. Pig
Introducción: Pig es un lenguaje de programación que simplifica las tareas comunes de Hadoop. Pig puede cargar datos, expresarlos y transformarlos y almacenar los resultados finales. Las operaciones integradas de Pig dan sentido a los datos semiestructurados (como los archivos de registro). Al mismo tiempo, Pig se puede ampliar para utilizar tipos de datos personalizados agregados en Java y admitir la conversión de datos.