Red de conocimiento informático - Material del sitio web - El software central de la plataforma de big data es

El software central de la plataforma de big data es

El software principal de la plataforma de big data es:

1. Phoenix

Esta es una capa intermedia de Java que permite a los desarrolladores ejecutar SQL en Apache HBase Query. . Phoenix está escrito completamente en Java, el código está en GitHub y proporciona un controlador JDBC integrable en el cliente.

El motor de consultas Phoenix convertirá la consulta SQL en uno o más escaneos HBase y organizará la ejecución para generar un conjunto de resultados JDBC estándar. Al utilizar directamente la API de HBase, los coprocesadores y los filtros personalizados, los niveles de rendimiento varían desde milisegundos para consultas simples hasta segundos para millones de filas.

2. Stinger

Originalmente llamado Tez, es la próxima generación de Hive, desarrollada por Hortonworks y es un marco informático DAG que se ejecuta en YARN. Según algunas pruebas, Stinger puede mejorar el rendimiento aproximadamente 10 veces y también permitirá que Hive admita más SQL. Sus principales ventajas incluyen: permitir a los usuarios obtener más coincidencias de consultas en Hadoop. Estos incluyen funciones de análisis de palabras similares a OVER y admiten consultas WHERE, lo que hace que el sistema de estilo de Hive sea más consistente con el modelo SQL.

3. Presto

Presto, el motor de consulta de datos de código abierto de Facebook, puede analizar de forma rápida e interactiva más de 250 PB de datos. El proyecto comenzó a desarrollarse en el otoño de 2012 y actualmente lo utilizan más de 1.000 empleados de Facebook, ejecutando más de 30.000 consultas y 1 PB de datos diarios. Facebook afirma que el rendimiento de Presto es más de 10 veces mejor que el de Hive y Map*Reduce.

4. Shark

Shark es Hive en Spark. Básicamente, utiliza el análisis HQL de Hive para traducir HQL en operaciones RDD en Spark y luego obtiene la base de datos a través de los metadatos de Hive. Shark obtendrá la información, los datos reales y los archivos en HDFS y los colocará en Spark para su cálculo.

5. Pig

Introducción: Pig es un lenguaje de programación que simplifica las tareas comunes de Hadoop. Pig puede cargar datos, expresarlos y transformarlos y almacenar los resultados finales. Las operaciones integradas de Pig dan sentido a los datos semiestructurados (como los archivos de registro). Al mismo tiempo, Pig se puede ampliar para utilizar tipos de datos personalizados agregados en Java y admitir la conversión de datos.

上篇: Cómo sacar cada elemento del objeto de matriz como parámetro de entrada para iniciar una solicitud http 下篇: Cómo configurar de forma independiente el tiempo de aceleración y desaceleración de múltiples velocidades del inversor Mitsubishi

El software central de la plataforma de big data es

Artículos populares