Red de conocimiento informático - Aprendizaje de programación - ¿Cuál es la diferencia entre Pig y Hive?

¿Cuál es la diferencia entre Pig y Hive?

Pig es un lenguaje de programación que simplifica las tareas comunes de Hadoop. Pig puede cargar datos, expresar los datos transformados y almacenar los resultados finales. Las operaciones integradas de Pig dan sentido a los datos semiestructurados, como los archivos de registro. Al mismo tiempo, Pig se puede ampliar para utilizar tipos de datos personalizados agregados en Java y admitir transformaciones de datos.

Hive desempeña el papel de almacén de datos en Hadoop. Hive superpone la estructura de los datos en HDFS y permite consultar los datos utilizando una sintaxis similar a SQL. Al igual que Pig, la funcionalidad principal de Hive es extensible.

Hive es más adecuado para tareas de almacenamiento de datos. Hive se utiliza principalmente para estructuras estáticas y trabajos que requieren análisis frecuentes. La similitud de Hive con SQL lo convierte en una intersección ideal para Hadoop y otras herramientas de BI. Pig proporciona a los desarrolladores una mayor flexibilidad en el área de grandes conjuntos de datos y permite el desarrollo de scripts concisos para transformar flujos de datos para incrustarlos en Pig. Pig es relativamente liviano en comparación con Hive y su principal ventaja es que reduce la cantidad de código en comparación con el uso directo de la API de Java de Hadoop.

Cerdo vs. Colmena en pocas palabras.

Pig Latin convierte flujos de datos en trabajos MapReduce que clasifican y resumen conjuntos de resultados ejecutados en paralelo por múltiples subprocesos, procesos o sistemas independientes. Pig usa MapReduce para dividir el cálculo en dos etapas. La primera etapa divide el cálculo en bloques más pequeños y los distribuye a cada nodo donde se almacenan los datos, y la segunda etapa resume los resultados de la primera etapa. La segunda etapa resume los resultados de ejecución de la primera etapa y puede lograr un rendimiento muy alto con una pequeña cantidad de código y carga de trabajo, puede hacer que miles de máquinas realicen cálculos paralelos, aprovechando al máximo los recursos de la computadora y eliminando los cuellos de botella en la operación.

En otras palabras, la función más importante de Pig es implementar un conjunto de scripts de shell a través del algoritmo (marco) mapreduce, que es similar a las declaraciones SQL con las que habitualmente estamos familiarizados. Se llama Pig Latin. en Pig. En este conjunto de scripts podemos ordenar, filtrar, sumar, agrupar y unir los datos cargados. Además, Pig también puede operar con conjuntos de datos a través de algunas funciones definidas por el usuario, que son las legendarias UDF (funciones definidas por el usuario).

La experiencia de lectura final es: Pig se usa para escribir algunos scripts en tiempo real, como cuando el líder le pide un dato y sale en media hora, Hive, un gerente de producto; Viene a preguntar esto ¿Cuál es el problema? Así que Hive, una declaración SQL concisa... ¡Listo!

Fuente: "Business Intelligence and Data Warehousing": los entusiastas de la inteligencia empresarial y el almacenamiento de datos

tienen hadoop. . . . ,,,,acompañar,,,,entrenar....