Red de conocimiento informático - Material del sitio web - ¿Qué hace Hadoop por los big data?

¿Qué hace Hadoop por los big data?

Hay muchas formas de unir múltiples conjuntos de datos en Hadoop. MapReduce proporciona conexiones de datos entre el lado del mapa y el lado de reducción. Estas uniones no son triviales y pueden ser operaciones muy costosas. Pig y Hive también tienen la misma capacidad para aplicar conexiones a múltiples conjuntos de datos. Pig proporciona uniones de copia, uniones de fusión y uniones sesgadas, y Hive proporciona uniones del lado del mapa y uniones externas completas para analizar datos.

Un hecho importante es que al utilizar varias herramientas como MapReduce, Pig, Hive, etc., los datos se pueden utilizar en función de sus capacidades integradas y necesidades reales. En cuanto al análisis de grandes cantidades de datos en Hadoop, Anoop señaló que, en general, en el mundo de big data/Hadoop, algunos problemas pueden no ser complejos y las soluciones son sencillas, pero el desafío es la cantidad de datos. En este caso se necesitan diferentes soluciones para solucionar el problema.

Algunas tareas de análisis son contar la cantidad de ID específicas de los archivos de registro, transformar los datos almacenados dentro de un rango de fechas específico y clasificar a los internautas, etc. Todas estas tareas se pueden resolver a través de diversas herramientas y tecnologías en Hadoop como MapReduce, Hive, Pig, Giraph y Mahout, etc. Estas herramientas pueden ampliar de manera flexible sus capacidades con la ayuda de rutinas personalizadas.