¿Para qué se utilizan Hadoop y MapReduce?
Hadoop es una arquitectura utilizada para desarrollar programas distribuidos. Es una infraestructura de sistema distribuido desarrollada por la Fundación Apache. Los usuarios pueden desarrollar programas distribuidos sin comprender los detalles subyacentes de la distribución.
MapReduce es un modelo de datos utilizado para el procesamiento de datos paralelos a gran escala. Es conveniente para los programadores ejecutar sus propios programas en sistemas distribuidos sin saber cómo realizar programación paralela distribuida.
Información ampliada
Hadoop es una plataforma informática distribuida que permite a los usuarios construirla y utilizarla fácilmente. Los usuarios pueden desarrollar y ejecutar fácilmente aplicaciones que manejan cantidades masivas de datos en Hadoop. Tiene principalmente las siguientes ventajas:
1. La capacidad de Hadoop para almacenar y procesar datos bit a bit es digna de confianza.
2. Alta escalabilidad. Hadoop distribuye datos y completa tareas informáticas entre los grupos de ordenadores disponibles, que pueden ampliarse fácilmente a miles de nodos.
3. Hadoop puede mover datos dinámicamente entre nodos y garantizar el equilibrio dinámico de cada nodo, por lo que la velocidad de procesamiento es muy rápida.
4. Alta tolerancia a fallos. Hadoop puede guardar automáticamente múltiples copias de datos y redistribuir automáticamente las tareas fallidas.
5. En comparación con computadoras todo en uno, almacenes de datos comerciales y mercados de datos como QlikView y Yonghong Z-Suite, hadoop es de código abierto, por lo que el costo del software del proyecto se reducirá considerablemente.
Enciclopedia Baidu-MapReduce
Enciclopedia Baidu-Hadoop