Red de conocimiento informático - Material del sitio web - Cómo construir un clúster hadoop en vmware

Cómo construir un clúster hadoop en vmware

Documento original, conserve la dirección URL original al reimprimir.

Hadoop, comúnmente conocido como computación distribuida, fue originalmente un proyecto de código abierto, derivado originalmente de dos documentos técnicos de Google. Sin embargo, al igual que Linux hace diez años, aunque Hadoop era simple al principio, con el auge del big data en los últimos años, también ha ganado un escenario para demostrar plenamente su valor. Es por eso que la industria generalmente cree que Hadoop es el próximo Linux.

Presenta el proceso y método de instalación de un clúster de hadoop basado en múltiples máquinas virtuales vmware. A través de este pequeño clúster, puede estudiar los flujos de trabajo relacionados con Hadoop en su computadora local. Algunas personas se preguntarán si los resultados de la investigación sobre pequeños grupos de máquinas virtuales y los programas escritos pueden funcionar correctamente en grupos grandes. Puedes estar seguro. ningún problema.

Una de las características de Hadoop es el crecimiento lineal, es decir, el tiempo de procesamiento es 1 en el número actual. Si la cantidad de datos se duplica, el tiempo de posprocesamiento se duplica, y si la potencia de procesamiento se duplica en este caso, el tiempo de procesamiento es 1.

Generalmente, hadoop requiere más servidores para construir, pero aprenderemos a encontrar dichos servidores en casa. La solución puede ser encontrar algunas PC e instalar el sistema Linux en ellas.

Por supuesto, tenemos una forma más sencilla, que consiste en buscar una computadora de alto rendimiento, instalar el software de la máquina virtual en la computadora, crear varias máquinas virtuales en ella y luego dejar que estas máquinas virtuales formen una pequeña. LAN interna. En esta red, podemos instalar software Linux, software Java y programas Hadoop, y podemos crear un sistema de investigación Hadoop simple para desarrollar y depurar software. Los programas desarrollados en este pequeño clúster distribuido se pueden trasplantar sin problemas a la misma versión de Hadoop (la compatibilidad de diferentes versiones de Hadoop no es muy buena, especialmente las versiones de bajo perfil y alto perfil son las mismas, y sus API tienen pequeños cambios). ).