Cómo implementar hadoop en openstack
Con el rápido desarrollo de la era de la información, tanto la tecnología de big data como los entornos de nube privada son muy prácticos, simplemente se supone que los dos están combinados; Las empresas obtendrán enormes beneficios. Aunque combinar ambos hace que el entorno sea más complejo. Las empresas aún pueden ver importantes sinergias al combinar las nubes privadas OpenStack y los entornos Apache Hadoop. ¿Qué sería mejor?
Opción 1. Swift, Nova Apache Hadoop MapReduce
Para aquellos que quieran conseguir un mayor grado de flexibilidad, escalabilidad y autonomía en un entorno de big data empresarial que Puede aprovechar las capacidades inherentes de los productos de código abierto proporcionados por Apache y OpenStack. Para ello, las empresas deben aprovechar al máximo ambas tecnologías. Esto requiere una forma diferente de pensar en el diseño del entorno que las soluciones descritas anteriormente.
La Red de Profesionales de Desarrollo de Software tiene mucha experiencia en este sentido.
Para obtener un entorno de big data totalmente escalable y flexible, se debe ejecutar en un entorno de nube privada que proporcione nodos de almacenamiento y computación al mismo tiempo. Para tal fin. Las empresas primero deben construir una nube privada. Luego agregue big data. por lo tanto. En tales casos, es obligado utilizar Swift, Nova y RabbitMQ. y nodos controladores para gestionar y mantener el medio ambiente.
Pero. La pregunta es si las empresas necesitan dividir el entorno en partes (por ejemplo, máquinas virtuales que no sean de big data o instancias de clientes) para diferentes sistemas y unidades de negocios. Suponiendo que la empresa esté lista para utilizar una nube privada por completo, debería unirse a Quantum para dividir diferentes entornos desde una perspectiva de red.
Opción 2. Swift Apache Hadoop MapReduce
En un entorno de nube privada. Uno de los modelos comunes de implementación de big data es implementar la tecnología de almacenamiento Swift de OpenStack en un clúster Apache Hadoop MapReduce para implementar funciones de procesamiento. Las ventajas de utilizar una arquitectura de este tipo son. Las empresas obtendrán un nodo de almacenamiento escalable que podrán utilizar para procesar sus datos en crecimiento. Según IDC, la tasa de crecimiento anual de los datos ha alcanzado el 60% y esta solución satisfará las crecientes necesidades de datos. También se acordó que la organización lanzaría al mismo tiempo un proyecto piloto para implementar una nube privada.
El mejor caso de uso para este modelo de implementación es cuando una empresa quiere probar la tecnología de nube privada a través de un grupo de almacenamiento. Al mismo tiempo, la tecnología big data se utiliza internamente. Las mejores prácticas sugieren que las empresas deberían primero implementar tecnologías de big data en su entorno de almacenamiento de datos de producción. Luego cree y configure su solución de almacenamiento en la nube privada. Suponga que la tecnología Apache Hadoop MapReduce se integra con éxito en un entorno de almacén de datos. Y su grupo de almacenamiento en la nube privada se ha creado y ejecutado correctamente. Luego, puede integrar datos de almacenamiento en la nube privada con un entorno Hadoop MapReduce preprogramado.
Opción 3. Distribución Swift Cloudera Apache Hadoop
Para las empresas que no están dispuestas a utilizar big data desde cero, pueden utilizar equipos de big data proporcionados por proveedores de soluciones como Cloudera.
Cloudera, cuya distribución incluye una solución Apache Hadoop (CDH), está de acuerdo en que las empresas no tienen que reclutar o capacitar empleados para cada matiz de Hadoop. Esto permite un mayor retorno de la inversión (ROI) en big data.
Para aquellos que no tienen habilidades en big data o nube privada. Empresas que quieran integrar esta tecnología en su cartera de productos de forma lenta y gradual. Esto es particularmente fascinante.
Los big data y la computación en la nube son tecnologías relativamente nuevas y muchas empresas esperan lograr ahorros de costos a través de ellas;
Muchas empresas dudan en adoptar plenamente estas tecnologías. Al aprovechar las versiones de software de big data respaldadas por proveedores, las empresas se sentirán más cómodas al hacerlo y, al mismo tiempo, podrán comprender cómo utilizar estas tecnologías en su beneficio. Además, se supone que el software de big data se utiliza para analizar grandes conjuntos de datos y que estos conjuntos de datos se pueden gestionar a través de nodos de almacenamiento en la nube privada. Entonces estas empresas también pueden lograr mayores tasas de utilización. Para integrar mejor esta estrategia en la empresa, primero es necesario instalar, configurar y administrar CDH para analizar el entorno de almacenamiento de datos de la empresa. Luego agregue los datos almacenados en Swift donde sea necesario.
Después de configurar y probar el entorno de nube privada. Posibilidad de incorporar componentes de Apache Hadoop al mismo.
En este momento. Las instancias de Nova se pueden usar para albergar almacenes de datos NoSQL o SQL (sí, pueden almacenar datos), así como las instancias de Pig y MapReduce se pueden ubicar en una máquina separada que no sea Nova para proporcionar funciones de procesamiento.
En un futuro próximo, se espera que Hadoop se ejecute en instancias de Nova, haciendo que la nube privada sea autónoma para todas las instancias de Nova.
Opción 4. GFS, Nova, Pig y MapReduce
Desde una perspectiva arquitectónica, puede haber otras opciones además de usar Swift de OpenStack para implementar almacenamiento escalable. Este ejemplo utiliza el sistema de archivos de Google (GFS), componentes Nova y componentes Apache Hadoop. Específicamente, se utilizan Pig y MapReduce. Esta demostración permite a las empresas centrarse en el desarrollo de un nodo de computación en la nube privada utilizado únicamente para el procesamiento informático, mientras utiliza la nube de almacenamiento pública de Google como almacenamiento de datos. Al utilizar una nube híbrida de este tipo, las empresas pueden centrarse en las capacidades centrales de las funciones informáticas y de procesamiento, mientras que un tercero es responsable de implementar el almacenamiento. Este modelo puede aprovechar las soluciones de almacenamiento de otros proveedores, como Amazon Simple Storage Service; sin embargo, las empresas deben crear la solución internamente utilizando el sistema de archivos extensible (XFS) antes de utilizar cualquier almacenamiento externo. Y realizar las pruebas correspondientes antes de extenderlo a la nube pública. Además, dependiendo de la sensibilidad de los datos. Es posible que las empresas necesiten utilizar mecanismos de protección de datos como la ofuscación, la anonimización, el cifrado o el hashing.
Consejos y sugerencias
A medida que incorpora tecnologías de computación en la nube y big data en su entorno empresarial, asegúrese de desarrollar las habilidades de sus empleados para ambas plataformas tecnológicas.
Una vez que su personal comprenda estas tecnologías, puede configurar un laboratorio para probar los efectos combinados de las dos plataformas. Porque incluye muchos componentes diferentes. Entonces en el proceso de implementación. Asegúrese de seguir el camino probado mencionado anteriormente.
Además, las empresas pueden encontrar algunos contratiempos al intentar fusionar los dos modelos y deberían cambiar a otros métodos después de varios intentos. Estos enfoques incluyen dispositivos y nube híbrida.
Barreras y obstáculos
Debido a que se trata de tecnologías relativamente nuevas, la mayoría de las empresas necesitarán probarlas con los recursos existentes antes de realizar gastos de capital significativos (CapEx). Sin embargo, los esfuerzos piloto y de prueba fracasarán a menos que se establezcan presupuestos y capacitación adecuados para implementar estas tecnologías en la empresa. mismo. Supongamos que falta una implementación completa de nube privada. Las empresas primero deberían implementar tecnología de big data y luego implementar una nube privada.
Finalmente, las empresas necesitan desarrollar una hoja de ruta estratégica para la nube privada y las iniciativas de big data. Para una implementación exitosa, se requiere mucho "trabajo" de análisis adicional, lo que puede retrasar el proceso. Para eliminar tales riesgos, se debe adoptar un enfoque iterativo de gestión de proyectos, implementado en las unidades de negocios de manera gradual. Así es como se implementan estas tecnologías en la empresa.
Las empresas deben confirmar cómo aprobar