¿Qué sistema es mejor para que los principiantes aprendan hadoop?
Hasta ahora, como alguien que tiene solo medio pie en la puerta de Hadoop, sugiero que todos elijan Hadoop 1.x. Mucha gente puede decir que Hadoop se lanzó en 2.4, ¿por qué seguimos usando 1.x? Cuando escuché esto, nunca jugué a Hadoop.
Razón 1: Hadoop 1.x y 2.x son dos cosas completamente diferentes. No es tan simple como actualizar un servidor web independiente de 1.0 a 2.0. Eso no significa que MySQL 5.0 que estoy usando ahora pueda migrarse directa y sin problemas a 5.5 siempre que compile una nueva versión. La transición de Hadoop 1.0 a 2.0 requirió revertir y reescribir toda la arquitectura. Desde la implementación hasta la interfaz de usuario, son dos cosas completamente diferentes. No piense simplemente que es como actualizar nginx de 0.8 a 1.4. Entonces, mi sugerencia es usar 1.x en el entorno de producción e implementar 2.x en el entorno experimental para uso familiar.
Segundo motivo: Aún así, Hadoop no es un servidor web. Aunque Hadoop se ha implementado como un sistema distribuido, sigue siendo un sistema muy complejo, hablando solo de almacenamiento HDFS, quería actualizar a Hadoop 0.20. 2 en el pasado 0.20.203, primero debe implementar la nueva versión de Hadoop en todos los nodos, luego detener todos los servicios en todo el clúster, hacer una copia de seguridad de los metadatos y luego actualizar HDFS. No hay garantía de que HDFS se actualice. exitosamente. El costo de dicha actualización es muy alto, sin mencionar la interrupción del servicio, es impredecible si la actualización falla y no se garantiza que los metadatos estén completos. Es mucho más problemático de lo que crees. No crea que con TDH Manager u otro software de gestión realmente puede automatizar la operación y el mantenimiento. La implementación de Hadoop es solo el primer paso de un largo viaje.
Razón tres: Hadoop 2.x es actualmente muy inestable, tiene muchos errores y la velocidad de iteración de la actualización es demasiado rápida. Si desea elegir 2.x, piénselo detenidamente antes de tomar una decisión. No significa que elijas la nueva versión de Openssl. Openssl ha existido durante muchos años y todavía existe una vulnerabilidad Heartbleed. Sin mencionar Hadoop2, que se lanzó hace menos de un año. Se necesitaron 7 u 8 años para actualizar Hadoop a 1.0, y después Se necesitaron innumerables grandes empresas, incluidas Yahoo, Facebook y BAT, para actualizarlo y parcharlo constantemente antes de que se estabilizara. Hadoop2 solo existe desde hace menos de un año y no se ha sometido a pruebas ni operaciones estables a largo plazo. Solo tomó un mes y medio actualizar Hadoop de 2.3 a 2.4 y se corrigieron más de 400 errores.