¿Qué necesitan aprender los ingenieros de big data?
Java: siempre que comprenda algunos conceptos básicos, hacer big data no requiere tecnología Java profunda. Aprender Java SE equivale a aprender big data.
Linux: debido a que todo el software relacionado con big data se ejecuta en Linux, necesita aprender Linux de manera más sólida. Aprender bien Linux le será de gran ayuda para dominar rápidamente las tecnologías relacionadas con big data, lo que le permitirá. Una mejor comprensión del entorno operativo y la configuración del entorno de red del software de big data como hadoop, hive, hbase, spark, etc. puede evitar muchos problemas. Aprender que el shell puede comprender scripts, lo que facilita la comprensión y configuración de los clústeres de big data. .
Hadoop: esta es una plataforma popular de procesamiento de big data y casi se ha convertido en sinónimo de big data, por lo que es algo que debes aprender.
Zookeeper: esta es una panacea. Se utilizará al instalar Hadoop HA y Hbase también lo utilizará en el futuro.
Mysql: hemos terminado de aprender el procesamiento de big data. A continuación, aprenderemos la base de datos mysql, una pequeña herramienta de procesamiento de datos, porque se utilizará al instalar Hive. ¿Se puede dominar? Puede instalarlo en Linux, ejecutarlo, configurar permisos simples, cambiar la contraseña de root y crear una base de datos.
Sqoop: Se utiliza para importar datos de Mysql a Hadoop.
Hive: esto es un artefacto para aquellos que conocen la sintaxis SQL. Hace que el procesamiento de big data sea muy simple.
Oozie: ahora que has aprendido Hive, creo que lo aprenderás si lo haces. Si necesita esto, puede ayudarlo a administrar sus scripts de Hive o MapReduce, Spark y verificar si su programa se ejecuta correctamente.
Hbase: Esta es la base de datos NOSQL en el ecosistema Hadoop. Sus datos se almacenan en forma de clave y valor y la clave es única, por lo que se puede utilizar para la deduplicación de datos. Puede almacenar cantidades de datos mucho mayores que MYSQL.
Kafka: Esta es una herramienta de colas relativamente fácil de usar.
Spark: Se utiliza para compensar las deficiencias en la velocidad de procesamiento de datos basado en MapReduce.
Haga clic para ingresar la descripción de la imagen