Red de conocimiento informático - Espacio del host - ¿Qué necesitas aprender para convertirte en un ingeniero de desarrollo de big data?

¿Qué necesitas aprender para convertirte en un ingeniero de desarrollo de big data?

1. Necesitas aprender los conceptos básicos de Java

Muchas personas sienten curiosidad por saber si necesitan aprender Java para aprender big data. Por un lado, Java es actualmente el lenguaje de programación más utilizado, tiene muchas características y es especialmente adecuado como lenguaje de desarrollo para aplicaciones de big data. Por otro lado, muchas tecnologías de procesamiento de big data se desarrollan en Java. como HBase, Accumulo y

ElasticSearchas basados ​​en Java de Apache, por lo que una de las primeras condiciones para aprender Hadoop es dominar la programación en lenguaje Java.

2. Lo que necesitas aprender es el sistema Linux y el ecosistema Hadoop.

Todo el marco de big data está construido en el sistema Linux, por lo que debes estar familiarizado con Linux. entorno de desarrollo. Hadoop es una plataforma de almacenamiento distribuido + informática distribuida de código abierto y una infraestructura de big data que puede construir grandes almacenes de datos y realizar almacenamiento, procesamiento, análisis, estadísticas y otros servicios de datos a nivel de PB. En esta etapa, debe dominar los componentes principales de Hadoop, incluido el sistema de archivos distribuido HDFS, el sistema de gestión de programación de recursos YARN y el marco informático distribuido MapReduce.

3. Lo que necesita aprender es el ecosistema Spark&Storm del marco de computación distribuida.

A medida que su aprendizaje se profundiza y tiene una cierta base, necesita aprender la tecnología de procesamiento de big data de Spark y Mlib. Conocimiento de aprendizaje automático, computación gráfica GraphX ​​y los conceptos básicos y principios de la arquitectura tecnológica Strom. Spark tiene grandes ventajas en términos de rendimiento y uniformidad de la solución, y puede realizar un procesamiento integral de big data: procesamiento de flujo de datos en tiempo real, procesamiento por lotes y consultas interactivas.