¿Qué conocimientos deben dominar los principiantes para comenzar con big data?
El aprendizaje de Linux es principalmente para prepararse para construir un entorno de clúster de big data, por lo que los comandos del sistema Linux y la programación de shell deben dominarse como contenido principal.
Java es principalmente Java SE, que implica una gran cantidad de contenido que debe dominarse, incluido el dominio de variables, estructuras de control, bucles, encapsulación orientada a objetos, etc. del lenguaje Java; , flujos de IO, estructuras de datos, etc.; dominar Reflection, análisis xml, sockets, subprocesos y bases de datos, etc.
En Java EE, no hay mucho contenido que deba dominarse. Dominar html, css, js, protocolo http, servlet, etc. es dominar Maven, spring, spring mvc, mybatis, etc. básicamente suficiente.
Después de tener la base anterior, ingrese al marco de tecnología de big data para aprender, use el sistema Linux para construir clústeres distribuidos de Hadoop, use Hadoop para desarrollar programas distribuidos, use Zookeeper para construir Hadoop HA de alta disponibilidad, script Shell llamadas, etc. Tener una comprensión preliminar del marco de la tecnología de big data.
Para Hadoop, los componentes relacionados del sistema deben aprenderse y dominarse paso a paso, incluida la comprensión y el dominio de los principios del marco Mapreduce, el uso de Mapreduce para analizar datos fuera de línea y el uso de Hive para almacenar y analizar datos masivos. Use expresiones regulares para almacenar información de metadatos en la base de datos MySQL, use scripts de Shell, use Mapreduce y Hive para completar el desarrollo de algunas funciones de proyectos de Weibo, aprenda a usar flume, etc.
Poder realizar CRUD de datos en diferentes escenarios de la base de datos hbase, instalar Kafka, usar comandos de clúster comunes y usar la API de Java. Ser capaz de usar el lenguaje Scala para sentar las bases para el desarrollo posterior de proyectos Spark y aprender a hacerlo. use sqoop
Domine la programación de Spark Core para el procesamiento por lotes sin conexión y SparkSQL para consultas interactivas.
Domine la programación de Spark Core para el procesamiento por lotes fuera de línea, SparkSQL para consultas interactivas, SparkStreaming para el cálculo de flujo en tiempo real, comprensión profunda de los principios de Spark y conocimiento sobre el ajuste, la operación y el mantenimiento de los parámetros de Spark.
En cuanto a los conocimientos que los principiantes deben dominar para comenzar con big data, el editor Qingteng lo compartirá con usted aquí. Si tiene un gran interés en la ingeniería de big data, espero que este artículo le resulte útil. Si desea saber más sobre las habilidades y la información de los analistas de datos y los ingenieros de big data, puede hacer clic en otros artículos de este sitio para obtener más información.