Red de conocimiento informático - Conocimiento informático - ¿Qué conocimientos deben dominar los principiantes para empezar a utilizar big data?

¿Qué conocimientos deben dominar los principiantes para empezar a utilizar big data?

Para aprender big data, principalmente necesita sentar las bases en la etapa inicial, incluidos los conceptos básicos de Java y Linux, y luego ingresará oficialmente al aprendizaje por fases de la tecnología de big data.

El aprendizaje de Linux es principalmente para prepararse para construir un entorno de clúster de big data, por lo que los comandos del sistema Linux y la programación de shell son los contenidos principales que deben dominarse.

Java, principalmente Java SE, implica una gran cantidad de contenido que debe dominarse, incluido el dominio de variables, estructuras de control, bucles, encapsulación orientada a objetos, etc. en el lenguaje Java; flujos de IO, estructura de datos y otros contenidos; reflexión maestra, análisis xml, sockets, subprocesos y bases de datos, etc.

Con Java EE, no hay mucho contenido que deba dominarse. Dominar html, css, js, protocolo http, servlet, etc. es dominar Maven, spring, spring mvc, mybatis, etc. básicamente suficiente.

Después de tener la base anterior, puede comenzar a aprender sobre el marco de la tecnología de big data, usar el sistema Linux para construir un clúster distribuido de Hadoop, usar Hadoop para desarrollar programas distribuidos, usar Zookeeper para construir Hadoop HA de alta disponibilidad y Shell. llamadas de scripts, etc. Tener una comprensión preliminar del marco de tecnología de big data.

Para Hadoop, los componentes relacionados del sistema deben aprenderse y dominarse paso a paso, incluida la comprensión y el dominio de los principios del marco Mapreduce, el uso de Mapreduce para el análisis de datos fuera de línea y el uso de Hive para almacenar y analizar datos masivos. y usando el almacenamiento de bases de datos MySQL La información de metadatos usa expresiones regulares, usa scripts de Shell, usa Mapreduce y Hive para completar el desarrollo de algunas funciones del proyecto Weibo y aprende a usar flume, etc.

Poder instalar CRUd, instalar Kafka, usar comandos de clúster comunes y API de Java para diferentes escenarios de la base de datos hbase, poder usar el lenguaje Scala para sentar las bases para el desarrollo posterior de proyectos Spark y aprender a usarlo. sqoop;

p>

Necesita dominar la programación de Spark Core para el procesamiento por lotes sin conexión, SparkSQL para consultas interactivas, SparkStreaming para operaciones de transmisión en tiempo real, comprensión profunda de los principios de Spark y conocimientos relacionados con los parámetros de Spark. puesta a punto y operación y mantenimiento.

En cuanto al conocimiento que los principiantes deben dominar para comenzar con big data, el editor de Qingteng lo compartirá con usted aquí. Si tiene un gran interés en la ingeniería de big data, espero que este artículo pueda ayudarle. Si desea saber más sobre las habilidades y materiales de los analistas de datos y los ingenieros de big data, puede hacer clic en otros artículos de este sitio para obtener más información.