Red de conocimiento informático - Material del sitio web - ¿Qué conocimientos se necesitan para aprender big data?

¿Qué conocimientos se necesitan para aprender big data?

En el artículo anterior, le brindamos una breve introducción a algunos requisitos de habilidades básicas para los ingenieros de operación y mantenimiento de big data. Echemos un vistazo a la siguiente capacitación de TI para descubrir qué conocimientos necesita saber en las diferentes etapas de aprendizaje al aprender big data.

Etapa de almacenamiento de datos: SQL, Oracle, IBM, etc. tienen cursos relacionados. Dependiendo de la empresa, si aprendes las herramientas de desarrollo de estas empresas, básicamente puedes estar calificado para el puesto en esta etapa. .

Limpieza y detección de minería de datos: los ingenieros de big data necesitan aprender JAVA, Linux, SQL, Hadoop, sistema de serialización de datos Avro, almacén de datos Hive, base de datos distribuida HBase, almacén de datos Hive, marco de registro distribuido Flume, Kafka Curso de sistema de colas distribuidas, migración de datos Sqoop, desarrollo de cerdos, procesamiento de datos en tiempo real de Storm. Después de aprender lo anterior, básicamente puede comenzar como ingeniero de big data. Si desea tener un mejor punto de partida, se recomienda aprender programación Scala, Spark, lenguaje R y otras habilidades básicas que son más profesionales en la empresa. la etapa inicial.

Análisis de datos: por un lado, consiste en construir un marco de análisis de datos, como determinar las ideas de análisis que requieren conocimientos teóricos como marketing y gestión, y proporcionar sugerencias de análisis instructivas basadas en los datos; conclusiones del análisis.

Ajuste del producto: los datos analizados se entregarán al jefe y al PM para actualizar el producto después de la consulta, y luego se entregarán a los programadores para su modificación (la categoría de bienes de consumo de rápido movimiento se ajustará en los estantes ).

Entonces, aprendamos sobre las tecnologías que big data necesita dominar

Núcleo de Hadoop

(1) Piedra angular del almacenamiento distribuido: HDFS

Introducción a HDFS Análisis de la composición y principio de funcionamiento de la demostración introductoria: bloque de datos, NameNode, DataNode, proceso de escritura y lectura de datos, replicación de datos, solución HA, tipo de archivo, configuración común de HDFS Demostración del código JavaAPI

(2) Conceptos básicos de Computación Distribuida: MapReduce

Introducción a MapReduce, modelo de programación, introducción a la API de Java, introducción a casos de programación, ajuste de MapReduce

(3) Administrador de recursos del clúster Hadoop: YARN

Marco informático del algoritmo de programación del proceso de programación de recursos de la arquitectura básica de YARN en YARN