Red de conocimiento informático - Material del sitio web - ¿Qué software necesitas para aprender a aprender big data?

¿Qué software necesitas para aprender a aprender big data?

El aprendizaje de big data generalmente se divide en las siguientes etapas:

Fase 1: Conceptos básicos de Big Data

Conceptos básicos de Java - Conceptos básicos de la sintaxis de Java. Dominar la configuración del entorno de desarrollo JAVA y los conocimientos básicos, etc. Capaz de utilizar hábilmente la codificación de sintaxis lógica

Estructuras de datos: matrices, listas enlazadas, pilas, colas, clasificación, búsquedas binarias, tablas hash, árboles bifurcados, árboles rojo-negro, árboles recursivos, montones y pilas. Continuar mejorando los conocimientos informáticos de todos y dominar inicialmente los algoritmos.

Conceptos básicos de MySQL: instalación de MySQL, sentencias SQL básicas, optimización de SQL. Dominar las aplicaciones básicas de bases de datos.

Javaweb: tomacat, servlet, JSP, MVC. Domine el desarrollo de redes y comprenda las fuentes de datos

Java avanzado: programación de redes orientada a objetos, reflexión y subprocesos múltiples. Comprender los principios operativos de los programas distribuidos y sentar las bases para la lectura futura de marcos de big data.

Conceptos básicos de Linux: instalación de máquinas virtuales, comandos comunes de Linux, scripts de shell. Aprenda a utilizar el sistema operativo Linux y prepárese para implementar clústeres de big data.

Fase 2: Marco de Big Data

Hadoop: almacenamiento distribuido, informática distribuida, interfaz pública común. Domine la implementación de grandes grupos de datos y sea competente en la redacción de programas de reducción de mapas.

Zookeeper: mecanismo de coordinación y mecanismo de elección de Zookeeper. Cree clústeres de alta disponibilidad.

Hive - Construcción de almacén de datos, importación y análisis de datos. Comprender preliminarmente el concepto de almacén de datos y prepararse para el posterior almacén de datos a nivel empresarial.

Hbase: construcción del clúster Hbase, principio de funcionamiento de la base de datos de big data, almacenamiento en columnas, desarrollo de aplicaciones de alto rendimiento. Domine la aplicación de base de datos de big data Hbase, el diseño científico de claves de fila y el procesamiento de datos en caliente.

Kafka: obtenga información sobre colas de mensajes, implementación de clústeres de Kafka, construcción de marcos de recopilación de datos de alta concurrencia y alta disponibilidad. Domine el diseño de sistemas de colas de datos de alta concurrencia y sea capaz de manejar problemas pico.

Scala: conceptos básicos de sintaxis de Scala, operadores comunes, comunicación asincrónica. Domine el excelente lenguaje de procesamiento de datos Scala

Spark: configuración del clúster Spark, procesamiento de datos fuera de línea, procesamiento de datos en tiempo real, aprendizaje automático y computación gráfica. Master Spark, una solución de pila única que es el módulo central de big data.

Marcos auxiliares de uso común: Sqoop, Flume, Presto, impala, Phoenix, oozie, ElasticSearch, Kirin, MongoDB, Redi, Druid. Domine herramientas comunes y coopere con marcos de big data estrechamente relacionados con big data para mejorar la eficiencia del trabajo y ampliar las funciones del marco.

Fase 3: Aprendizaje automático

Conceptos básicos de Python: sintaxis básica de Python, orientada a objetos, Numpy. Dominar la sintaxis básica de Python y los marcos básicos relacionados con el aprendizaje automático.

Conceptos básicos de matemáticas: álgebra lineal, cálculo, probabilidad, optimización convexa. Basta entender esta parte, es muy importante para optimizar el modelo.

Algoritmos de uso común: regresión, KNN, árbol de decisión, agrupamiento, aprendizaje integral, SVM, clasificación múltiple, bayesiano, EM, modelo de matriz criptográfica, aprendizaje profundo. Domine los principios de los algoritmos de aprendizaje informático de uso común, sea capaz de seleccionar modelos apropiados en función de las características de los datos y entrenar modelos con sólidas capacidades de generalización.

Fase 4: Práctica del proyecto

Cloud and Data ha abierto una especialización en big data. Puedes conocerla y ver el desarrollo laboral de esta especialización.