Red de conocimiento informático - Material del sitio web - ¿Cuál es la ruta de aprendizaje de big data?

¿Cuál es la ruta de aprendizaje de big data?

Se divide principalmente en 7 etapas: conocimiento introductorio → Conceptos básicos de Java → Conceptos básicos de Scala → Módulo de tecnología Hadoop → Práctica del proyecto Hadoop → Módulo de tecnología Spark → Práctica del proyecto Big Data.

Fase 1: Aprendizaje de conocimientos introductorios

Esta parte está dirigida principalmente a principiantes, que necesitan dominar los conocimientos básicos de bases de datos antes de aprender. MySQL es un DBMS (sistema de gestión de bases de datos) y el sistema de gestión de bases de datos relacionales más popular (una base de datos relacional es una base de datos basada en el modelo de base de datos relacional, que utiliza conceptos y métodos como el álgebra de conjuntos para procesar datos en la base de datos).

MongoDB es una base de datos no relacional (NoSQL) muy popular en la industria de TI, y los profesionales de TI actuales prefieren su método de almacenamiento de datos flexible.

Y Redis es una base de datos de almacenamiento de pares clave-valor basada en memoria, habilitada para red y de código abierto. Es muy necesario saber ambos.

1. Introducción básica a Linux (nueva versión)

2. Editor Vim

3. Tutorial práctico de Git

4. Cursos básicos

5. Tutorial básico de MongoDB

6. ¿Tutorial básico de Redis?

Fase 2: Conceptos básicos de Java

Java es actualmente el más utilizado Un lenguaje de programación amplio con muchas características que lo hacen particularmente adecuado como lenguaje de desarrollo para aplicaciones de big data.

El lenguaje Java tiene dos características: funciones potentes y simple y fácil de usar. Sus capacidades de aplicación multiplataforma son más fáciles de usar y de comenzar que C y C++. Al mismo tiempo, también tiene las características de simplicidad, orientación a objetos, distribución, robustez, seguridad, independencia y portabilidad de plataforma, subprocesos múltiples y dinámica. Lo más importante es que Hadoop está escrito en Java.

1. Lenguaje de programación Java (nueva versión)

2. Patrones de diseño avanzados de Java

3. Práctica de desarrollo central J2SE

4. . JDK Core API

5. Tutorial de introducción a JDBC

6. Guía de nuevas funciones de Java 8

Fase 3: Conceptos básicos de Scala

Scala es un lenguaje de programación multiparadigma diseñado para integrar varias características de la programación orientada a objetos y la programación funcional. Dado que Scala se ejecuta en la plataforma Java (Java Virtual Machine) y es compatible con los programas Java existentes, Scala puede integrarse bien con sistemas basados ​​en JVM relacionados con big data.

1. Tutorial de desarrollo de Scala

2. Tutorial especial de Scala: coincidencia de patrones y clases de casos

3. Tutorial especial de Scala: transformación implícita y parámetros implícitos

p>

4. Tutorial especial de Scala: miembro abstracto

5. Tutorial especial de Scala: extractor

6. Desarrollo de Scala del juego de veinticuatro puntos

Fase 4: módulo de tecnología Hadoop

Hadoop es un marco de software de código abierto que admite aplicaciones distribuidas con uso intensivo de datos y se lanza bajo el acuerdo de licencia Apache 2.0. Puede construir almacenes de datos a gran escala y almacenar PB-. a nivel de datos, procesamiento, análisis, estadísticas y otros servicios. Puede elegir el lenguaje de programación, pero Hadoop debe ser un contenido imprescindible para big data.

1. Curso avanzado de introducción a Hadoop

2. Implementación y gestión de Hadoop

3.Tutorial de HBASE

4. - importar y exportar datos

5. Utilice Flume para recopilar datos

Fase 5: práctica del proyecto Hadoop

Por supuesto, después de aprender la teoría, debe comenzar. práctica En la práctica, la práctica del proyecto Hadoop puede ayudarle a profundizar su comprensión del contenido y ejercitar sus habilidades prácticas.

1. Procesamiento de gráficos de Hadoop: "marco de aplicación de Hadoop" Etapa 6: módulo de tecnología Spark

Spark y Hadoop son marcos de big data. Hadoop proporciona funciones que Spark no ofrece, como un sistema de archivos distribuido, y Spark proporciona procesamiento en memoria en tiempo real para aquellos conjuntos de datos que lo requieren. Entonces aprender Spark también es muy necesario.

1. Spark

2. x tutorial de inicio rápido

2. Experimento práctico de big data de Spark

3. GraphX ​​Aprender el marco de computación gráfica

4. Aprender los conceptos básicos de DataFrame basado en Spark

5. Habilidades avanzadas de aplicación de DataFrame basado en Spark

6. Streaming basado en Spark Comience rápidamente

7. Comience rápidamente con SQL basado en Spark

8 Comience rápidamente con la biblioteca de aprendizaje automático MLlib basada en Spark

9. Comience rápidamente con SparkR basado en Spark

10. Sistema de análisis de registros de transmisión en tiempo real: "Mejores prácticas de Spark"

11. analizar big data de vuelo

Fase 7: práctica del proyecto de big data

La última etapa proporciona un proyecto de práctica de big data, que es la aplicación sistemática de habilidades comunes, como el uso del aprendizaje automático común para Modelado, análisis y cálculo, que es convertirse en un ingeniero de big data. Un paso importante en el proceso.

1. ¿Análisis de datos de subastas en línea de Ebay?

2. Sistema de análisis de registros de transmisión en tiempo real: "Spark Best Practices"

3. Sus secretos sobre la llamada de taxis

4. Análisis de sentimiento de los datos de Twitter

5. Utilice Spark para el análisis del registro de tráfico

6. atención Grado

7. Algoritmo de minería de patrones-FPGrowth de Spark

Información ampliada:

El contenido específico de la tecnología de big data:

Distribuido Arquitectura informática de almacenamiento (muy recomendable: Hadoop)

Programación distribuida (incluido: Apache Pig o Hive)

Sistema de archivos distribuido (como: Google GFS)

Múltiples modelos de almacenamiento, que incluyen principalmente documentos, gráficos, valores clave y modelos de almacenamiento de series temporales (como: BigTable, Apollo, DynamoDB, etc.)

Arquitectura de recopilación de datos (como: Kinesis, Kafla)

Entorno de desarrollo integrado (como: R-Studio)

Herramientas auxiliares de desarrollo de programas (como: una gran cantidad de herramientas auxiliares de desarrollo de terceros)

Programación y herramientas de arquitectura de coordinación (por ejemplo: Apache Aurora)

Aprendizaje automático (los más utilizados son Apache Mahout o H2O)

Gestión de hosting (por ejemplo: Apache Hadoop Benchmarking)

Gestión de seguridad (comúnmente se utiliza Gateway)

Implementación del sistema de big data (puede consultar Apache Ambari)

Arquitectura del motor de búsqueda (se recomienda utilizar el motor de búsqueda Lucene para estudios o empresas)

La evolución de varias bases de datos (MySQL/Memcached)

Inteligencia empresarial (muy recomendable: ¿Jaspersoft?)

Visualización de datos (hay muchas herramientas para esto, puede personalizarlo según las necesidades reales Selección)

Algoritmos de procesamiento de big data (10 algoritmos clásicos)