¿Cuáles son los principales contenidos de la ruta de aprendizaje de big data y de los cursos profesionales?
Big data es una serie de métodos de procesamiento para almacenar, calcular, realizar estadísticas, analizar y procesar datos masivos. La cantidad de datos procesados suele ser de nivel TB, o incluso de nivel PB o EB, que no pueden completarse con los métodos tradicionales de procesamiento de datos. Implica computación distribuida, procesamiento de alta concurrencia, procesamiento de alta disponibilidad, clústeres, computación en tiempo real, etc. Reúne las tecnologías de TI más populares en el campo de TI actual.
Para comenzar con big data, necesita conocer los siguientes puntos de conocimiento:
Primero, adjunte una hoja de ruta de aprendizaje resumida por usted mismo.
1.Tecnología de programación Java
La tecnología de programación Java es la base del aprendizaje de big data. Java es un lenguaje fuertemente tipado con altas capacidades multiplataforma. Puede escribir aplicaciones de escritorio, aplicaciones web, sistemas distribuidos y aplicaciones de sistemas integrados, etc. Es la herramienta de programación favorita de los ingenieros de big data. Por tanto, si quieres aprender bien sobre big data, es fundamental dominar los conceptos básicos de Java.
2.Comandos de Linux
El desarrollo de big data se suele realizar en entorno Linux. En comparación con el sistema operativo Linux, el sistema operativo Windows es un sistema operativo cerrado y el software de big data de código abierto es muy limitado. Por lo tanto, si desea participar en el desarrollo de big data, debe dominar los comandos operativos básicos de Linux.
3. Hadoop
Hadoop es un marco importante para el desarrollo de big data y su núcleo es HDFS y MapReduce. HDFS proporciona almacenamiento para datos masivos y MapReduce proporciona cálculo para datos masivos. Por lo tanto, debe dominar tecnologías y operaciones relacionadas, como el clúster de Hadoop, la administración de clústeres de Hadoop, YARN y la administración avanzada de Hadoop.
4. Hive
Hive es una herramienta de almacenamiento de datos basada en Hadoop. Puede asignar archivos de datos estructurados a una tabla de base de datos, proporcionar funciones de consulta SQL simples y convertir declaraciones SQL en Convert. a la tarea MapReduce y ejecútela. Ideal para análisis estadístico de almacenes de datos. Hive requiere dominar su instalación, aplicación y operaciones avanzadas.
5.Avro y Protobuf
Avro y Protobuf son sistemas de serialización de datos que pueden proporcionar tipos de estructuras de datos enriquecidos y son muy adecuados para el almacenamiento de datos. También pueden intercambiar formatos de datos entre diferentes idiomas. Para aprender big data, es necesario dominar su uso específico.
6. Zookeeper
ZooKeeper es una parte importante de Hadoop y Hbase. Es un software que proporciona servicios consistentes para aplicaciones distribuidas. Las funciones proporcionadas incluyen: mantenimiento de configuración, servicios de nombres de dominio, sincronización distribuida, servicios de componentes, etc. En el desarrollo de big data, es necesario dominar los comandos comunes de ZooKeeper y cómo implementar sus funciones.
7. HBase
HBase es una base de datos de código abierto distribuida y orientada a columnas. Es diferente de las bases de datos relacionales generales y es más adecuada para el almacenamiento de datos no estructurados. Se trata de un sistema de almacenamiento distribuido altamente confiable, de alto rendimiento, orientado a columnas y escalable. El desarrollo de big data requiere dominar los conocimientos básicos, las aplicaciones, la arquitectura y el uso avanzado de HBase.
Phoenix
Phoenix es un motor SQL de código abierto escrito en Java que ejecuta HBase basado en la API JDBC. Tiene características como columnas dinámicas, carga de hash, servidor de consultas, seguimiento, transacciones, funciones personalizadas, índices secundarios, mapeo de espacios de nombres, recopilación de datos, columnas de marca de tiempo de fila, consultas paginadas, consultas de omisión, vistas y multiinquilino. Dominar los principios y el uso del desarrollo de big data.
9.Redis
Redis es un sistema de almacenamiento de valores clave que compensa en gran medida las deficiencias del almacenamiento de valores clave como Memcached. Puede desempeñar un papel en bases de datos relacionales. Un gran complemento.
Proporciona clientes para Java, C/C, C#, PHP, JavaScript, Perl, Object-C, Python, Ruby, Erlang, etc. Es fácil de usar. El desarrollo de big data requiere dominar la instalación de Redis.
10. Flume
Flume es un sistema distribuido confiable y de alta disponibilidad para recopilar, agregar y transmitir registros masivos. Flume admite la personalización de varios remitentes de datos en el sistema de registro para recopilar datos al mismo tiempo, Flume brinda la capacidad de procesar datos simplemente y escribirlos en varios receptores de datos. El desarrollo de big data requiere dominar su instalación, configuración y métodos de uso relacionados.
11. SSM
El marco SSM es una integración de Spring, SpringMVC y MyBatis. A menudo se utiliza como marco para proyectos web con fuentes de datos simples. El desarrollo de big data requiere dominar Spring, SpringMVC y MyBatis respectivamente, y luego usar SSM para la integración.
12. Kafka
Kafka es un sistema de mensajería distribuida de publicación y suscripción de alto rendimiento. Su propósito en el desarrollo y aplicación de big data es proporcionar mensajes en tiempo real a través del clúster a través del mecanismo de carga paralela de Hadoop #039. El desarrollo de big data requiere dominar los principios de la arquitectura Kafka, las funciones y el uso de cada componente y la implementación de funciones relacionadas.
13. Scalar
Scala es un lenguaje de programación multiparadigma, un marco importante para el desarrollo de big data, está diseñado utilizando el lenguaje Scala. Para aprender bien el marco Spark, es esencial tener una base Scala. Por lo tanto, el desarrollo de big data requiere dominar los conocimientos básicos de programación Scala.
14. Spark
Spark es un motor informático rápido y general diseñado para el procesamiento de datos a gran escala. Proporciona un marco integral y unificado para gestionar las necesidades de procesamiento de big data en una variedad de conjuntos y fuentes de datos. El desarrollo de big data requiere dominar los conocimientos básicos de Spark, SparkJob, Spark RDD, implementación de trabajos y asignación de recursos de Spark, Spark shuffle, administración de memoria de Spark, variables de transmisión de Spark, Spark SQL, Spark Streaming y Spark ML.
Azkaban
Azkaban es un programador de tareas de flujo de trabajo por lotes que se puede utilizar para ejecutar un conjunto de trabajos y procesos en un orden específico dentro de un flujo de trabajo. Azkaban se puede utilizar para completar la programación de tareas de big data. El desarrollo de big data requiere dominar las reglas de configuración y sintaxis relevantes de Azkaban.
16. Python y el análisis de datos
Python es un lenguaje de programación orientado a objetos con bibliotecas ricas, fácil de usar y ampliamente utilizado. También se utiliza en el campo de big data, principalmente para recopilación, análisis y visualización de datos. Por lo tanto, es necesario adquirir algunos conocimientos de Python en el desarrollo de big data.
Haz clic para probar Heart of the King 2