¿Cómo puede un novato iniciarse en la industria de big data? ¿Qué conocimientos necesita para aprender sobre datos?
Introducción En el aprendizaje de big data, todo el mundo siempre ha concedido gran importancia a sentar las bases. Sólo cuando se establezcan las bases podremos beneficiarnos realmente del desarrollo posterior y crecer más rápido. Entonces, ¿cómo puede un novato comenzar en la industria de big data? ¿Qué conocimientos necesita para aprender sobre datos con el editor hoy?
Para aprender big data, principalmente necesita sentar. la base en la etapa inicial, incluidos los conceptos básicos de Java y Linux, y luego ingresará oficialmente al aprendizaje por etapas de la tecnología de big data.
El aprendizaje de Linux es principalmente para prepararse para construir un entorno de clúster de big data, por lo que los comandos del sistema Linux y la programación de shell son los contenidos principales que deben dominarse.
Java, principalmente Java
SE, implica una gran cantidad de contenido que debe dominarse, incluido el dominio de variables, estructuras de control, bucles, encapsulación orientada a objetos, etc. lenguaje; dominar la orientación a objetos, flujos IO, estructuras de datos, etc.; reflexión maestra, análisis xml, sockets, subprocesos, bases de datos, etc.
Java EE, no hay mucho contenido para dominar, dominar html, css, js, protocolo http, Servlet y otros contenidos para dominar Maven, spring, spring
mvc, mybatis y otros contenidos básicos Es suficiente.
Después de tener la base anterior, comience a aprender el marco de la tecnología de big data, use el sistema Linux para construir un clúster distribuido de Hadoop, use Hadoop para desarrollar programas distribuidos y use Zookeeper para construir Hadoop.
Alta disponibilidad de alta disponibilidad, llamadas de scripts de Shell, etc. Tener una comprensión preliminar del marco de la tecnología de big data.
Para Hadoop, los componentes relacionados del sistema deben aprenderse y dominarse paso a paso, incluida la comprensión y el dominio de los principios del marco Mapreduce, el uso de Mapreduce para el análisis de datos fuera de línea y el uso de Hive para almacenar y analizar datos masivos. y usando el almacenamiento de bases de datos MySQL La información de metadatos usa expresiones regulares, usa scripts de Shell, usa Mapreduce y Hive para completar el desarrollo de algunas funciones del proyecto Weibo y aprende a usar flume, etc.
Poder realizar datos crudos, instalación de Kafka y comandos comunes de clúster y Java para diferentes escenarios de la base de datos hbase.
El uso de API y la capacidad de usar el lenguaje Scala para sentar las bases. base para el desarrollo posterior de proyectos Spark, aprenda a usar sqoop;
Domine la programación principal de Spark para el procesamiento por lotes fuera de línea, SparkSQL para consultas interactivas, SparkStreaming para operaciones de transmisión en tiempo real, comprensión profunda de los principios de Spark, Ajuste de parámetros de chispa y conocimientos relacionados con la operación y mantenimiento.
Lo anterior es todo el contenido que el editor ha compilado y enviado hoy sobre "¿Cómo pueden los novatos comenzar en la industria de big data? ¿Qué conocimientos deberían aprender sobre los datos, espero que sean?" útil para todos. Como dice el refrán, nunca librarás una batalla sin estar preparado. En términos generales, con la aplicación de big data en muchas industrias, los ingenieros y desarrolladores con capacidades de tecnología de big data son muy populares. Espero que todos estén bien preparados antes de estudiar y se esfuercen lo suficiente como para no lograr excelentes resultados basados en su imaginación.