¿Qué necesitas aprender sobre big data?
La especialización en Big Data es una dirección de aprendizaje técnico. Esta especialización es una materia interdisciplinaria y cubre una amplia gama de contenidos de aprendizaje. Entre ellos, la estadística, las matemáticas y la informática son las tres disciplinas pilares de apoyo, y la biología. La medicina, las ciencias ambientales, la economía, la gestión, etc. sirven como expansión auxiliar. Además, también necesita aprender recopilación de datos, análisis de datos, software de procesamiento de datos y lenguajes de programación de computadoras. Diferentes trabajos y direcciones requieren diferentes tareas, por eso se han creado muchos puestos. Las direcciones de desarrollo de big data más comunes son el desarrollo de big data y el análisis de big data.
Repasemos los conceptos básicos necesarios para aprender big data
1 Java SE, EE (SSM)
El 90 % de los marcos de big data están escritos en. Java
2. MySQL
SQL en Hadoop
3. Linux
El marco de big data está instalado en el sistema operativo Linux <. /p>
- Lo que necesita aprender
Análisis fuera de línea de big data
Generalmente procesa datos T+1 (T: puede ser 1 día, semana, mes, año)
a. Hadoop: generalmente no utiliza la última versión y es difícil resolver los problemas
(comunes, HDES, MapReduce, YARN)
Construcción del entorno y procesamiento de datos La idea
b. Hive: almacén de datos para big data
Operar datos escribiendo SQL, similar al sql de la base de datos MySQL
c.HBase: Base de datos NOSQL basada en HDFS
Orientada al almacenamiento en columnas
d, framework de colaboración:
sqoop (puente: HDFS《==》RDBMS). )
flume: recopila información en archivos de registro
e, marco de programación
anzkaban
Entiende: crotab (viene con Linux)
zeus (Alibaba)
Oozie (cloudera)
f, extensiones de framework de última generación:
kylin, impala, ElasticSearch (ES )
Análisis en tiempo real de big data
Basado principalmente en Spark Framework
Scala: OOP (programación orientada a objetos) + FP (la función es programación)
sparkCore: analogía con MapReduce
sparkSQL: analogía con hive
sparkStreaming: procesamiento de datos en tiempo real
kafka: cola de mensajes
Extensión del marco Frontier: flink
p>Alibaba: flash
Aprendizaje automático de big data
spark MLlib: biblioteca de aprendizaje automático
Programación pyspark: combinación de Python y Spark
p>
Sistema de recomendación
análisis de datos de Python
aprendizaje automático de Python