Red de conocimiento informático - Material del sitio web - ¿Qué necesitas aprender sobre big data?

¿Qué necesitas aprender sobre big data?

La especialización en Big Data es una dirección de aprendizaje técnico. Esta especialización es una materia interdisciplinaria y cubre una amplia gama de contenidos de aprendizaje. Entre ellos, la estadística, las matemáticas y la informática son las tres disciplinas pilares de apoyo, y la biología. La medicina, las ciencias ambientales, la economía, la gestión, etc. sirven como expansión auxiliar. Además, también necesita aprender recopilación de datos, análisis de datos, software de procesamiento de datos y lenguajes de programación de computadoras. Diferentes trabajos y direcciones requieren diferentes tareas, por eso se han creado muchos puestos. Las direcciones de desarrollo de big data más comunes son el desarrollo de big data y el análisis de big data.

Repasemos los conceptos básicos necesarios para aprender big data

1 Java SE, EE (SSM)

El 90 % de los marcos de big data están escritos en. Java

2. MySQL

SQL en Hadoop

3. Linux

El marco de big data está instalado en el sistema operativo Linux <. /p>

- Lo que necesita aprender

Análisis fuera de línea de big data

Generalmente procesa datos T+1 (T: puede ser 1 día, semana, mes, año)

a. Hadoop: generalmente no utiliza la última versión y es difícil resolver los problemas

(comunes, HDES, MapReduce, YARN)

Construcción del entorno y procesamiento de datos La idea

b. Hive: almacén de datos para big data

Operar datos escribiendo SQL, similar al sql de la base de datos MySQL

c.HBase: Base de datos NOSQL basada en HDFS

Orientada al almacenamiento en columnas

d, framework de colaboración:

sqoop (puente: HDFS《==》RDBMS). )

flume: recopila información en archivos de registro

e, marco de programación

anzkaban

Entiende: crotab (viene con Linux)

zeus (Alibaba)

Oozie (cloudera)

f, extensiones de framework de última generación:

kylin, impala, ElasticSearch (ES )

Análisis en tiempo real de big data

Basado principalmente en Spark Framework

Scala: OOP (programación orientada a objetos) + FP (la función es programación)

sparkCore: analogía con MapReduce

sparkSQL: analogía con hive

sparkStreaming: procesamiento de datos en tiempo real

kafka: cola de mensajes

Extensión del marco Frontier: flink

p>

Alibaba: flash

Aprendizaje automático de big data

spark MLlib: biblioteca de aprendizaje automático

Programación pyspark: combinación de Python y Spark

p>

Sistema de recomendación

análisis de datos de Python

aprendizaje automático de Python