Red de conocimiento informático - Material del sitio web - ¿Qué enseña exactamente el big data? ¿Cuál es el marco principal?

¿Qué enseña exactamente el big data? ¿Cuál es el marco principal?

En primer lugar, aprender big data requiere una base en los lenguajes java, python y R.

1) ¿Hasta qué punto puedes aprender big data en Java?

Solo necesitas aprender javaSE para Java. Javaweb y Javaee no son útiles para big data. Una vez que aprenda Javase, podrá comprender el marco de Hadoop.

2) Python es el más fácil de aprender, nivel de dificultad: python java Scala.

¿No es Python más intuitivo y más fácil de entender que Java? Porque después de conocer Python, aún necesitas aprender Java. Una vez que aprendas Java, será muy sencillo aprender Python nuevamente. Python en una semana.

3) También se puede aprender el lenguaje R, pero no se recomienda porque la mayoría de la gente usa Java. El primer marco para big data, Hadoop, tiene todas las capas inferiores escritas en Java. Incluso si aprendo R, todavía no puedo entender Hadoop.

La función de Java en big data es formar el lenguaje de big data. El primer marco de big data, Hadoop y otros marcos de tecnología de big data, todos los lenguajes subyacentes están escritos. Java, por lo que se recomienda aprender Java como primera opción.

Ruta de aprendizaje sobre el desarrollo de big data:

La primera etapa: tecnología de arquitectura ecológica Hadoop

1. Conceptos básicos del lenguaje

Java: comprensión múltiple y Simplemente practique la administración de memoria de la máquina virtual Java, así como subprocesos múltiples, grupos de subprocesos, patrones de diseño y paralelización, y no se requiere un dominio profundo. .

Linux: Instalación del sistema, comandos básicos, configuración de red, editor Vim, gestión de procesos, scripts Shell, familiaridad con los menús de las máquinas virtuales, etc.

Python: Conocimientos básicos de sintaxis básica, estructuras de datos, funciones, juicios condicionales, bucles, etc.

2. Preparación del entorno

Aquí presentamos cómo construir un sistema completamente distribuido en una computadora con Windows, con 1 maestro y 2 esclavos.

Aquí se prepara la máquina virtual VMware, el sistema Linux (Centos6.5), el paquete de instalación de Hadoop y el entorno de clúster totalmente distribuido de Hadoop.

3. MapReduce

El marco informático distribuido fuera de línea MapReduce es el modelo de programación central de Hadoop.

4. HDFS1.0/2.0

HDFS puede proporcionar acceso a datos de alto rendimiento y es adecuado para aplicaciones en conjuntos de datos a gran escala.

5. Yarn (Hadoop2.0)

Yarn es una plataforma de programación de recursos, responsable principalmente de asignar recursos a las tareas.

6. Hive

Hive es un almacén de datos y todos los datos se almacenan en HDFS. Usar Hive es principalmente para escribir Hql.

7. Spark

Spark es un motor informático rápido y versátil diseñado para el procesamiento de datos a gran escala.

8. SparkStreaming

Spark Streaming es un marco de procesamiento en tiempo real y los datos se procesan lote por lote.

9. SparkHive

Spark es el motor informático de Hive. Enviar consultas de Hive como tareas de Spark al clúster de Spark para su cálculo puede mejorar el rendimiento de las consultas de Hive.

10. Storm

Storm es un marco informático en tiempo real. Storm procesa cada dato agregado en tiempo real, uno por uno, para garantizar la puntualidad del procesamiento de datos.

11. Zookeeper

Zookeeper es la base de muchos marcos de big data y es el administrador del clúster.

12. Hbase

Hbase es una base de datos Nosql, que es una base de datos altamente confiable, orientada a columnas, escalable y distribuida.

13. Kafka

Kafka es un middleware de mensajes y sirve como una capa de búfer intermedia.

14. Flume

Flume se utiliza comúnmente para recopilar datos de archivos de registro generados por aplicaciones. Generalmente hay dos procesos.

Una es que Flume recopila datos y los almacena en Kafka, lo que facilita el procesamiento en tiempo real por parte de Storm o SparkStreaming.

Otro proceso consiste en almacenar los datos recopilados por Flume en HDFS para su posterior procesamiento fuera de línea utilizando hadoop o spark.

La segunda etapa: algoritmo de minería de datos

1. Segmentación de palabras chinas

Aplicaciones en línea y fuera de línea de la biblioteca de segmentación de palabras de código abierto

2. Procesamiento del lenguaje natural

Algoritmo de correlación de texto

3. Algoritmo de recomendación

Basado en CB, CF, método de normalización, aplicación Mahout.

4. Algoritmo de clasificación

NB, SVM

5. Algoritmo de regresión

LR, DecisionTree

6. , Algoritmo de agrupamiento

Agrupación jerárquica, Kmeans

7 Red neuronal y aprendizaje profundo

NN, Tensorflow

Lo anterior es el aprendizaje A. Ruta detallada para el desarrollo de Hadoop. Si necesita conocer la tecnología de desarrollo del marco específico, puede consultar al profesor de big data de Jiamigu para obtener más detalles.

¿Qué tecnologías necesitas dominar para aprender a desarrollar big data?

(1) Conceptos básicos del lenguaje Java

Introducción al desarrollo de Java, familiaridad con las herramientas de desarrollo de Eclipse, conceptos básicos del lenguaje Java, control de procesos de Java, cadenas de Java, matrices, clases y objetos de Java, y procesamiento de números Clases y tecnologías centrales, E/S y reflexión, subprocesos múltiples, programas Swing y clases de colección

(2) HTML, CSS y Java

Diseño de sitio web para PC, HTML5+ Conceptos básicos de CSS3, diseño de páginas de aplicaciones web, desarrollo de funciones interactivas nativas de Java, interacción asíncrona Ajax, aplicación jQuery

(3) JavaWeb y base de datos

Base de datos, núcleo de desarrollo de JavaWeb, información privilegiada sobre el desarrollo de JavaWeb

Ecosistema Linux y Hadoop

Sistema Linux, esquema de computación fuera de línea de Hadoop, base de datos distribuida Hbase, almacén de datos Hive, herramienta de migración de datos Sqoop, marco de registro distribuido Flume

Marco de computación distribuida y Ecosistema Spark&Strom

(1) Marco de computación distribuida

Lenguaje de programación Python, lenguaje de programación Scala, procesamiento de big data Spark, procesamiento de big data Spark-Streaming, aprendizaje automático Spark-Mlib, Spark- Computación gráfica GraphX, Practical Combat 1: sistema de recomendación basado en Spark (proyecto real de una determinada empresa de primera línea), Practical Combat 2: Sina.com (www.sina.com.cn)

(2) Sistema de arquitectura de tecnología de tormenta

Principio y fundamento de la tormenta, cola de mensajes Kafka, herramienta Redis, explicación detallada del cuidador del zoológico, adquisición de datos reales del proyecto de big data, procesamiento de datos, análisis de datos, visualización de datos, aplicación de datos

大Análisis de datos: datos de IA (inteligencia artificial)

Analizar la preparación del entorno de trabajo y los conceptos básicos del análisis de datos, visualización de datos, aprendizaje automático de Python

Espero que las respuestas anteriores te será útil