Red de conocimiento informático - Material del sitio web - El desarrollo de big data tiene mucho conocimiento.

El desarrollo de big data tiene mucho conocimiento.

La primera etapa: tecnología de arquitectura ecológica de Hadoop

1, base del lenguaje

Java: comprensión y práctica de la gestión de memoria, subprocesos múltiples, grupos de subprocesos, patrones de diseño y paralelización en Java virtual máquina Eso es suficiente, no se requiere un dominio profundo.

Linux: instalación del sistema, comandos básicos, configuración de red, editor Vim, gestión de procesos, scripts Shell, familiaridad con el menú de la máquina virtual, etc.

Python: Conocimientos básicos de sintaxis básica, estructuras de datos, funciones, juicios condicionales, bucles, etc.

2. Preparación del entorno

Este artículo presenta cómo configurar una computadora Windows completamente distribuida con 1 maestro y 2 esclavos.

Aquí se preparan las máquinas virtuales VMware, los sistemas Linux (Centos6.5), los paquetes de instalación de Hadoop y los entornos de clúster totalmente distribuidos de Hadoop.

3. MapReduce

El marco informático distribuido fuera de línea MapReduce es el modelo de programación central de Hadoop.

4. HDFS1.0/2.0

HDFS puede proporcionar acceso a datos de alto rendimiento y es adecuado para aplicaciones en conjuntos de datos a gran escala.

5. Yarn (Hadoop2.0)

Yarn es una plataforma de programación de recursos, responsable principalmente de asignar recursos a las tareas.

6. Hive

Hive es un almacén de datos y todos los datos se almacenan en HDFS. Hive se utiliza principalmente para escribir Hql.

7. Spark

Spark es un motor informático rápido de uso general especialmente diseñado para el procesamiento de datos a gran escala.

8. Spark Discharge

Spark Streaming es un marco de procesamiento en tiempo real y los datos se procesan en lotes.

9. Spark House

Spark, como motor informático de Hive, envía consultas de Hive como tareas de Spark al clúster de Spark para su cálculo, lo que puede mejorar el rendimiento de las consultas de Hive.

10. Storm

Storm es un marco informático en tiempo real. Storm procesa cada dato agregado en tiempo real, uno por uno, garantizando la puntualidad del procesamiento de datos.

11. Zookeeper

Zookeeper es la base de muchos marcos de big data y también es el administrador del clúster.

12. Hbase

Hbase es una base de datos Nosql altamente confiable, orientada a columnas, escalable y distribuida.

13. Kafka

Kafka es un middleware de mensajes que sirve como capa de búfer intermedia.

14. Flume

Flume comúnmente recopila datos de archivos de registro generados por aplicaciones. Generalmente hay dos procesos.

Una es almacenar los datos recopilados por Flume en Kafka, lo que facilita el procesamiento en tiempo real por parte de Storm o SparkStreaming.

Otro proceso consiste en almacenar los datos recopilados por Flume en HDFS para su procesamiento fuera de línea y su uso posterior con hadoop o spark.

La segunda etapa: algoritmo de minería de datos

1, segmentación de palabras chinas

Aplicaciones en línea y fuera de línea de tesauro de código abierto

2. Procesamiento del lenguaje natural

Algoritmos relacionados con el texto

3. Algoritmos de recomendación

Basados ​​en CB, CF, método de normalización, aplicación Mahout.

4. Algoritmo de clasificación

NB, SVM

5. Algoritmo de regresión

LR, árbol de decisión

6. Algoritmo de clustering

Clúster jerárquico, k-means

7. Red neuronal y aprendizaje profundo

Red neuronal, flujo tensorial