El desarrollo de big data tiene mucho conocimiento.
1, base del lenguaje
Java: comprensión y práctica de la gestión de memoria, subprocesos múltiples, grupos de subprocesos, patrones de diseño y paralelización en Java virtual máquina Eso es suficiente, no se requiere un dominio profundo.
Linux: instalación del sistema, comandos básicos, configuración de red, editor Vim, gestión de procesos, scripts Shell, familiaridad con el menú de la máquina virtual, etc.
Python: Conocimientos básicos de sintaxis básica, estructuras de datos, funciones, juicios condicionales, bucles, etc.
2. Preparación del entorno
Este artículo presenta cómo configurar una computadora Windows completamente distribuida con 1 maestro y 2 esclavos.
Aquí se preparan las máquinas virtuales VMware, los sistemas Linux (Centos6.5), los paquetes de instalación de Hadoop y los entornos de clúster totalmente distribuidos de Hadoop.
3. MapReduce
El marco informático distribuido fuera de línea MapReduce es el modelo de programación central de Hadoop.
4. HDFS1.0/2.0
HDFS puede proporcionar acceso a datos de alto rendimiento y es adecuado para aplicaciones en conjuntos de datos a gran escala.
5. Yarn (Hadoop2.0)
Yarn es una plataforma de programación de recursos, responsable principalmente de asignar recursos a las tareas.
6. Hive
Hive es un almacén de datos y todos los datos se almacenan en HDFS. Hive se utiliza principalmente para escribir Hql.
7. Spark
Spark es un motor informático rápido de uso general especialmente diseñado para el procesamiento de datos a gran escala.
8. Spark Discharge
Spark Streaming es un marco de procesamiento en tiempo real y los datos se procesan en lotes.
9. Spark House
Spark, como motor informático de Hive, envía consultas de Hive como tareas de Spark al clúster de Spark para su cálculo, lo que puede mejorar el rendimiento de las consultas de Hive.
10. Storm
Storm es un marco informático en tiempo real. Storm procesa cada dato agregado en tiempo real, uno por uno, garantizando la puntualidad del procesamiento de datos.
11. Zookeeper
Zookeeper es la base de muchos marcos de big data y también es el administrador del clúster.
12. Hbase
Hbase es una base de datos Nosql altamente confiable, orientada a columnas, escalable y distribuida.
13. Kafka
Kafka es un middleware de mensajes que sirve como capa de búfer intermedia.
14. Flume
Flume comúnmente recopila datos de archivos de registro generados por aplicaciones. Generalmente hay dos procesos.
Una es almacenar los datos recopilados por Flume en Kafka, lo que facilita el procesamiento en tiempo real por parte de Storm o SparkStreaming.
Otro proceso consiste en almacenar los datos recopilados por Flume en HDFS para su procesamiento fuera de línea y su uso posterior con hadoop o spark.
La segunda etapa: algoritmo de minería de datos
1, segmentación de palabras chinas
Aplicaciones en línea y fuera de línea de tesauro de código abierto
2. Procesamiento del lenguaje natural
Algoritmos relacionados con el texto
3. Algoritmos de recomendación
Basados en CB, CF, método de normalización, aplicación Mahout.
4. Algoritmo de clasificación
NB, SVM
5. Algoritmo de regresión
LR, árbol de decisión
6. Algoritmo de clustering
Clúster jerárquico, k-means
7. Red neuronal y aprendizaje profundo
Red neuronal, flujo tensorial