Red de conocimiento informático - Material del sitio web - ¿Qué conocimientos básicos debería dominar en el análisis de big data?

¿Qué conocimientos básicos debería dominar en el análisis de big data?

Prólogo, para aprender big data, primero debe cambiar su computadora:

Asegúrese de que la computadora tenga 4 núcleos, memoria 8G y un sistema operativo de 64 bits. Intente usar SSD como disco del sistema; perderás la confianza. Cuanto más grande sea el disco duro, mejor.

1. Requisitos de idioma

Javase era necesario cuando se lanzó Java por primera vez.

Scala es el uso básico de Learning Spark.

Requisitos detallados posteriores:

Java NIO, netty, multiproceso, ClassLoader, capa inferior y ajuste de jvm, rpc.

2. Requisitos del sistema operativo

El uso de scripts de shell básicos de Linux.

Crontab es el más utilizado.

Cpu, memoria, red, disco y otras herramientas de visualización de estado y análisis de cuellos de botella.

Configuración y uso de scp, ssh y host.

Utilice comandos de solución de problemas de red como telnet y ping.

3. Uso básico de sql

Sql es la base, hive, sparksql, etc. Todos son necesarios y la mayoría de las empresas todavía se centran en almacenes de datos, por lo que SQL es indispensable.

Estadísticas SQL, ordenación, conexión, agrupación, etc. , luego ajuste de declaraciones SQL, diseño de tablas, etc.

4. Conocimientos básicos de big data

Zookeeper, hadoop, hbase, hive, sqoop, flume, kafka, spark, storm, etc. Debe dominar el papel de estos marcos y la construcción del entorno básico, y debe dominar la operación, el mantenimiento y el análisis de cuellos de botella.

5. Mapreduce y los marcos relacionados hive y sqoop

Comprender profundamente las ideas centrales de mapreduce. Especialmente barajar, unir, formatos de entrada de archivos, mapear números, restas, ajustar y más.

6.hive, hbase y otros almacenes.

Hive y hbase son básicamente los estándares para grandes almacenes de datos. Si quieres utilizarlo, sabes cómo ajustarlo y cómo disponerlo.

Hbase, mira esta ola. Serie de artículos hbase. Hive se actualizará más tarde.

7. Uso de colas de mensajes

Conceptos básicos, usos y análisis de cuellos de botella de Kafka. Vea la serie de Kafka sobre Waves.

8. Sistema de procesamiento en tiempo real

Flujo de tormentas y chispas

9. Spark core y sparksql

Spark se utiliza sin conexión. análisis.

10. Decisión final de dirección

a), operación y mantenimiento. (Competente en todo el sistema y la resolución de problemas, y puede escribir scripts de operación y mantenimiento).

b), análisis de datos. (Competente en algoritmos)

c), desarrollo de plataformas. (Competente en código fuente)

¿Autoestudio o formación?

Los estudiantes que no tengan conocimientos básicos deben hacer un vídeo antes de entrenar para evitar que el entrenamiento a ciegas no pueda seguir el ritmo del profesor y pierda tiempo, energía y dinero.

Si tienes los conocimientos básicos, intenta adquirir algo de ciencia básica en vídeo y luego comunícate con los expertos del grupo, si están dispuestos.

Encontrar maneras de ser amigo de Daniel es la mejor manera.