¿Qué estudias principalmente en la especialidad de big data?
Los estudiantes de big data aprenden principalmente:
1. Tecnología de programación Java
La tecnología de programación Java es la base del aprendizaje de big data. Java es un lenguaje fuertemente tipado. Tiene capacidades multiplataforma extremadamente altas y puede escribir aplicaciones de escritorio, aplicaciones web, sistemas distribuidos y aplicaciones de sistemas integrados. Por lo tanto, si desea aprender bien sobre big data, debe dominar los conceptos básicos. ¡Java es la clave!
2.Comandos de Linux
El desarrollo de big data generalmente se lleva a cabo en el entorno Linux. En comparación con el sistema operativo Linux, el sistema operativo Windows es cerrado. Sistema operativo, el software de big data de código abierto es muy limitado, por lo que si desea participar en trabajos relacionados con el desarrollo de big data, debe dominar los comandos operativos básicos de Linux.
3. Hadoop
Hadoop es un marco importante para el desarrollo de big data. Su núcleo es HDFS y MapReduce proporciona almacenamiento para datos masivos. por lo tanto, debe concentrarse en dominar. Además, también debe dominar las tecnologías y operaciones relacionadas, como el clúster de Hadoop, la administración del clúster de Hadoop, YARN y la administración avanzada de Hadoop.
4.
Hive es una herramienta de almacenamiento de datos basada en Hadoop. Puede asignar archivos de datos estructurados a una tabla de base de datos y proporcionar funciones de consulta SQL simples. Puede convertir declaraciones SQL en tareas de MapReduce para su ejecución, lo cual es muy adecuado para el análisis estadístico de datos. almacenes. Para Hive, es necesario dominar su instalación, aplicación y operaciones avanzadas.
5. Avro y Protobuf
Avro y Protobuf son sistemas de serialización de datos que pueden proporcionar una variedad de tipos de estructuras de datos, que son muy adecuados para el almacenamiento de datos y también se pueden utilizar para Almacenamiento de datos entre diferentes idiomas. Formato de intercambio de datos para la comunicación mutua. Para aprender big data, es necesario dominar su uso específico.
6.ZooKeeper
ZooKeeper es un componente importante de Hadoop y Hbase. Es un software que proporciona servicios consistentes para aplicaciones distribuidas. Las funciones proporcionadas incluyen: mantenimiento de configuración, servicios de nombres de dominio. , Sincronización distribuida, servicios de componentes, etc. En el desarrollo de big data, debe dominar los comandos comunes y los métodos de implementación de funciones de ZooKeeper.
7. HBase
HBase es una base de datos distribuida y de código abierto orientada a columnas. Se diferencia de las bases de datos relacionales generales y es más adecuada para el almacenamiento de datos no estructurados. -Sistema de almacenamiento distribuido escalable, orientado a columnas y de rendimiento. El desarrollo de big data requiere dominar los conocimientos básicos, las aplicaciones, la arquitectura y el uso avanzado de HBase.
8.phoenix
phoenix es un motor SQL de código abierto escrito en Java basado en la API JDBC para operar HBase. Tiene columnas dinámicas, carga hash, servidor de consultas, seguimiento. , transacciones, usuarios Funciones personalizadas, índices secundarios, mapeo de espacios de nombres, recopilación de datos, columnas de marca de tiempo de fila, consultas de paginación, consultas de salto, vistas y funciones multiinquilino, el desarrollo de big data requiere dominar sus principios y uso.
9. Redis
Redis es un sistema de almacenamiento de valores clave. Su aparición ha compensado en gran medida las deficiencias del almacenamiento de claves/valores, como Memcached. utilizado para bases de datos relacionales. Desempeña un muy buen papel complementario. Proporciona clientes Java, C/C, C#, PHP, JavaScript, Perl, Object-C, Python, Ruby, Erlang, lo cual es muy conveniente de usar.
10. Flume
Flume es un sistema distribuido de alta disponibilidad y confiabilidad para recopilar, agregar y transmitir registros masivos. Flume admite la personalización de varios tipos de datos en el sistema de registro. el remitente se utiliza para recopilar datos; al mismo tiempo, Flume brinda la capacidad de procesar los datos simplemente y escribirlos en varios destinatarios de datos (personalizable). El desarrollo de big data requiere dominar su instalación, configuración y métodos de uso relacionados.