Red de conocimiento informático - Material del sitio web - ¿Qué tecnología se utiliza generalmente para aprender a analizar big data? ¿Qué tecnología es adecuada para el análisis de big data?

¿Qué tecnología se utiliza generalmente para aprender a analizar big data? ¿Qué tecnología es adecuada para el análisis de big data?

1. Tecnología de programación Java

La tecnología de programación Java es la base del aprendizaje de big data. Java es un lenguaje fuertemente tipado con capacidades multiplataforma extremadamente altas y puede escribir aplicaciones de escritorio. Las aplicaciones web, los sistemas distribuidos y las aplicaciones de sistemas integrados, etc., son las herramientas de programación favoritas de los ingenieros de big data. Por lo tanto, si desea aprender bien sobre big data, dominar los conceptos básicos de Java es esencial.

2. , Comandos de Linux

El desarrollo de big data generalmente se lleva a cabo en el entorno Linux. En comparación con el sistema operativo Linux, el sistema operativo Windows es un sistema operativo cerrado y el software de big data de código abierto es muy limitado. Me gustaría Para participar en trabajos relacionados con el desarrollo de big data, también es necesario dominar los comandos operativos básicos de Linux.

3. Hadoop

Hadoop es un marco importante para el desarrollo de big data. Su núcleo es HDFS y MapRece proporciona almacenamiento para datos masivos. por lo tanto, debe concentrarse en dominar. Además, también debe dominar las tecnologías y operaciones relacionadas, como el clúster de Hadoop, la administración del clúster de Hadoop, YARN y la administración avanzada de Hadoop.

4.

Hive es una herramienta de almacenamiento de datos basada en Hadoop. Puede asignar archivos de datos estructurados a una tabla de base de datos y proporcionar funciones de consulta SQL simples. Puede convertir declaraciones SQL en tareas de MapRece para su ejecución, lo cual es muy adecuado para el análisis estadístico de datos. almacenes. Para Hive, es necesario dominar su instalación, aplicación y operaciones avanzadas.

5.Avro ​​y Protobuf

Hive es una herramienta de almacenamiento de datos basada en Hadoop, que puede asignar archivos de datos estructurados a una tabla de base de datos y proporcionar funciones simples de consulta SQL. Puede convertir SQL. declaraciones en tareas de MapRece para su ejecución, que es muy adecuado para el análisis estadístico de almacenes de datos. Para Hive, es necesario dominar su instalación, aplicación y operaciones avanzadas.

6. ZooKeeper

ZooKeeper es un componente importante de Hadoop y Hbase. Es un software que proporciona servicios consistentes para aplicaciones distribuidas. Las funciones proporcionadas incluyen: mantenimiento de configuración, servicios de nombres de dominio. , Sincronización distribuida, servicios de componentes, etc. En el desarrollo de big data, debe dominar los comandos comunes y los métodos de implementación de funciones de ZooKeeper.

7. HBase

HBase es una base de datos distribuida y de código abierto orientada a columnas. Se diferencia de las bases de datos relacionales generales y es más adecuada para el almacenamiento de datos no estructurados. -Sistema de almacenamiento distribuido escalable, orientado a columnas y de rendimiento. El desarrollo de big data requiere dominar los conocimientos básicos, las aplicaciones, la arquitectura y el uso avanzado de HBase.

8.phoenix

phoenix es un motor SQL de código abierto escrito en Java y basado en API JDBC para operar HBase. Tiene columnas dinámicas, carga de hash, servidor de consultas y seguimiento. , transacciones, funciones de definición definidas por el usuario, índices secundarios, mapeo de espacios de nombres, recopilación de datos, columnas de marca de tiempo de fila, consultas de paginación, consultas de salto, vistas y funciones de big data requieren dominar sus principios y uso.

9. Redis

phoenix es un motor SQL de código abierto escrito en Java y basado en API JDBC para operar HBase. Tiene columnas dinámicas, carga de hash, servidor de consultas y seguimiento. , transacciones, funciones de definición definidas por el usuario, índices secundarios, mapeo de espacios de nombres, recopilación de datos, columnas de marca de tiempo de fila, consultas de paginación, consultas de salto, vistas y funciones de big data requieren dominar sus principios y uso.