¿Qué hace un ingeniero de aplicaciones de big data?
Otros
2 Construya un entorno de big data para el clúster (generalmente los ingenieros de big data contratados por la empresa. Se ha configurado el entorno de ingeniería de datos y la empresa tiene una plataforma de big data lista para usar, pero construiré un entorno de prueba de forma privada. Después de todo, el big data interno de la empresa El sistema de datos tiene muchas restricciones, lo que afecta gravemente la eficiencia del desarrollo)
3 Mantenimiento de la plataforma de big data (este debería ser un trabajo que todo ingeniero de big data haya hecho, más o menos). muchas restricciones en los permisos, lo que afecta seriamente la eficiencia del desarrollo)
3 Mantenimiento de la plataforma de big data (este debería ser un trabajo que todo ingeniero de big data haya hecho, y más o menos será responsable de la "operación y "trabajo de mantenimiento")
4 Migración de datos (algunas empresas necesitan Migrar datos de bases de datos tradicionales (Oracle, MySQL y otros datos) Oracle, MySQL y otros datos a grandes clústeres de datos. Esta es una tarea relativamente tediosa e ingrata. )
5 Migración de aplicaciones (algunas empresas necesitan migrar aplicaciones. Migrar procedimientos almacenados o scripts SQL desde bases de datos tradicionales como Oracle y MySQL a plataformas de big data también es una tarea muy tediosa, tediosa, altamente repetitiva, problemática, e ingrato (muy repetitivo y problemático, no es fácil de hacer).
6 Recopilación de datos (recopilación de datos de registro, datos de archivos, datos de interfaz, que implica la conversión de varios formatos, generalmente se utilizan Flume y Logstash)
7 Procesamiento de datos
7.1 Procesamiento de datos sin conexión (esto generalmente es para escribir SQL y luego enviarlo a Hive) (esto generalmente es escribir SQL y luego enviarlo a Hive para ejecutarlo, lo cual en realidad es un poco repetitivo con el primer punto)
7.2. Procesamiento de datos en tiempo real (esto involucra componentes como la cola de mensajes, Kafka, Spark y Flink. Generalmente, Flume recopila datos y los envía a Kafka, y luego Spark consume datos de Kafka para procesar)
8. Visualización de datos (Nuestra empresa usa Spring Boot para conectar los datos del back-end y el front-end, y el front-end usa su propia magia). echarts)
9. Desarrollo de plataforma de Big data (inclinándose hacia Java, probablemente integrando componentes de código abierto en una plataforma de Big data utilizable, a menudo utilizada en varias plataformas PaaS difíciles de usar)
>10 Desarrollo del centro de datos (el centro necesita admitir el acceso a) varias fuentes de datos, limpiar y convertir varias fuentes de datos en datos utilizables y luego, en base a los datos originales, establecer una amplia capa de superficie en general, para ahorrar costos de desarrollo y. recursos del servidor, los datos comerciales se consultan en función de la capa de superficie amplia)
11 Construcción del almacén de datos (la construcción del almacén de datos aquí no se refiere a Hive, Hive es la construcción de herramientas de almacén de datos y la construcción del almacén de datos son generalmente se divide en tres capas: capas ODS, DW y DM. DW es la más importante y se puede dividir en DWD, DWM y DWS. Esta capa es solo un concepto lógico, similar a Las operaciones se distinguen según el nivel. El propósito de la capa es evitar el acceso directo a los datos más bajos al desarrollar aplicaciones de datos, lo que puede reducir los recursos. Tenga en cuenta que reducir los recursos significa reducir la memoria y la sobrecarga de la CPU. Los discos no son valiosos, por lo que las capas no tienen nada que ver con ellas. Las capas pueden aclarar la lógica de la tabla de datos y facilitar futuras operaciones de desarrollo. Si las capas no se hacen bien, provocarán confusión lógica, lo que dificultará la creación de nuevas. empleados para hacerse cargo del negocio y aumentar los costos operativos de la empresa. Este tipo de almacén de creación de cuentas también se divide en creación de cuentas fuera de línea y creación de cuentas en tiempo real)
En una palabra, es inseparable del. escritura de SQL...