¿Qué arquitectura técnica se requiere para el análisis de datos?
1. Módulo de recopilación de datos
Principalmente responsable de recopilar datos de diversas fuentes de datos, incluidos archivos de registro, solicitudes de red, bases de datos, colas de mensajes, etc., y convertir estos datos en archivos. o Los mensajes se pasan hacia atrás.
2. Módulo de transferencia de datos
Es el principal responsable de transferir datos al almacenamiento distribuido con regularidad o transferirlos a programas de procesamiento de datos posteriores en tiempo real.
3. Módulo ETL
Principalmente responsable de la limpieza de datos, el procesamiento y conversión de formato y contenido, la clasificación y clasificación de datos, la carga en el almacén de datos, etc.
4. Módulo de almacén de datos
Este es el núcleo de toda la arquitectura. El almacén de datos es un lugar donde se organizan y centralizan los datos, responsable del acceso y la gestión de los datos.
5. Módulo de gestión de metadatos
Es el principal responsable de registrar y restringir el significado y formato de los datos en el almacén de datos, y controlar el ciclo de vida y la calidad de los datos.
6. Módulo de motor de análisis
El módulo con más interacciones entre los analistas de datos es el principal responsable de ejecutar varias declaraciones o códigos de análisis y completar diversas tareas de análisis.
7. Módulo de programación y gestión de trabajos
Responsable de analizar la gestión y programación programada de trabajos, incluida la adición, eliminación, modificación y verificación de trabajos, visualización del historial de modificaciones, configuración de tiempos de programación y motores de ejecución, etc.
8. Módulo de programación y asignación de recursos
Es el principal responsable de coordinar y asignar de manera efectiva los recursos del clúster para maximizar la utilización de recursos en escenarios donde se ejecutan múltiples trabajos simultáneamente.