Red de conocimiento informático - Material del sitio web - ¿Qué hace principalmente un ingeniero de redes de big data?

¿Qué hace principalmente un ingeniero de redes de big data?

El contenido del trabajo de un ingeniero de big data depende de en qué parte del flujo de datos trabaje.

Desde los datos ascendentes hasta los datos descendentes, se pueden dividir aproximadamente en:

Recopilación de datos-gt; limpieza de datos-gt; análisis de datos y estadísticas-gt; visualización de datos, etc.

Por supuesto, el contenido del trabajo es utilizar componentes de herramientas (Spark, Flume, Kafka, etc.) o código (Java, Scala, etc.) para realizar las funciones anteriores.

Específicamente,

Recopilación de datos:

El código enterrado en el sistema empresarial generará algunos registros originales dispersos en cualquier momento, y Flume se puede usar para monitorear. estos dispersos El estado de recepción de registros permite la agregación de registros dispersos, es decir, la recopilación.

Limpieza de datos:

El registro original está lleno de datos extraños

Algunos campos pueden tener valores atípicos, es decir, datos sucios. Para garantizar que las "estadísticas de análisis de datos" posteriores a los datos puedan obtener datos de calidad relativamente alta, estos registros deben filtrarse o completarse con datos de campo.

Algunos campos de registro pueden ser redundantes y los usuarios intermedios no necesitan analizar estos campos. Sin embargo, para ahorrar gastos de almacenamiento, estos campos redundantes también deben eliminarse.

Alguna información de los campos de registro puede contener información confidencial del usuario que debe eliminarse. Por ejemplo, solo se conserva el apellido del usuario y el nombre se reemplaza por el carácter "*".

Almacenamiento de datos:

Los datos limpios se pueden importar al almacén de datos (Hive) para su análisis posterior fuera de línea. Si el "análisis de datos y estadísticas" posteriores requiere un mayor rendimiento en tiempo real, los registros se pueden colocar en Kafka.

Análisis de datos y estadísticas:

El análisis de datos es la parte descendente del flujo de datos y consume datos ascendentes. De hecho, cuenta varios datos de informes del encabezado del registro. Las estadísticas de informes simples pueden usar kylin o estadísticas de colmena en SQL, mientras que los informes complejos deben usar Spark y Storm para el análisis estadístico a nivel de código. Algunas empresas parecen tener un puesto llamado BI que se dedica a esta área.

Visualización de datos:

Muestre datos de "estadísticas de análisis de datos" ascendentes a través de formularios visuales como tablas de datos y gráficos de datos. Con carácter general, algunas de las decisiones de la empresa harán referencia a los datos de estos gráficos.

Por supuesto, la construcción y el mantenimiento de plataformas de big data (como CDH, FusionInsight, etc.) también pueden ser parte del trabajo de los ingenieros de big data.

¡Espero que el contenido anterior te sea útil! ~