Red de conocimiento informático - Material del sitio web - ¿En qué etapa del proceso de procesamiento de big data se realiza la limpieza de datos?

¿En qué etapa del proceso de procesamiento de big data se realiza la limpieza de datos?

El proceso de procesamiento de big data incluye recopilación de datos, preprocesamiento de datos, almacenamiento de datos, análisis de datos y presentación de datos.

1. El concepto de recopilación de datos: hay dos explicaciones en la industria: una es que el proceso de recopilación de datos desde cero (registros de impresión del servidor web, registros de recopilación personalizados, etc.) se denomina recopilación de datos. la otra es que, por un lado, también existe el proceso de recopilar datos en una ubicación específica mediante el uso de herramientas como Flume, que se denomina recopilación de datos.

2. Preprocesamiento de datos: utilice el programa mapreduce para preprocesar los datos de registro originales recopilados, como limpieza, formateo, filtrado de datos sucios, etc., y ordenarlos en datos del modelo de flujo de clics.

3. Almacenamiento de datos: importe los datos preprocesados ​​a las bibliotecas y tablas correspondientes en el almacén de HIVE.

4. Análisis de datos: el núcleo del proyecto es formular informes de análisis ETL de acuerdo con los requisitos y obtener diversos resultados estadísticos.

5. Visualización de datos: Muestra visualmente los datos analizados, normalmente a través de gráficos.

Proceso de procesamiento:

1. Razonamiento: clasificar los procesos comerciales y planificar los recursos de datos.

Para las empresas, los datos en tiempo real todos los días superarán el nivel de TB. ¿Qué datos deben capturarse de los usuarios? ¿Dónde colocar tantos datos, cómo colocarlos y de qué manera?

Estos problemas requieren planificación anticipada y un conjunto de procesos desde el desorden hasta el orden. Este proceso requiere colaboración entre departamentos, incluidos front-end, back-end, ingenieros de datos, analistas de datos, gerentes de proyectos y otros. roles.

2. Recopilación: recopilación de ETL, deduplicación, desensibilización, conversión, asociación y eliminación de valores atípicos

El front-end y el back-end entregarán los datos recopilados a los datos. departamento, y el departamento de datos pasará Las herramientas ETL transportan datos desde el origen hasta el final a través del proceso de extracción, transformación y carga, con el propósito de almacenar centralmente datos dispersos y fragmentados.

3. Almacenamiento: Almacenamiento y gestión de big data de alto rendimiento

¿Dónde existen tantos datos empresariales? Esto requiere un sistema de almacenamiento de big data de alto rendimiento, en el que los datos se clasificarán en su correspondiente biblioteca para proporcionar la máxima comodidad para su posterior gestión y uso.

4. Uso: consulta en tiempo real, monitoreo de informes, análisis inteligente, predicción de modelos.

El propósito final de los datos es ayudar a la toma de decisiones comerciales. la consulta final, el análisis y el seguimiento proporcionan la base.

Esta etapa es el campo de origen de los analistas de datos. Utilizan estos datos estandarizados para realizar consultas en tiempo real, establecer sistemas de indicadores y sistemas de informes, analizar problemas comerciales e incluso realizar predicciones de modelos.