Red de conocimiento informático - Material del sitio web - Cómo comprobar los números ETL

Cómo comprobar los números ETL

ETL es el proceso de extracción de datos (Extract), transformación (Transform) y carga (Load). Es una parte importante de la construcción de un almacén de datos. Un almacén de datos es una colección de datos orientada a temas, integrada, estable y variable en el tiempo que se utiliza para respaldar el proceso de toma de decisiones en la gestión empresarial. Los sistemas de almacenamiento de datos pueden tener una gran cantidad de datos ruidosos, causados ​​principalmente por el mal uso de abreviaturas, modismos, errores en la entrada de datos, registros duplicados, valores faltantes, cambios ortográficos, etc. Incluso un sistema de base de datos bien diseñado y planificado no tendrá sentido si hay una gran cantidad de datos ruidosos. Debido a "basura que entra, basura que sale", el sistema no puede ser un análisis de toma de decisiones. sistema. Para eliminar datos ruidosos, se debe realizar una limpieza de datos en el sistema de base de datos. Actualmente, hay muchas investigaciones sobre limpieza de datos y ETL, pero no mucha investigación sobre cómo realizar una limpieza de datos efectiva y visualizar el proceso en el proceso ETL. Este artículo analiza principalmente el proceso de implementación de ETL y la limpieza de datos desde dos aspectos: el proceso de procesamiento ETL [19] y los métodos de implementación de la limpieza de datos.

(1) Procesamiento ETL

El método ETL utilizado en este artículo es el procesamiento ETL de segmentos de base de datos. No utiliza un motor externo, sino que utiliza la base de datos como único punto de control. . Dado que el sistema fuente SQLserver2000 es una base de datos relacional, sus tablas de segmentos también son tablas relacionales típicas. Una vez que los datos externos no modificados se cargan correctamente en la base de datos, la conversión se realiza dentro de la base de datos. El procesamiento ETL de segmentos de bases de datos realiza pasos de extracción, carga y transformación, a menudo denominados ELT. [21] La ventaja de este enfoque es que primero proporciona un búfer para los datos extraídos para facilitar transformaciones complejas, aliviando así la complejidad del procesamiento ETL.

(2) Cómo implementar la limpieza de datos en el proceso ETL

Primero, lograr la coherencia de los atributos de la tabla de datos basándose en la comprensión de los datos de origen. Para resolver el problema de la homonimización y sinonimización de los datos de origen, se puede utilizar el subsistema de gestión de metadatos para comprender los datos de origen, redefinir los nombres de atributos de diferentes tablas de acuerdo con el significado en la biblioteca de minería de datos y almacenarlos en el formulario. de reglas de conversión. En la metabase, el sistema convierte automáticamente los nombres de campo en los datos de origen en nombres de campo recién definidos de acuerdo con estas reglas de conversión durante la integración de datos. Esto habilita sinónimos con el mismo nombre en la biblioteca de minería de datos.

En segundo lugar, reducir significativamente la cantidad de datos mediante la reducción de datos. Dado que los datos de origen son muy grandes y su procesamiento requiere mucho tiempo, se puede priorizar la reducción de datos para mejorar la eficiencia del procesamiento y análisis de datos posteriores.

Finalmente, al preconfigurar los nodos de función de visualización para el procesamiento de datos, el propósito de la limpieza y conversión de datos se puede lograr de manera intuitiva. Para datos restaurados e integrados, al combinar varios nodos de funciones de procesamiento de datos proporcionados por el subsistema de preprocesamiento, el proceso de limpieza y conversión de datos se puede completar de manera rápida y efectiva de manera visual.

ETL es el proceso de extracción de datos (Extract), transformación (Transform) y carga (Load). Es una parte importante de la construcción de un almacén de datos. Un almacén de datos es una colección de datos orientada a temas, integrada, estable y variable en el tiempo que se utiliza para respaldar el proceso de toma de decisiones en la gestión empresarial. Los sistemas de almacenamiento de datos pueden tener una gran cantidad de datos ruidosos, causados ​​principalmente por el mal uso de abreviaturas, modismos, errores en la entrada de datos, registros duplicados, valores faltantes, cambios ortográficos, etc. Incluso un sistema de base de datos bien diseñado y planificado no tendrá sentido si hay una gran cantidad de datos ruidosos. Debido a "basura que entra, basura que sale", el sistema no puede ser un análisis de toma de decisiones. sistema. Para eliminar datos ruidosos, se debe realizar una limpieza de datos en el sistema de base de datos. Actualmente, hay muchas investigaciones de limpieza de datos y ETL, pero no mucha investigación sobre cómo realizar una limpieza de datos efectiva y visualizar el proceso en el proceso ETL. Este artículo analiza principalmente el proceso de implementación de ETL y la limpieza de datos desde dos aspectos: el proceso de procesamiento ETL [19] y los métodos de implementación de la limpieza de datos.

(1) Procesamiento ETL

El método ETL utilizado en este artículo es el procesamiento ETL de segmentos de bases de datos. No utiliza motores externos, sino que utiliza la base de datos como único punto de control. Dado que el sistema fuente SQLserver2000 es una base de datos relacional, sus tablas de segmentos también son tablas relacionales típicas. Una vez que los datos externos no modificados se cargan correctamente en la base de datos, la conversión se realiza dentro de la base de datos. El procesamiento ETL de segmentos de bases de datos realiza pasos de extracción, carga y transformación, a menudo denominados ELT. [21] La ventaja de este enfoque es que primero proporciona un búfer para los datos extraídos para facilitar transformaciones complejas, aliviando así la complejidad del procesamiento ETL.

(2) Cómo implementar la limpieza de datos en el proceso ETL

Primero, lograr la coherencia de los atributos de la tabla de datos basándose en la comprensión de los datos de origen. Para resolver el problema de la homonimización y sinonimización de los datos fuente, se puede utilizar el subsistema de gestión de metadatos para comprender los datos fuente mientras se redefinen los nombres de atributos de diferentes tablas de acuerdo con el significado en la biblioteca de minería de datos y se almacenan en forma de reglas de conversión. En la metabase, el sistema convierte automáticamente los nombres de los campos en los datos de origen en nombres de campos recién definidos de acuerdo con estas reglas de conversión durante la integración de datos. Esto habilita sinónimos con el mismo nombre en la biblioteca de minería de datos.

En segundo lugar, reducir significativamente la cantidad de datos mediante la reducción de datos. Dado que los datos de origen son muy grandes y su procesamiento requiere mucho tiempo, se puede priorizar la reducción de datos para mejorar la eficiencia del procesamiento y análisis de datos posteriores.

Finalmente, al preconfigurar los nodos de función de visualización para el procesamiento de datos, el propósito de la limpieza y conversión de datos se puede lograr de manera intuitiva. Para datos restaurados e integrados, al combinar varios nodos de funciones de procesamiento de datos proporcionados por el subsistema de preprocesamiento, el proceso de limpieza y conversión de datos se puede completar de manera rápida y efectiva de manera visual.

En la mayor parte de los Estados Unidos, la certificación de productos eléctricos es obligatoria; ETL, o ETL Testing Laboratories Inc. Los productos incluidos en ETL están aprobados por la autoridad competente. Los productos enumerados por ETL están reconocidos por la autoridad competente (AHJ) y pueden considerarse "aprobados".

Inspección de fábrica de ETL

ETL generalmente no acepta inspecciones de fábrica previas a la obtención de licencia, pero debe aceptar planes de seguimiento regulares y sorpresa, incluidas inspecciones de fábrica, y cobrar tarifas anuales para compensar. para estos examinar.

Si es necesario, los inspectores pueden presenciar las nuevas pruebas del producto o tomar muestras y probarlas en el laboratorio.

El titular de la licencia debe celebrar un contrato legal (acuerdo de servicio) con la ETL, que estipule claramente las responsabilidades del fabricante y las condiciones para la inclusión continua en la lista de ETL y el uso del logotipo de ETL.

Actualmente existen dos formas de obtener un certificado ETL. Una es transferir el informe de prueba CB, o puede solicitarlo directamente. Los documentos requeridos son los siguientes:

1. formulario

2.Copia del certificado de prueba CB (no requerido para aplicación directa)

3.Copia del informe de prueba CB (no requerido para aplicación directa)

4.Muestra

5. Otros resultados de pruebas y datos del producto relevantes, como: manuales del producto, fotografías, listas de componentes, etc.

(Si se transfiere a través del informe CB, se requieren pruebas diferenciales)

6.