Red de conocimiento informático - Aprendizaje de código fuente - Métodos para lograr el control de calidad de la entrada de datos

Métodos para lograr el control de calidad de la entrada de datos

La calidad de los datos de la base de datos es la vida útil de la base de datos. No importa cuán bueno sea el método de control de calidad de la entrada de datos, si no se puede implementar y ejecutar, no puede garantizar la precisión de la entrada de datos. Por lo tanto, basándose en la idea antes mencionada de control de calidad de datos, se desarrolló un software de recopilación de datos de bases de datos geofísicas aéreas (Figura 5-3), que obliga a que los datos se ingresen en la base de datos de acuerdo con un proceso estandarizado, asegurando la calidad. de datos de la base de datos.

El software de recopilación de datos incluye funciones como importación e ingreso de datos, verificación de datos, edición de datos y archivo de datos. Para facilitar el trabajo del personal de recopilación de datos, las estadísticas de consulta de datos y las funciones de mapeo de datos en el software de aplicación de este sistema también están integradas en el software. Las funciones de cada parte se presentan a continuación.

Figura 5-3 Estructura del software de recopilación de datos de la base de datos

1. Crear árbol de proyecto

El trabajo de un proyecto de prospección geofísica aérea generalmente se divide en tres etapas: medición de la producción de prospección geofísica aérea, procesamiento de datos e interpretación geológica. Una vez completados la medición de la producción de campo y el procesamiento de datos, se realiza una investigación aérea. El informe de producción de prospección geofísica y el informe de procesamiento de datos se preparan respectivamente. Después de pasar la revisión, se deben enviar los datos de medición y los datos procesados. En este momento se estaban realizando trabajos de interpretación geológica. Actualmente se están realizando trabajos de interpretación geológica.

El trabajo de un proyecto de investigación científica de exploración geofísica aérea generalmente se divide en temas (proyectos secundarios), temas moleculares (proyectos de tercer nivel), etc. Las materias de bajo nivel siempre se completan primero y luego se revisan y envían los materiales. Las materias de alto nivel se completan más tarde y las de primer nivel se completan al final y luego se envían los materiales.

Si las tres etapas del proyecto de investigación se consideran como tres temas (de hecho, esto es cierto, pero no se acostumbra llamarlo así), el proyecto de investigación y el proyecto de investigación científica no son solo lo mismo en términos de forma de trabajo, pero también el orden de presentación de la información también es el mismo (Figura 5-5). Esta práctica de enviar datos del proyecto en el orden de finalización del proyecto no se consideraba un problema en la era de la gestión manual de datos y los servicios manuales. Sin embargo, después de la reforma de la gestión de la información, la gente ha planteado requisitos más altos para los servicios de información y espera que la gestión de la información no ignore la relación entre los diferentes niveles de datos del proyecto.

Esta relación es similar a la relación de directorio en la administración de archivos de disco de computadora. Los directorios son equivalentes a proyectos y los subdirectorios son equivalentes a subproyectos. La relación entre directorios y subdirectorios es como una estructura de árbol, llamada árbol de directorios; la relación entre proyectos y subproyectos es como una estructura de árbol, llamada árbol de proyectos. Cualquiera con conocimientos de informática sabe que después de establecer un árbol de directorios de cierta manera, los archivos existirán en el directorio correspondiente. No solo la administración de archivos estará más organizada, sino que la velocidad a la que los usuarios pueden encontrar archivos también aumentará exponencialmente. Por lo tanto, este sistema utiliza un árbol de proyectos para gestionar la información del proyecto. Este método de gestión está en consonancia con los hábitos de pensamiento de las personas y hace que la consulta de información sea más conveniente.

Figura 5-4 Interfaz principal del software de recopilación de datos de base de datos

Figura 5-5 Diagrama de secuencia de archivo de información del proyecto en diferentes niveles

Al importar nuevos datos del proyecto o Antes de ingresar a la base de datos se debe establecer el árbol del proyecto. Crear un árbol de proyectos es similar a crear un directorio de archivos en un disco. El orden de creación de proyectos (directorios) y subproyectos (subdirectorios) no se puede invertir. Luego, importe o ingrese datos por proyecto. La Figura 5-6 muestra la interfaz para crear un árbol de proyecto. El usuario selecciona el proyecto principal del nuevo proyecto en el cuadro desplegable del proyecto principal (un proyecto determinado está vacío), luego completa el número de archivo del proyecto y otra información, y presiona "Aceptar" para crear el proyecto raíz de el árbol del proyecto (un proyecto determinado) o el proyecto raíz del árbol del proyecto Un determinado nodo (subproyecto) y asigna automáticamente un número de identificación del proyecto al proyecto como una marca única para identificar el proyecto y la información del proyecto.

Figura 5-6 Interfaz de función Crear árbol de proyecto

2. Entrada e importación de datos

Hay dos formas de ingresar datos del proyecto en la base de datos: entrada de datos e importación de datos. El método de entrada de datos consiste en utilizar la interfaz de entrada de datos del sistema para ingresar datos directamente en la base de datos de recopilación de datos. Si el usuario ha organizado los datos de la base de datos de acuerdo con los requisitos estándar de la interfaz de datos de la base de datos, puede utilizar el método de importación para importar los datos a la biblioteca de recopilación de datos. De hecho, no existe una diferencia esencial entre los dos métodos.

Por ejemplo, los datos de descripción general del proyecto, los datos de atributos de elementos espaciales (propiedades físicas de la roca, anomalías, interpretación y evaluación), etc., deben ingresarse manualmente. La diferencia es quién los ingresará. ¿La diferencia es quién ingresa los datos? ¿Es un organizador de datos o un recolector de datos? Esto no está dentro del alcance de investigación del sistema. El sistema admite dos métodos de entrada de datos.

Debido a que cada tabla de la base de datos contiene información diferente, cada tabla debe tener una interfaz de entrada de datos independiente (entrada de datos, navegación y edición). Además de la interfaz de consulta del usuario y la interfaz de estadísticas de datos, una tabla de base de datos también requiere tres interfaces de usuario. Este sistema tiene 31 tablas de bases de datos geofísicas y es necesario desarrollar 93 interfaces de usuario de acuerdo con la práctica convencional. Con el desarrollo de la tecnología de exploración geofísica aérea, se puede agregar nueva información a la tabla de la base de datos, o se pueden agregar nuevas tablas de la base de datos, lo que requiere la modificación del código del software para cumplir con los nuevos requisitos. Este enfoque implica no sólo una gran cantidad de desarrollo y pruebas de software, sino también mucho mantenimiento del software.

Con este fin, el sistema ha estudiado el método de generar dinámicamente una interfaz de usuario basada en la información de descripción de la tabla de la base de datos. Este método tiene buena versatilidad y es aplicable a todas las tablas de la base de datos, lo que reduce efectivamente. la carga de trabajo del desarrollo de software. Facilita el mantenimiento posterior del software. La Figura 5-7 es la interfaz de entrada de datos del perfil del proyecto generada dinámicamente utilizando este método, que se utiliza para ingresar y editar datos del perfil del proyecto.

Figura 5-7 Interfaz personalizada de entrada de datos de descripción general del proyecto

Este método consiste en almacenar la información de descripción de la tabla de la base de datos en la tabla de lista de atributos de la tabla de la base de datos, y el sistema de ejecución extraerá la información del campo correspondiente de la tabla de lista de atributos de la tabla de la base de datos y su tabla de diccionario de datos relacionada, y luego llame a la función personalizada de la interfaz de acuerdo con el tipo de interfaz (ingreso, exploración, modificación, consulta simple). Luego llame a la función de personalización de la interfaz para generar dinámicamente la interfaz correspondiente según el tipo de interfaz (ingreso, exploración, modificación, consulta simple).

Debido a la gran diferencia en el número de campos contenidos en las tablas de la base de datos (casi 30 campos como máximo y menos de 10 campos), los tipos de campos en una misma tabla son diferentes (cadenas, números, tiempo, campos grandes), las longitudes de los tipos de datos de los campos también son diferentes (algunos campos tienen hasta 200 caracteres y otros solo 1 carácter. Al mismo tiempo, las tablas de la biblioteca de campos relacionados se colocan junto a la interfaz). Para abordar estos problemas de manera más apropiada, se tomaron las siguientes medidas durante la personalización de la interfaz. Para abordar estos problemas, se adoptaron las siguientes estrategias durante la personalización de la interfaz:

1) Agrupe los campos en la tabla de la biblioteca y proporcione cada uno. grupo un nombre apropiado. En la interfaz personalizada, coloque el mismo grupo de campos en la misma tarjeta y use el nombre del grupo como nombre de la tarjeta.

2) El valor del campo se toma del campo numérico en la tabla del diccionario de datos y se utiliza un cuadro combinado para mostrar el valor del contenido del cuadro combinado extraído de la tabla del diccionario de datos. Utilice cuadros de texto para mostrar los valores de otros campos numéricos y campos de tipo cadena.

3) Determine la posición y el tamaño del control correspondiente en función del tamaño, el nombre del campo y la longitud del tipo de datos del campo del control principal en la interfaz personalizada. El diseño del control sigue el principio. de mostrar un máximo de dos campos en una línea.

Los métodos de personalización para diferentes tipos de interfaces son similares, por lo que los códigos de personalización de interfaz utilizados también son los mismos, pero el procesamiento relevante se realiza en lugares individuales según sea necesario. Por ejemplo, para un campo de tipo de campo grande, si el tipo personalizado de la interfaz es "Entrada", el botón de comando después del cuadro de texto correspondiente es Abrir archivo. Si el tipo de personalización de la interfaz es "Examinar", el botón de comando después del cuadro de texto correspondiente es para explorar el valor del campo grande.

3. Verificación del sistema antes de la entrada

Antes de que los datos de entrada ingresen a la colección, el sistema debe realizar una verificación de unicidad, verificación de elementos faltantes y verificación del tipo de datos, es decir, verificación del sistema antes de la entrada. .

Verificación de unicidad: la base de datos de prospección geofísica aeroespacial es el destino final de los datos de prospección geofísica aeroespacial, pero es posible que algunos datos del proyecto no pasen el control de calidad y permanezcan en la base de datos de recopilación. En el proceso de recopilación de nuevos datos del proyecto, para evitar que los datos del proyecto ingresen a la base de datos por segunda vez, es necesario realizar una verificación de unicidad antes de ingresar a la base de datos de recopilación.

El método consiste en utilizar la clave principal de cada registro en la base de datos como condición de consulta para encontrar si el mismo registro existe en la tabla correspondiente en la base de datos y en la base de datos de la colección. Por ejemplo, para el estudio aeromagnético del norte del Mar Amarillo (número de proyecto AGS011978000251), cuando los datos del perfil del proyecto se importan a la base de datos de recopilación, el número de proyecto (clave principal) en la tabla de la base de datos del perfil del proyecto se utilizará para consultar si el Los mismos datos existen en las tablas correspondientes en la base de datos de la colección y en el número de proyecto: si existe en la biblioteca de la colección, significa que los datos del proyecto se han archivado; si existe en la biblioteca de la colección, significa que se han importado; en la biblioteca de la colección. Los datos del proyecto se importaron a la biblioteca de la colección para su inspección y no es necesario volver a importarlos.

Verificación de elementos faltantes: el número de campos en los datos de la base de datos debe ser igual al número de campos en la tabla de la base de datos correspondiente, si es mayor o menor que el número de campos en la tabla de la base de datos. no pasará la verificación del artículo faltante.

Verificación del tipo de datos: realice la verificación del tipo en todos los campos de datos de entrada. Si se trata de datos de tipo fecha, verifique el formato de los datos (AAAA-MM-DD) y si AAAA, MM y DD son números. Si se trata de datos numéricos, verifique si el número de dígitos enteros y el número de dígitos decimales excede el rango. Tanto el número de dígitos enteros como el número de dígitos decimales son números. Para datos de caracteres, comprueba si la longitud de la cadena excede el límite.

Los datos entrantes se pueden almacenar en la biblioteca de colección solo después de pasar la verificación del sistema de almacenamiento; de lo contrario, el software mostrará un mensaje de error (Figura 5-8). El recopilador corrige los datos erróneos de acuerdo con la información solicitada y luego vuelve a importar los datos.

Figura 5-8 Mensaje de error de verificación del sistema antes del almacenamiento

4. Verificación del sistema después del almacenamiento

El sistema verifica los datos ingresados ​​en la base de datos de recolección para garantizar que no se trata de comprobaciones vacías y anulables, comprobaciones de datos antes y después, comprobaciones de datos relacionados, comprobaciones de rango de valores y rangos de verificación seleccionados, es decir, comprobaciones del sistema después del almacenamiento (Figura 5-9).

Verificación de no vacío: el valor del campo especificado de los datos entrantes no puede estar vacío. Por ejemplo, todas las tablas de la base de datos de la identificación del proyecto no pueden estar vacías, el nombre del proyecto y el nombre del proyecto participante. unidad, y el nombre de la unidad participante no puede estar vacío.

Cheque en blanco: el valor del campo especificado en la base de datos puede estar vacío bajo ciertas condiciones. Por ejemplo, cuando el valor del campo del método de registro en la tabla de resumen del proyecto de encuesta es un registro perforado o una simulación de rollo de papel. registro, los datos aeromagnéticos La frecuencia de muestreo está vacía. Si se trata de un registro digital, la frecuencia de muestreo de datos aeromagnéticos no puede estar vacía.

Antes y después de la verificación de datos: verifique la coherencia de los campos especificados de los datos de entrada con los mismos campos en la tabla principal. Por ejemplo, los participantes del proyecto en la tabla de identificación del proyecto deben ser consistentes con el proyecto. información del perfil en la identificación del proyecto.

Figura 5-9 Verificación del sistema después de la entrada

Verificación de datos relacionados: Verifique las restricciones de los datos de campo relevantes en la tabla relacionada en los campos especificados de los datos ingresados, como el inicio del proyecto en la información del perfil del proyecto Si hay dos campos: fecha y fecha de finalización, entonces la fecha de inicio y la fecha de finalización del personal del proyecto que participa en el trabajo del proyecto deben estar entre la fecha de inicio del proyecto y la fecha de finalización.

Verificación del rango de valores: el valor del campo especificado en los datos entrantes debe estar dentro del rango de valores establecido. Por ejemplo, el rango de configuración del tiempo de la máquina en el perfil del proyecto topográfico es 0 y 100 h. este rango, el tiempo de la máquina Los datos son incorrectos.

Verificar rango de opciones: el valor del campo especificado de los datos entrantes debe ser uno de los elementos del conjunto de datos conocido. Por ejemplo, el resultado de la evaluación del proyecto solo puede estar entre las cuatro opciones de. Excelente, bueno, calificado y no calificado Elija uno.

Según el nombre de la tabla de la biblioteca seleccionada, se extraen las reglas de verificación de cada campo en la tabla de la biblioteca y cada registro está sujeto a verificación de datos, verificación de asociación, verificación de rango de valores y verificación de rango de selección. Cuando se encuentra un error, el registro de error se guarda temporalmente en la memoria y luego se verifica el siguiente registro hasta que se hayan verificado todos los registros. Escriba el error en la tabla de registro de verificación (si existe el mismo registro de verificación, primero haga una copia de seguridad en la tabla de respaldo del registro de verificación y luego elimínelo para ver el seguimiento de fallas de los datos históricos que ingresan a la base de datos); verificación del sistema a través del registro de registro. Luego verifique otra tabla y todas las tablas de la base de datos verificadas por el sistema. Si hay errores, el sistema dará un mensaje de error.

5. Verificación de la topología Verificación de la topología

Realizar una verificación de la topología de los datos de elementos espaciales y las tablas de la base de datos de los datos de interpretación geofísica aérea y los datos de evaluación (Tabla 5-6, Figura 5-10 ).

Verifique la exactitud de la relación posicional mutua entre cada clase de entidad.

Tome el conjunto de datos de evaluación de prospectos de petróleo y gas como ejemplo para ilustrar la verificación de topología. La regla de inspección es que la ubicación de las anomalías estructurales locales debe ubicarse en una de las áreas de distribución del área de evaluación de prospectos de petróleo y gas, y no debe haber superposición entre las áreas de evaluación de prospectos de petróleo y gas. Si se encuentra un error, el registro de errores verificado se guarda temporalmente en la memoria y luego continúa con la verificación de topología una vez completada la verificación, el error se escribe en la tabla de registro de verificación; Si no se encuentran errores de topología, se escribe una entrada de registro que pasa la verificación de topología.

Tabla 5-7 Tabla de reglas de verificación de topología para interpretar y evaluar datos

Figura 5-10 Interfaz de lista de fuentes de datos espaciales de verificación de topología

6. Verificar

Al realizar una verificación del sistema de biblioteca y una verificación de topología de los datos de la biblioteca, el sistema los comparará con el archivo de datos original para garantizar la coherencia de los datos. Todos los datos entrantes deben conciliarse con los archivos de datos originales.

Extraiga los datos correspondientes de la biblioteca de la colección según el número de identificación del proyecto y el nombre de la tabla de la biblioteca. Si hay un código de diccionario de datos, reemplácelo con caracteres de texto y guárdelo en una tabla temporal de Oracle; archivo en la ruta local Los archivos de datos se comparan registro por registro. Si hay registros que no coinciden, se muestra un mensaje y se escribe un registro de verificación en la biblioteca de registros.

7. Inspección y revisión manual

Después de la verificación del sistema, también se deben realizar la verificación de la topología del espacio y la comparación de archivos, la inspección manual y la revisión manual. La inspección manual es una comparación manual que utiliza datos de tablas originales, datos de atributos espaciales, datos de interpretación y evaluación, dibujos, informes de texto (incluido el código fuente del software) y los tipos de datos correspondientes en la base de datos de recopilación. Si se dispone de mapas originales en papel, los datos correspondientes deben extraerse de la colección, dibujarse utilizando el mismo software y los mismos parámetros de dibujo, y compararse. Si se encuentra un error durante la inspección manual, se debe anotar la causa del error (Figura 5-11) y se debe guardar el registro.

Figura 5-11 Interfaz para completar los resultados de la inspección manual

El proceso de revisión manual y de inspección manual es el mismo, pero las personas son diferentes.

8. Verificación del archivo del sistema

Antes de que los datos entrantes se archiven en la base de datos, el sistema debe verificar la integridad de los datos archivados del proyecto, es decir, verificar el archivo. El sistema define una tabla de comparación de archivo de datos del proyecto basada en la categoría del proyecto de archivo, la naturaleza del trabajo, el método de medición y la etapa de archivo. La tabla registra la lista de datos del proyecto y la identificación de archivo de datos para cada etapa de archivo de cada tipo de proyecto. Al archivar datos, el sistema verifica el ID de archivo de los datos del proyecto. Si no está vacío, significa que los datos deben archivarse; si está vacío, significa que los datos se pueden archivar, asegurando así la integridad de los datos del proyecto en la base de datos.

Por ejemplo, el archivo de datos del proyecto de estudio aeromagnético regional se divide en tres etapas (Figura 5-12). La primera etapa es la producción y el archivo de datos del estudio, la descripción general del proyecto de estudio aeromagnético (descripción general del proyecto). Se deben archivar la descripción general del proyecto de levantamiento, la descripción general del proyecto de levantamiento aeromagnético, el perfil magnético, los informes de producción de datos del área de levantamiento, etc. La segunda etapa es el archivo de los datos de procesamiento de datos. Se deben archivar los datos de las líneas de seguimiento, los datos aeromagnéticos y los informes de procesamiento de datos. La tercera etapa es el archivo de datos de interpretación geológica. Se deben archivar datos generales de ingeniería, datos magnéticos de rocas, datos de mapas, datos escritos, estructuras de fallas y unidades tectónicas regionales.

Al archivar datos de proyectos de investigación científica, determine si el proyecto tiene subproyectos y si todos los datos de los subproyectos se han archivado según el número de identificación del proyecto y el nivel del proyecto. Una vez archivados todos los subproyectos, utilice el Asistente de archivo de datos del proyecto (Figura 5-13) para archivar ese nivel de datos del proyecto. Si el proyecto es confidencial, el sistema también cifrará los datos archivados. Una vez que los datos se hayan archivado correctamente, el sistema eliminará los datos archivados de la biblioteca de recopilación y almacenará varios registros de inspección en la tabla de registros de respaldo para su inspección.

Figura 5-12 Diagrama esquemático del archivo de datos del proyecto de exploración

Figura 5-13 Asistente de archivo de datos del proyecto