Cómo convertir datos no estructurados en datos estructurados
1. Método tradicional: árbol
Si bien la gran mayoría de los datos no son estructurados, los datos estructurados se encuentran comúnmente en diversos software de aplicaciones empresariales. y sistemas, como el almacenamiento de datos de productos, registros de transacciones, sistemas ERP y CRM, etc., estos datos todavía se procesan mediante tecnologías de datos obsoletas, como sistemas basados en reglas y árboles de decisión. Este método requiere extracción manual de características, operaciones complejas y una gran cantidad de mano de obra para la anotación de datos.
Los datos no estructurados son datos de texto caóticos de uso común. Los datos no estructurados no se pueden analizar ni procesar de forma tradicional utilizando métodos convencionales para datos estructurados, por lo que se ha convertido en un problema común en el campo de la IA. Para comprender los datos no estructurados, a menudo es necesario ingresar un texto completo para identificar sus características subyacentes y luego ver si esas características aparecen en otros textos del grupo. Por lo tanto, al abordar tales tareas, el aprendizaje profundo tomó la delantera con sus excelentes capacidades de extracción de características, por lo que todos comenzaron a pensar en usar redes neuronales en datos estructurados, estableciendo una capa completamente conectada y tomando el contenido de cada columna como entrada. Hay ciertas etiquetas para que se pueda realizar entrenamiento e inferencia.
2. Una nueva arma: el aprendizaje profundo
Es necesario encontrar la semántica de los datos estructurados. Los principales problemas que deben resolverse en la actualidad son:
①Limpieza de datos. Para lograr algunos resultados en la aplicación de IA de datos estructurados, necesitamos resolver el problema de la limpieza y preparación manual de datos y encontrar un método automatizado con poca o ninguna intervención humana para que esta aplicación pueda escalarse.
②Datos heterogéneos. Uno de los principales desafíos en el procesamiento de datos estructurados es que los datos estructurados pueden ser heterogéneos y combinar diferentes tipos de estructuras de datos, como datos de texto, datos categóricos, datos numéricos e incluso datos de imágenes. En segundo lugar, las tablas de datos pueden ser muy escasas. Imagine una tabla con 100 columnas, cada columna tiene de 10 a 1000 valores posibles (como tipo de fabricante, tamaño, precio, etc.) y hay millones de filas. Dado que solo unas pocas combinaciones de valores de columna son significativas, puede imaginarse lo vacío que está el espacio de posibles combinaciones para esta tabla.
③Comprensión semántica. Descubra las características semánticas de estos datos estructurados. El procesamiento de datos estructurados no solo depende de las características de los datos en sí (semántica escasa, heterogénea y rica y conocimiento del dominio), sino que también depende de la recopilación de tablas de datos (nombres de columnas, tipos de campos, dominios y diversas restricciones de integridad, etc.) que se puede decodificar Información importante sobre la semántica y las posibles interacciones entre bloques de datos. Es decir, la información almacenada en las tablas de la base de datos tiene una estructura subyacente sólida, mientras que los modelos de lenguaje existentes (como BERT) solo están entrenados para codificar texto de formato libre.
3. Limpieza de datos estructurados
Además de algunos requisitos específicos, los datos estructurados preprocesados deben cumplir las siguientes características:
①Todos los valores Son todos números: aprendizaje automático los algoritmos se basan en que todos los datos sean números;
②Los valores no numéricos (contenido en categorías o columnas de texto) deben reemplazarse con identificadores numéricos;
③Identificar y borrar registros con datos no válidos valores;
④Identificar y excluir categorías irrelevantes;
⑤Todos los registros deben utilizar la misma categoría consistente.