Extracción de correlación de extracción de información (extracción de información) de lectura obligada
La extracción de información, o IE para abreviar, es el proceso de extraer eventos específicos o información objetiva de un texto en lenguaje natural para ayudarnos a clasificar, extraer y reconstruir automáticamente cantidades masivas de contenido. Esta información normalmente incluye entidades, relaciones y eventos. Por ejemplo, extraiga la hora, la ubicación y las personas clave de las noticias, o extraiga nombres de productos, tiempos de desarrollo y métricas de rendimiento de la documentación técnica. La capacidad de extraer información fáctica de interés para los usuarios a partir del lenguaje natural se utiliza ampliamente en la extracción de información, ya sea en gráficos de conocimiento, recuperación de información, sistemas de respuesta a preguntas o en análisis de sentimientos y minería de textos.
La extracción de información incluye principalmente tres subtareas:
Extracción de relaciones: Habitualmente, hablamos de extracción triple, que se utiliza principalmente para extraer relaciones entre entidades.
Extracción y encadenamiento de entidades: también conocido como reconocimiento de entidades nombradas.
Extracción de eventos: Equivale a una extracción de relaciones múltiples.
La extracción de relaciones (RE) tiene como objetivo extraer las relaciones contenidas en el texto y es una parte importante de la extracción de información (IE). Es el principal responsable de identificar entidades a partir de texto no estructurado y extraer relaciones semánticas entre entidades. Se utiliza ampliamente en sistemas de recuperación de información y respuesta a preguntas. Este artículo comienza con los conceptos básicos de extracción de relaciones y clasifica los métodos de extracción de relaciones según diferentes perspectivas. Finalmente, comparte conjuntos de datos comunes de métodos de extracción de relaciones basados en el aprendizaje profundo y resume el marco de extracción de relaciones basado en el aprendizaje profundo.
La extracción completa de relaciones incluye dos subprocesos: extracción de entidades y clasificación de relaciones. El subproceso de extracción de entidades, también conocido como reconocimiento de entidades nombradas, se utiliza para detectar entidades en una oración y clasificarlas. El subproceso de clasificación de relaciones se usa para determinar la relación semántica entre dos entidades en una oración determinada, que es una pregunta de clasificación de categorías múltiples.
Por ejemplo, para la oración "Qingdao está ubicada en la parte oriental de la provincia de Shandong", el subproceso de extracción de entidades detecta que hay dos entidades en la oración, a saber, "Qingdao" y "Shandong". . La subrutina de clasificación de relaciones detecta que las entidades "Qingdao" y "Shandong" en la oración tienen una relación "ubicada en", no una relación "nacida en". Nacido de "relación". En el proceso de extracción de relaciones, la mayoría de los métodos brindan información de entidad de forma predeterminada, por lo que la extracción de relaciones puede considerarse como un problema de clasificación.
Actualmente, existen 5 tipos de extracción de relaciones de uso común. Los métodos, respectivamente, son métodos basados en coincidencia de patrones, métodos basados en diccionarios, métodos basados en aprendizaje automático, métodos basados en ontologías y métodos híbridos. Los métodos basados en coincidencias de patrones y métodos basados en diccionarios se basan en la formulación manual de reglas, que es el tiempo. -Consume mucha mano de obra y tiene poca portabilidad. Pobre; el método basado en ontología tiene una estructura relativamente compleja y una teoría inmadura. El método basado en aprendizaje automático se basa en tecnología de procesamiento de lenguaje natural y combina modelos de lenguaje estadístico para la extracción de relaciones. Es relativamente simple, tiene buen rendimiento y se ha convertido en la corriente principal de los métodos de extracción de relaciones. Los métodos de extracción de relaciones que se mencionan a continuación se basan todos en el aprendizaje automático.
Con respecto a la extracción de relaciones de información, puede considerar el grado. de anotación de los datos de entrenamiento, el método de aprendizaje automático utilizado y si la extracción de entidades y las relaciones se realizan al mismo tiempo con el subproceso de clasificación, y si se debe limitar el campo de extracción de relaciones y la exclusividad de las relaciones, y la autocracia de las relaciones se utiliza para clasificar. los métodos de extracción de relaciones del aprendizaje automático.
Según el grado de etiquetado de los datos de entrenamiento, los métodos de extracción de relaciones se pueden dividir en tres categorías: supervisados, semi-supervisados y no supervisados. >
Aprendizaje supervisado, la unidad básica de procesamiento es una oración que contiene un par de entidades específicas, y cada par de entidades está etiquetado con una categoría. Ventajas: puede utilizar muestras de manera efectiva, con mayor precisión y recuperación. Requiere mucha anotación manual del corpus de entrenamiento, lo cual es costoso.
El aprendizaje semisupervisado utiliza oraciones como unidad básica de datos de entrenamiento. Estos métodos permiten a los alumnos explotarlos automáticamente. muestras sin etiquetar para mejorar el rendimiento del aprendizaje sin depender de interacciones externas.
El aprendizaje no supervisado, donde los datos de entrenamiento no están etiquetados en absoluto, incluye tres procesos: etiquetado de pares de entidades, agrupación de relaciones y selección de palabras de relación.
Dependiendo del método de aprendizaje automático utilizado, la extracción de relaciones se puede dividir en tres categorías: