Red de conocimiento informático - Aprendizaje de programación - Lección 16 de PNL: Práctica de análisis de dependencia sintáctica china

Lección 16 de PNL: Práctica de análisis de dependencia sintáctica china

El análisis sintáctico es una de las tecnologías clave del procesamiento del lenguaje natural (PNL). Su tarea básica es determinar la estructura sintáctica de una oración o la dependencia entre las palabras de una oración. Incluye principalmente dos aspectos: por un lado, es determinar el sistema gramatical del idioma, es decir, dar la definición formal de la estructura gramatical de las oraciones legales en el idioma, por otro lado, es el análisis sintáctico; tecnología, es decir, deducir automáticamente la sintaxis de la oración en función de la estructura gramatical dada, y analizar las unidades sintácticas contenidas en las oraciones y las relaciones entre estas unidades sintácticas.

El análisis sintáctico se utiliza en muchos escenarios, como el análisis de registros de usuarios de motores de búsqueda y la identificación de palabras clave, como la extracción de información, la respuesta automática a preguntas, la traducción automática y otras tareas relacionadas con el procesamiento del lenguaje natural.

El análisis sintáctico necesita seguir un determinado sistema gramatical, y la representación del árbol sintáctico se determina según el sistema gramatical. Veamos la siguiente oración:

Usa la herramienta de visualización. Stanford Parser analiza todo el proceso en el análisis sintáctico:

El árbol de estructura de frase consta de tres partes: nodos terminales, nodos no terminales y etiquetas de frase. Las reglas sintácticas de división de oraciones forman una frase para varios puntos finales, y estos puntos finales participan en la siguiente especificación como no puntos finales hasta el final.

El análisis de dependencias (DP) revela la estructura sintáctica de una unidad lingüística analizando las dependencias entre sus componentes.

Intuitivamente, el propósito del análisis de dependencia es analizar e identificar los componentes gramaticales de una oración, como sujeto, predicado, objeto y atributivo, y analizar la relación entre los componentes.

La sintaxis de dependencia no tiene una estructura no terminal. Las palabras dependen directamente entre sí, formando un par de dependencias. Una de ellas es la palabra central, también llamada palabra sujeta, y la otra se llama modificador. , también llamada palabra subordinada.

Las relaciones de subordinación se representan mediante arcos dirigidos, llamados arcos de dependencia. La dirección del arco de dependencia es de la palabra subordinada a la palabra sujeta. Por supuesto, también se puede expresar uniformemente en la dirección opuesta según los hábitos personales.

Por ejemplo, la siguiente oración:

Los resultados del análisis de la sintaxis de dependencia son los siguientes (usando HIT LTP):

A partir de los resultados del análisis, puede Se puede ver que el núcleo de la oración El predicado es "proponer", el sujeto es "Li Keqiang" y el objeto de la propuesta es "apoyar a Shanghai ...", "investigar ...". El objeto de "propuesto" es "apoyar a Shanghai", "investigación" es el gerundio (temporal) de "propuesto", el modificador de "Li Keqiang" es "Primer Ministro del Consejo de Estado" y el objeto de "apoyo" es "apoyar a Shanghai". El objetivo es "explorar nuevos mecanismos".

Según los resultados del análisis de sintaxis de dependencia anterior, podemos ver fácilmente que el "proponente" es "Li Keqiang", no "Shanghai" o "Waigaoqiao". Aunque "Waigaoqiao" y "Li Keqiang" son ambos sustantivos, se acercan más a "propuesta".

La sintaxis de dependencia explica la estructura sintáctica de una unidad lingüística analizando las relaciones de dependencia entre los componentes. Cree que el verbo central es el componente central de la oración y domina a otros componentes. En sí mismo no está dominado por ningún otro componente, y todos los componentes dominados están subordinados al dominante en alguna relación.

En la década de 1970, Robinson propuso cuatro axiomas sobre las relaciones de dependencia en la sintaxis de dependencia. En la investigación sobre el procesamiento de información chino, los académicos chinos propusieron el quinto axioma sobre las relaciones de dependencia, de la siguiente manera:

. El fenómeno de dominio mutuo y dominio, interdependencia y dependencia entre los componentes de la oración es común en palabras chinas (compuestas), frases, oraciones individuales, párrafos, capítulos y otros idiomas que se pueden usar y expresar de forma independiente. Esta característica refleja la universalidad. de dependencia. El análisis de sintaxis de dependencia puede reflejar la relación de modificación semántica entre los componentes de la oración y obtener información de colocación de largo alcance, independientemente de la ubicación física de los componentes de la oración.

Las relaciones de anotación del análisis de sintaxis de dependencia (***14 tipos) y sus significados se muestran en la siguiente tabla:

Semantic Dependency Parsing (SDP), analiza cada unidad lingüística de la oración. Asociaciones semánticas entre ellos y presentar las asociaciones semánticas en forma de estructuras de dependencia. La ventaja de utilizar el análisis de dependencia semántica para describir la semántica de oraciones es que no abstrae el vocabulario en sí, sino que describe el vocabulario a través del marco semántico que lleva el vocabulario y, en comparación con el vocabulario, el número de artículos es siempre mucho menor.

El objetivo del análisis de dependencia semántica es obtener directamente información semántica profunda a través de la estructura sintáctica superficial de la oración. Por ejemplo, las siguientes tres oraciones expresan la misma información semántica en diferentes expresiones, a saber: Zhangsan realizó una acción de comer y la acción de comer se realizó sobre manzanas.

El análisis de dependencia semántica no tiene nada que ver con la estructura sintáctica. Conecta directamente los arcos de dependencia de las unidades lingüísticas con asociaciones semánticas directas y anota las relaciones semánticas correspondientes. Ésta es una diferencia importante entre el análisis de dependencia semántica y el análisis de sintaxis de dependencia.

Las dependencias semánticas se dividen en tres categorías, a saber, roles semánticos principales. Cada rol corresponde a una relación anidada y una relación de eventos inversa, que describe la relación entre dos etiquetas de dependencia semántica, de las que depende la marca; información, como el tono del hablante.

Finalmente, implementamos ejercicios prácticos sobre sintaxis de dependencia utilizando la biblioteca Pyhanlp. Durante este proceso, elegimos la herramienta Visor de dependencias para la visualización. Para su visualización, el documento de texto debe estar codificado en UTF-8.

Primero introduce el paquete de software, y luego podrás analizarlo directamente:

Resultados:

A continuación, guardamos los resultados en un archivo txt:

Finalmente, visualícelo a través de la herramienta Visor de dependencias. Si aparecen caracteres confusos, recuerde guardar el documento txt en formato UTF-8 para obtenerlo. Los resultados de la visualización se muestran en la siguiente figura:

Este artículo presenta primero el sistema sintáctico y cómo determinar el árbol sintáctico de la oración en función del sistema sintáctico, lo que sienta las bases para el análisis sintáctico posterior.

A continuación, se presenta la sintaxis de dependencia, cuyo objetivo es revelar la estructura sintáctica de una unidad lingüística mediante el análisis de las dependencias entre sus componentes, y luego explica las cinco dependencias principales en la sintaxis de dependencia.

Finalmente, se introduce más la dependencia semántica, que es diferente de la sintaxis de dependencia. Su propósito es analizar la correlación semántica entre varias unidades lingüísticas en la oración y presentar la correlación semántica en forma de una estructura de dependencia. .

Al final del artículo, Pyhanlp lo llevará a comprender mejor la sintaxis de dependencia china a través de la práctica y visualización de Pyhanlp.

Referencias y lecturas recomendadas: