Red de conocimiento informático - Conocimiento de la instalación - ¿Cuáles son los mejores programas de segmentación de palabras chinas?

¿Cuáles son los mejores programas de segmentación de palabras chinas?

La segmentación de palabras chinas es el paso básico del procesamiento de textos chinos y el módulo básico de la interacción del lenguaje natural chino entre humanos y computadoras. A diferencia del inglés, no hay límites de palabras en las oraciones chinas, por lo que en el procesamiento del lenguaje natural chino, generalmente es necesario realizar la segmentación de palabras primero. El efecto de la segmentación de palabras afectará directamente los efectos de módulos como la parte del discurso y la sintaxis. árboles. Por supuesto, la segmentación de palabras es solo una herramienta y diferentes escenarios tienen diferentes requisitos. En la interacción del lenguaje natural entre humanos y computadoras, los algoritmos maduros de segmentación de palabras chinas pueden lograr mejores efectos de procesamiento del lenguaje natural y ayudar a las computadoras a comprender el chino complejo. Al construir un sistema de diálogo en lenguaje natural chino, Bamboo Intelligence combinó la lingüística con una optimización continua para entrenar un conjunto de modelos algorítmicos con mejores efectos de segmentación de palabras, sentando las bases para que las máquinas comprendan mejor el lenguaje natural chino. Aquí, el Grupo de Aprendizaje Profundo y Lenguaje Natural Inteligente de Bamboo ha organizado y resumido las soluciones de segmentación de palabras chinas, los problemas existentes con los segmentadores de palabras actuales, los factores que deben considerarse para la segmentación de palabras chinas y recursos relacionados. Según los principios y características de implementación, la segmentación de palabras chinas se divide principalmente en las dos categorías siguientes:

1. Algoritmo de segmentación de palabras basado en diccionario, también conocido como algoritmo de segmentación de palabras con coincidencia de cadenas. Este algoritmo hace coincidir la cadena que se va a comparar con el tesauro "suficientemente grande" establecido de acuerdo con una determinada estrategia. Si se encuentra un determinado término, significa que la coincidencia es exitosa y se identifica la palabra. Los algoritmos comunes de segmentación de palabras basados ​​en diccionarios se dividen en las siguientes categorías: coincidencia máxima directa, coincidencia máxima inversa y segmentación de palabras de coincidencia bidireccional. Los algoritmos de segmentación de palabras basados ​​en diccionarios se aplican a las palabras de los diccionarios. El algoritmo de segmentación de palabras basado en diccionario es el algoritmo de segmentación de palabras más utilizado y más rápido. Durante mucho tiempo, los investigadores han estado optimizando los métodos de coincidencia basados ​​en cadenas, como la configuración de longitud máxima, el almacenamiento de cadenas y los métodos de búsqueda, etc., y optimizando la estructura organizativa del vocabulario, como el uso de árboles de índice TRIE, índices hash, etc.

2. Los algoritmos estadísticos de aprendizaje automático se basan en este tipo de algoritmos. Los algoritmos más utilizados actualmente incluyen HMM, CRF, SVM, aprendizaje profundo y otros algoritmos. Por ejemplo, las herramientas de segmentación de palabras como Stanford y Hanlp. Basado en el algoritmo CRF. Tomando CRF como ejemplo, su idea básica es realizar entrenamiento de etiquetado de caracteres chinos, teniendo en cuenta no solo la frecuencia de las palabras sino también el contexto, y tiene una mejor capacidad de aprendizaje, por lo que tiene mejores resultados en el reconocimiento de palabras ambiguas y palabras no registradas. En el artículo "Combinación de clasificadores para la segmentación de palabras chinas", Xue Nianwen propuso por primera vez el método de utilizar un algoritmo de aprendizaje automático para anotar cada carácter chino y entrenar un clasificador para la segmentación de palabras. Anotación", Xue Nianwen explicó el método basado en el método de segmentación de palabras para la anotación de caracteres chinos. Los segmentadores de palabras comunes utilizan un método que combina diccionarios y algoritmos de aprendizaje automático. Por un lado, puede mejorar la precisión de la segmentación de palabras y, por otro lado, puede mejorar la adaptabilidad del dominio.