Cómo utilizar la segmentación de palabras tartamudas para procesar sinónimos chinos en Python
La segmentación de palabras chinas es un trabajo básico en el procesamiento de textos chinos. La segmentación de palabras tartamudas utiliza la segmentación de palabras tartamudas en Python para procesar la segmentación de palabras chinas. Hay tres principios básicos de implementación:
Se implementa un escaneo eficiente de gráficos de palabras basado en la estructura de árbol Trie para generar un gráfico acíclico dirigido (DAG) de todas las combinaciones posibles de palabras en una oración de caracteres chinos
Utilice programación dinámica para encontrar la ruta con mayor probabilidad y encuentre la combinación de corte máxima según la frecuencia de las palabras
Para palabras no registradas, utilice el modelo HMM basado en la capacidad de los caracteres chinos para formar palabras y usar el algoritmo de Viterbi
Instalación (entorno Linux)
Descarga el paquete de herramientas, descomprímelo y ve al directorio, ejecuta python setup.py install
Modo
Modo predeterminado, prueba las oraciones más precisas Divida localmente, adecuado para análisis de texto
Modo completo, escanea todas las palabras que pueden formar palabras en la oración, adecuado para motores de búsqueda
Interfaz
Solo este componente. El método jieba.cut se proporciona para la segmentación de palabras.
El método de corte acepta dos parámetros de entrada:
El primer parámetro es la cadena que debe dividirse
Se utiliza el parámetro cut_all Controla el modo de división del método jieba.cut
La cadena que debe dividirse puede ser una cadena gbk, utf -8 cadenas o Unicode
La estructura devuelta por el método jieba.cut es un generador iterativo. La estructura devuelta por cut es un generador iterable que se puede usar en un bucle for para obtener cada palabra después de dividir (unicode), o en una lista (jieba.cut(...)), o en una lista (jieba.cut (...)) a una lista
Ejemplo
#! -*- Codificación: utf-8 -*-
importar jieba
seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing", cut_all = True)
imprimir "Modo completo:", ' '.join(seg_list)
seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing")
imprimir "Modo predeterminado:", ' '.join(seg_list)