Red de conocimiento informático - Problemas con los teléfonos móviles - Cómo utilizar la segmentación de palabras tartamudas para procesar sinónimos chinos en Python

Cómo utilizar la segmentación de palabras tartamudas para procesar sinónimos chinos en Python

Segmentación de palabras chinas en Python: segmentación de palabras tartamudas

La segmentación de palabras chinas es un trabajo básico en el procesamiento de textos chinos. La segmentación de palabras tartamudas utiliza la segmentación de palabras tartamudas en Python para procesar la segmentación de palabras chinas. Hay tres principios básicos de implementación:

Se implementa un escaneo eficiente de gráficos de palabras basado en la estructura de árbol Trie para generar un gráfico acíclico dirigido (DAG) de todas las combinaciones posibles de palabras en una oración de caracteres chinos

Utilice programación dinámica para encontrar la ruta con mayor probabilidad y encuentre la combinación de corte máxima según la frecuencia de las palabras

Para palabras no registradas, utilice el modelo HMM basado en la capacidad de los caracteres chinos para formar palabras y usar el algoritmo de Viterbi

Instalación (entorno Linux)

Descarga el paquete de herramientas, descomprímelo y ve al directorio, ejecuta python setup.py install

Modo

Modo predeterminado, prueba las oraciones más precisas Divida localmente, adecuado para análisis de texto

Modo completo, escanea todas las palabras que pueden formar palabras en la oración, adecuado para motores de búsqueda

Interfaz

Solo este componente. El método jieba.cut se proporciona para la segmentación de palabras.

El método de corte acepta dos parámetros de entrada:

El primer parámetro es la cadena que debe dividirse

Se utiliza el parámetro cut_all Controla el modo de división del método jieba.cut

La cadena que debe dividirse puede ser una cadena gbk, utf -8 cadenas o Unicode

La estructura devuelta por el método jieba.cut es un generador iterativo. La estructura devuelta por cut es un generador iterable que se puede usar en un bucle for para obtener cada palabra después de dividir (unicode), o en una lista (jieba.cut(...)), o en una lista (jieba.cut (...)) a una lista

Ejemplo

#! -*- Codificación: utf-8 -*-

importar jieba

seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing", cut_all = True)

imprimir "Modo completo:", ' '.join(seg_list)

seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing")

imprimir "Modo predeterminado:", ' '.join(seg_list)