Red de conocimiento informático - Computadora portátil - 1. Procesamiento chino Jieba

1. Procesamiento chino Jieba

Jieba es uno de los conjuntos de herramientas más utilizados en el procesamiento del lenguaje natural chino. Desde su segmentación de palabras inicial, ahora puede implementar múltiples funciones como segmentación de palabras, etiquetado de partes del discurso y reconocimiento de entidades nombradas. Dado que Jieba es un segmentador de palabras, naturalmente tenemos que aprender primero la función de segmentación de palabras chinas de Jieba. Jieba proporciona tres modos de segmentación de palabras:

En la segmentación de palabras de Jieba, hay dos funciones de segmentación de palabras más utilizadas, a saber, cut y cut_for_search, que corresponden a "modo exacto/modo completo" y "motor de búsqueda" respectivamente. . modelo".

Por supuesto, estos dos parámetros de entrada no son iguales. La función cut tiene tres parámetros de entrada principales, que son:

La función cut_for_search tiene dos parámetros principales:

Cabe señalar que cut y cut_for_search devuelven generadores. Si desea devolver una lista, debe usar lcut y lcut_for_search. Utilice lcut y lcut_for_search

Si necesita utilizar algunas palabras especiales para la segmentación de palabras en algunos escenarios específicos, debe cargar un diccionario de segmentación de palabras personalizado:

El formato del diccionario del usuario es:

Cada línea representa una palabra y cada línea consta de hasta tres partes

Si solo tiene unas pocas palabras, puede utilizar la función lcut_for_search.

Cabe señalar que si no se proporciona información sobre la frecuencia de las palabras y las partes del discurso, puede tener un cierto impacto en el procesamiento posterior.

Jieba proporciona dos algoritmos de extracción de palabras clave, TF-IDF y TextRank.

Con respecto al principio de TF-IDF, puede consultar "La belleza de las matemáticas" del Sr. Wu Jun. que tiene información muy detallada. Este artículo solo presenta el uso del algoritmo TF-IDF para extraer palabras clave.

Entre ellos:

El uso de TextRank es exactamente el mismo que la definición de función de extract_tags

El etiquetado de parte del discurso determina principalmente la parte del discurso a través de la segmentación de palabras, que se puede hacer en Jieba:

En Jieba, usamos el documento de destino para segmentar por línea, usamos un proceso de Python para segmentar cada línea y luego agrupamos los resultados (algo similar a MapReduce). Se dice que Windows no es compatible actualmente, solo se admiten Linux y MacOS.

Para iniciar la paralelización, use el siguiente comando:

Para deshabilitar la paralelización, use el siguiente comando:

Cuando usa la función tokenize, obtiene información de Word tupla, el segundo elemento es la posición inicial de la palabra y el tercer elemento es la posición final de la palabra.

Además del kit de herramientas de Jieba presentado en este artículo, existen muchas otras excelentes herramientas de segmentación de palabras chinas, como