Cómo utilizar Python para el procesamiento de textos en chino
1, fxsjy/jieba
El lema de Jieba es: Haga la mejor segmentación de palabras en chino de Python El componente Puede que no sea el mejor a partir de ahora, pero ha sido utilizado por la mayoría de la gente. Hay muchos materiales de aprendizaje y casos de uso en línea, por lo que comenzar es relativamente fácil y rápido.
Ventajas de Jieba:
Admite tres modos de segmentación de palabras
Admite la segmentación de palabras en chino tradicional
Admite diccionarios personalizados
Acuerdo de licencia del MIT
2. THULAC: kit de herramientas eficiente para el análisis de partes del discurso chino
Hace dos días, estaba clasificando los comentarios de los usuarios de bicicletas compartidas. Debido a que el uso de participios jieba está demasiado disperso, el efecto de clasificación no es bueno. Más tarde, alguien me recomendó THULAC: un conjunto de herramientas de análisis léxico chino desarrollado por el Laboratorio de Procesamiento del Lenguaje Natural y Computación Social y Humanitaria de la Universidad de Tsinghua. La documentación de la interfaz de THULAC es muy detallada y fácil de usar.
Ventajas de THULAC:
Potentes funciones. Utilizando el mayor corpus chino de segmentación de palabras artificiales y etiquetado de partes del discurso (que contiene aproximadamente 58 millones de palabras) para el entrenamiento, el modelo tiene poderosas capacidades de anotación.
Alta precisión. En el conjunto de datos estándar Text Tree Bank (CTB5), el kit de herramientas tiene un valor F1 de hasta 97,3 para segmentación de palabras y un valor F1 de hasta 92,9 para etiquetado de partes del discurso.
Rápido. La velocidad de segmentación de palabras y etiquetado de partes del discurso simultáneos es de 300 KB/s y puede procesar alrededor de 150.000 palabras por segundo. La velocidad de segmentación de palabras por sí sola puede alcanzar 1,3 MB/s, que es más lenta que jieba
Python básicamente puede usar la siguiente lógica para resolver problemas de codificación china:
utf8 (entrada) - -gt ; unicode (procesamiento) --gt; (salida) --gt; (salida) utf8
Todos los caracteres procesados por Python están codificados en Unicode, por lo que la forma de resolver el problema de codificación es convertirlos. el texto de entrada (independientemente de su codificación cómo) se decodifica en Unicode y luego codifica la salida con la codificación deseada.
Dado que estamos tratando con documentos de texto generales, el método más simple es guardar el documento de texto como codificación utf-8 y luego usar Python para decodificarlo en Unicode (sometexts.decode('utf8')) , el resultado de salida se devuelve a txt codificado como utf8 (usando directamente la función str()).