Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Cuáles son las herramientas de procesamiento de texto de Python?

¿Cuáles son las herramientas de procesamiento de texto de Python?

1. ¿NLTK? Kit de herramientas de lenguaje natural

No debería haber estudiantes involucrados en el procesamiento del lenguaje natural que no conozcan NLTK, por lo que no entraré en detalles aquí. Sin embargo, recomiendo dos libros a los estudiantes que acaban de entrar en contacto con NLTK o que necesitan aprender más sobre NLTK: uno es el "Procesamiento del lenguaje natural con Python" oficial, que presenta principalmente las funciones y el uso en NLTK, junto con algo de Python. conocimiento, y también tiene la amistad de su compañero de clase Chen Tao. Se ha traducido una versión al chino, puede verla aquí: Traducción al chino recomendada "Procesamiento del lenguaje natural con Python": libro complementario NLTK; el otro es "Procesamiento de textos Python con NLTK 2.0; Libro de cocina ", este libro es más profundo e incluirá la estructura del código de NLTK y cómo personalizar su propio corpus y modelos, lo cual es bastante bueno.

2. Pattern

Pattern es producido por el Laboratorio CLiPS de la Universidad de Amberes, Bélgica. Objetivamente hablando, Pattern no es solo un conjunto de herramientas de procesamiento de texto, también es un. conjunto de herramientas de minería de datos web, incluidos módulos de rastreo de datos (incluidas las API de Google, Twitter, Wikipedia, así como rastreadores y analizadores de HTML), módulos de procesamiento de texto (etiquetado de partes del discurso, análisis de sentimientos, etc.), aprendizaje automático. módulos (VSM, clustering, SVM) y módulo de visualización, etc. Se puede decir que todo el conjunto de lógica de Pattern es también la lógica organizativa de este artículo, pero aquí colocamos temporalmente Pattern en la sección de procesamiento de texto. Lo que personalmente uso principalmente es su módulo de procesamiento de inglés Pattern.en, que tiene muchas funciones de procesamiento de texto muy buenas, que incluyen tokenización básica, etiquetado de partes del discurso, segmentación de oraciones, revisión gramatical, corrección ortográfica, análisis de sentimientos, análisis de sintaxis, etc. . Bastante bien.

3. TextBlob: procesamiento de texto simplificado

TextBlob es un paquete de herramientas de procesamiento de texto Python muy interesante. En realidad, está encapsulado en base a los dos paquetes de herramientas Python anteriores, NLKT y Pattern (TextBlob). sobre los hombros gigantes de NLTK y el patrón, y funciona muy bien con ambos), al mismo tiempo que proporciona interfaces para muchas funciones de procesamiento de texto, incluido el etiquetado de partes del discurso, la extracción de frases nominales, el análisis de sentimientos, la clasificación de texto, la revisión ortográfica, etc., y incluso traducción y detección de idioma, pero esto se basa en la API de Google y tiene un límite en la cantidad de llamadas.

4. MBSP para Python

MBSP tiene el mismo origen que Pattern y proviene del Laboratorio CLiPS de la Universidad de Amberes en Bélgica. Proporciona tokenización de palabras, segmentación de oraciones y particiones. Etiquetado del habla, fragmentación, lematización. Los estudiantes interesados ​​pueden prestar atención a las funciones básicas de procesamiento de texto, como el análisis de sintaxis.

En cuanto a qué son las herramientas de procesamiento de texto de Python, el editor de Global Qingteng las compartirá con usted aquí. El aprendizaje es interminable y aprender una habilidad lo beneficiará de por vida. están dispuestos a trabajar duro. Nunca es demasiado tarde para empezar a aprender. Si desea continuar aprendiendo sobre los métodos y materiales de aprendizaje de programación de Python, puede hacer clic en otros artículos de este sitio para aprender.