Parosky (herramienta de procesamiento de lenguaje natural basada en Python)
Parosky es una herramienta de procesamiento de lenguaje natural basada en Python que ayuda a los usuarios a analizar y procesar texto. Admite una variedad de tareas de procesamiento del lenguaje natural, como anotaciones léxicas, análisis sintáctico, reconocimiento de entidades nombradas, etc. Parosky es un proyecto de código abierto y su código fuente y documentación están disponibles en GitHub.
Instalación de Parosky
Para utilizar Parosky, primero debes instalarlo. Instalar Parosky es muy simple, solo usa el comando pip. Escriba el siguiente comando en la terminal:
````
pipinstall-Unltk
```
Después de instalar nltk, También necesitas descargar el paquete Parosky. Ingrese el siguiente comando en Python:
``
importnltk
nltk.download('punkt')
nltk.download( 'averged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('palabras')
``
Estos comandos descargarán los paquetes de datos necesarios para que Parowski funcione correctamente.
Anotación léxica usando Parosky
La anotación léxica es el proceso de relacionar cada palabra con su parte de la oración. Parosky puede ayudarnos a realizar anotaciones de parte del discurso para comprender mejor el texto. Aquí hay un ejemplo simple:
```
importnltk
fromnltk.tokenizeimportword_tokenize
text=" Estoy aprendiendo el procesamiento de lenguaje natural con Python"
tokens=word_tokenize(texto)
tagged=nltk.pos_tag(tokens)
imprimir( etiquetado)
``
Este código generará lo siguiente:
``
[('I', 'PRP'), ('am', 'VBP'), ('learning ', 'VBG'), ('natural', 'JJ'), ('idioma', 'NN '), ('procesamiento', 'NN'), ('con', 'IN'), ('Python ', 'NNP')]
```
Cada palabra aquí se ha relacionado con su parte del discurso. Por ejemplo, la parte retórica de 'I' es 'PRP', que significa pronombre personal. La parte gramatical de 'am' es 'VBP', que significa verbo.
Reconocimiento de entidades nombradas usando Parosky
El reconocimiento de entidades nombradas es el proceso de identificar entidades nombradas en texto. Parosky nos ayuda con el reconocimiento de entidades con nombre para comprender mejor el texto.
Aquí tienes un ejemplo sencillo:
```
importnltk
fromnltk.tokenizeimportword_tokenize
fromnltk.chunkimportne_chunk
text="BarackObamawasborninHawaii"
tokens=word_tokenize(texto)
tagged=nltk.pos_tag(tokens)
named_entities=ne_chunk( etiquetado) p >
print(named_entities)
``
``
Este código generará lo siguiente:
` `
(S
(PERSONBarack/NNP)
(PERSONObama/NNP)
fue/VBD
nació /VBN
in/IN
(GPEHawaii/NNP))
``
El texto aquí contiene dos nombres Entidades: " Barack Obama" y "Hawái". Parosky los etiqueta como "PERSONA" y "GPE", que representan nombres de personas y lugares respectivamente.
Utilice Parosky para el análisis sintáctico
El análisis sintáctico es el El proceso de análisis de la estructura de las oraciones puede ayudarnos a realizar un análisis sintáctico para comprender mejor el texto:
```
importnltk
fromnltk.tokenizeimportword_tokenize<. /p>
fromnltkimportTree
text="Vi al hombre con el telescopio"
tokens=word_tokenize(texto)
tagged =nltk.pos_tag(tokens)
grammar="NP:{? *}"
parser=nltk.RegexpParser(gramática)
tree=parser(etiquetado)
forsubtreeintree.subtrees():
ifsubtree.label()=='NP':
imprimir(subárbol)
``
`
Este código generará lo siguiente:
``
(NPI/PRP)
(NPthe/DTman/ NN)
(NPthe/ DTtelescope/NN)
``
El texto aquí contiene tres sustantivos Frases: "I", "theman" y "thetelescope ". Parosky etiqueta a cada uno de ellos como "NP", que significa frase nominal.