Red de conocimiento informático - Conocimiento informático - Parosky (herramienta de procesamiento de lenguaje natural basada en Python)

Parosky (herramienta de procesamiento de lenguaje natural basada en Python)

Parosky es una herramienta de procesamiento de lenguaje natural basada en Python que ayuda a los usuarios a analizar y procesar texto. Admite una variedad de tareas de procesamiento del lenguaje natural, como anotaciones léxicas, análisis sintáctico, reconocimiento de entidades nombradas, etc. Parosky es un proyecto de código abierto y su código fuente y documentación están disponibles en GitHub.

Instalación de Parosky

Para utilizar Parosky, primero debes instalarlo. Instalar Parosky es muy simple, solo usa el comando pip. Escriba el siguiente comando en la terminal:

````

pipinstall-Unltk

```

Después de instalar nltk, También necesitas descargar el paquete Parosky. Ingrese el siguiente comando en Python:

``

importnltk

nltk.download('punkt')

nltk.download( 'averged_perceptron_tagger')

nltk.download('maxent_ne_chunker')

nltk.download('palabras')

``

Estos comandos descargarán los paquetes de datos necesarios para que Parowski funcione correctamente.

Anotación léxica usando Parosky

La anotación léxica es el proceso de relacionar cada palabra con su parte de la oración. Parosky puede ayudarnos a realizar anotaciones de parte del discurso para comprender mejor el texto. Aquí hay un ejemplo simple:

```

importnltk

fromnltk.tokenizeimportword_tokenize

text=" Estoy aprendiendo el procesamiento de lenguaje natural con Python"

tokens=word_tokenize(texto)

tagged=nltk.pos_tag(tokens)

imprimir( etiquetado)

``

Este código generará lo siguiente:

``

[('I', 'PRP'), ('am', 'VBP'), ('learning ', 'VBG'), ('natural', 'JJ'), ('idioma', 'NN '), ('procesamiento', 'NN'), ('con', 'IN'), ('Python ', 'NNP')]

```

Cada palabra aquí se ha relacionado con su parte del discurso. Por ejemplo, la parte retórica de 'I' es 'PRP', que significa pronombre personal. La parte gramatical de 'am' es 'VBP', que significa verbo.

Reconocimiento de entidades nombradas usando Parosky

El reconocimiento de entidades nombradas es el proceso de identificar entidades nombradas en texto. Parosky nos ayuda con el reconocimiento de entidades con nombre para comprender mejor el texto.

Aquí tienes un ejemplo sencillo:

```

importnltk

fromnltk.tokenizeimportword_tokenize

fromnltk.chunkimportne_chunk

text="BarackObamawasborninHawaii"

tokens=word_tokenize(texto)

tagged=nltk.pos_tag(tokens)

named_entities=ne_chunk( etiquetado)

print(named_entities)

``

``

Este código generará lo siguiente:

` `

(S

(PERSONBarack/NNP)

(PERSONObama/NNP)

fue/VBD

nació /VBN

in/IN

(GPEHawaii/NNP))

``

El texto aquí contiene dos nombres Entidades: " Barack Obama" y "Hawái". Parosky los etiqueta como "PERSONA" y "GPE", que representan nombres de personas y lugares respectivamente.

Utilice Parosky para el análisis sintáctico

El análisis sintáctico es el El proceso de análisis de la estructura de las oraciones puede ayudarnos a realizar un análisis sintáctico para comprender mejor el texto:

```

importnltk

fromnltk.tokenizeimportword_tokenize<. /p>

fromnltkimportTree

text="Vi al hombre con el telescopio"

tokens=word_tokenize(texto)

tagged =nltk.pos_tag(tokens)

grammar="NP:{? *}"

parser=nltk.RegexpParser(gramática)

tree=parser(etiquetado)

forsubtreeintree.subtrees():

ifsubtree.label()=='NP':

imprimir(subárbol)

``

`

Este código generará lo siguiente:

``

(NPI/PRP)

(NPthe/DTman/ NN)

(NPthe/ DTtelescope/NN)

``

El texto aquí contiene tres sustantivos Frases: "I", "theman" y "thetelescope ". Parosky etiqueta a cada uno de ellos como "NP", que significa frase nominal.