Red de conocimiento informático - Aprendizaje de programación - segmentación de palabras jieba (R vs. python)

segmentación de palabras jieba (R vs. python)

El procesamiento del lenguaje natural (PLN) es una de las ramas importantes del aprendizaje automático y se utiliza principalmente en áreas como la comprensión de capítulos, el resumen de textos, el análisis de sentimientos, los gráficos de conocimiento y la traducción de textos. El primer paso en la aplicación de PNL es segmentar el texto. Actualmente, existen muchos segmentadores de palabras chinos, como Ansj, paoding y Pangu, y el segmentador de palabras más básico debe pertenecer al segmentador de palabras jieba (consulte la figura siguiente). comparación).

A continuación se utilizará R y Python para comparar la aplicación de la segmentación de palabras jieba en los campos de segmentación de palabras chinas, etiquetado de partes del discurso y extracción de palabras clave.

Implementación de R

Inicializa el motor de segmentación de palabras a través de la función trabajador() y usa segment() para la segmentación de palabras. Hay cuatro modos de segmentación de palabras: Método de máxima probabilidad (MP), Modelo oculto de Markov (HMM), Modelo mixto (Mix) y Modelo de índice (consulta). Para obtener más información, consulte ayuda (trabajador).

#install.packages('jiebaR')library(jiebaR)mixseg lt; - trabajador()segment( "Este es un texto de prueba", mixseg) # O utilice las siguientes operaciones mixseg['Este es un texto de prueba'] mixseg lt; = "Este es un texto de prueba"

Implementación de Python

La biblioteca jieba debe instalarse en python y uso jieba.cut Implementar la segmentación de palabras. El parámetro cut_all es el tipo de segmentación de palabras y el valor predeterminado es el modo exacto.

import jiebaseg_list = jieba.cut(u"Este es un texto de prueba", cut_all = False)print("Modo completo: " ",".join(seg_list))? p>

p>

Tanto R como Python están codificados en utf-8.

Implementación de R

Puede usar lt;=.tagger o etiqueta para la segmentación de palabras y el etiquetado de partes del discurso utiliza un modelo híbrido para Word. La segmentación y el etiquetado utilizan una notación compatible con ictclas.

palabras = "Me encanta Tiananmen, Beijing" tagger = trabajador("tag") #Abrir el generador de etiquetado de partes del discurso tagger lt; = palabras # r v ? love"? "Beijing " "Tiananmen"

implementación de Python

#Etiquetado de parte del discurso import jieba.posseg as psegwords = pseg.cut("Me encanta Beijing Tiananmen") para palabra, bandera en palabras: print( 's, s' (palabra, bandera))

Implementación de R

La extracción de palabras clave de R utiliza el corpus de texto de frecuencia de archivo inversa (IDF) y active las palabras clave a través del parámetro de trabajo "palabras clave". Extraiga la heurística y el parámetro topn es el número de palabras clave.

keys = trabajador("keywords", topn = 5, idf = IDFPATH)keys lt; "A la conferencia invitó al Dr. Xi Chuanwu, profesor asociado del Departamento de Ciencias de la Salud Ambiental de la Universidad de Michigan , Ann Arbor, para dar un discurso La conferencia académica titulada "Enfoque de barreras múltiples para el agua potable en los EE. UU.: Por qué falló en Flint" presentó la ocurrencia, el desarrollo y el manejo de los accidentes de contaminación del agua potable en Flint, Michigan, EE. UU. En la conferencia, camaradas de unidades relevantes discutieron con el profesor Xi Chuanwu temas como el sistema de monitoreo en línea para el agua potable, cómo lidiar con los incidentes de contaminación del agua en los Estados Unidos, la renovación de las antiguas redes de tuberías de agua potable y cómo reducir efectivamente la desinfección mediante. -Se discutieron e intercambiaron productos y el modelo de supervisión de productos relacionados con el agua y unidades secundarias de suministro de agua en los Estados Unidos. Este encuentro de intercambio es un nuevo intento desde la implementación del mecanismo de consulta para la gestión del saneamiento del agua potable en nuestra ciudad. También brinda una oportunidad para que el departamento de supervisión integral de salud y planificación familiar de nuestra ciudad explore el modelo de gestión de seguridad y saneamiento del agua potable y las medidas de respuesta ante incidentes repentinos de contaminación del agua. Amplió horizontes e ideas. 23.4784 22.1402 20.326 18.5354 # ? "Agua potable" "Flint" "Salud" ? "Contaminación del agua" "Vida"

Implementación de Python

Python puede usar el método TF-IDF y TextRank Método para implementar la extracción de palabras clave. El parámetro enablePOS es un tipo de parte gramatical de rango limitado.

#Extracción de palabras clave import jieba.analysecontent = u'La conferencia invitó al Dr. Xi Chuanwu, profesor asociado del Departamento de Ciencias de la Salud Ambiental de la Universidad de Michigan (University of Michigan, Ann Arbor), a dar un discurso titulado "Enfoque de barreras múltiples para el agua potable en los EE. UU.: Por qué fracasó en Flint", en el que se presentó la ocurrencia, el desarrollo y el manejo de los accidentes de contaminación del agua potable en Flint, Michigan, EE. UU. Después de la conferencia, los camaradas de las unidades relevantes discutieron con el profesor Xi Chuanwu el sistema de monitoreo en línea para el agua potable, cómo lidiar con los incidentes de contaminación del agua en los Estados Unidos, la renovación de las antiguas redes de tuberías de agua potable y cómo reducir efectivamente los subproductos de la desinfección. Se discutieron e intercambiaron productos relacionados con el agua y unidades secundarias de suministro de agua en los Estados Unidos. Este encuentro de intercambio es un nuevo intento desde la puesta en funcionamiento del mecanismo de negociación para la gestión del saneamiento del agua potable en nuestra ciudad y abre nuevas oportunidades para que el departamento de supervisión integral de salud y planificación familiar de nuestra ciudad explore la gestión del saneamiento y la seguridad del agua potable. Modelos y medidas de respuesta a incidentes repentinos de contaminación del agua. Mejora de la visión y el pensamiento.

'#Basado en TF-IDFkeywords = jieba.analyse.extract_tags(content, topK = 5, withWeight = True, enablePOS = ('n', 'nr', 'ns')) para el elemento en palabras clave: imprimir elemento[0] , elemento[1]? #Basado en resultados de TF-IDF# Agua potable 0.448327672795# Flint 0.219353532163# Saneamiento 0.203120821773# Contaminación del agua 0.186477211628# Vida 0.170049997544

#Basado en TextRankkeywords = jieba.analyse .textrank(contenido, topK = 5, withWeight = True, enablePOS = ('n', 'nr', 'ns')) para el artículo en palabras clave: imprimir artículo[0], artículo[1] #Basado en resultados de TextRank: # agua potable 1.0 # Estados Unidos 0.570564785973 # Xi Chuanwu 0.510738424509# Unidad 0.472841889334# Conferencia 0.443770732053

Escrito después del texto

El procesamiento del lenguaje natural (PNL) tiene sus aplicaciones especiales en el campo del análisis de datos. al paquete jiebaR en R, segmentación de palabras chinas El paquete Rwordseg también se usa con mucha frecuencia. Los pasos generales de minería de texto incluyen: adquisición de texto (principalmente mediante rastreo web) - procesamiento de texto (segmentación de palabras, etiquetado de partes del discurso, eliminación de palabras vacías, etc.) - análisis de texto (modelo de tema, análisis de sentimientos) - visualización de análisis ( nube de palabras), gráfico de conocimiento, etc.). Este artículo es el primer artículo sobre el procesamiento del lenguaje natural. Posteriormente, resumiremos los métodos de PNL comúnmente utilizados que aplican el aprendizaje profundo de Word2vec para la incrustación de palabras, modelos de temas y análisis de sentimientos.

Materiales de referencia

Introducción · jiebaR segmentación china/jiebaR/segment.html

Zhihu: el análisis de texto utiliza jiebaR para la segmentación china/p/24882048

p>

Red de datos Xueqing: guía/laboratorios/servicio web de capacitación para ingenieros de datos de pila completa/

Minería de textos R Segmentación de palabras chinas Rwordseg /zzz216@yeah/blog/static/162554684201412895732586/