Red de conocimiento informático - Aprendizaje de código fuente - Extracción de características de texto

Extracción de características de texto

Al procesar datos de texto, una gran parte de la energía se gasta en la extracción de características del conjunto de datos, por lo que se registran los métodos de extracción de características de texto comúnmente utilizados.

La extracción de características del texto generalmente se divide en dos partes

(1) Atributos del texto en sí: número de vocales, número de consonantes,----

(2) Extracción de características basada en texto: TF-IDF, etc.

Por ejemplo, para extraer las características del documento anterior, puede extraer características basadas en el texto mismo:

(1) Recuento de palabras: cuente el número de palabras (número de palabras) en cada línea del cuerpo del texto. (2) Número de palabras únicas: cuente la cantidad de palabras que aparecen solo una vez en cada línea de texto

(3) Longitud: cuente la longitud de cada línea de texto y cuánto espacio de almacenamiento hay ( incluyendo espacios, símbolos, letras, etc. longitud)

(4) Estadísticas del número de palabras de pausa: (4) Número de palabras de pausa: el número de palabras como entre, pero, aproximadamente, muy , etc.

(5) Número de signos de puntuación: el número de signos de puntuación contenidos en cada línea de texto

(6) Número de palabras en mayúsculas: estadísticas del número de palabras en mayúsculas

(7) Número de palabras en el título: el número de palabras en las que la primera letra de la ortografía está en mayúscula y si las demás letras están en minúscula

(8) Longitud promedio de las palabras : la longitud promedio de cada palabra en cada línea de texto

p>

La extracción de estas características no implica cálculos de funciones complejos, sino que extrae información intuitiva basada en los atributos del texto mismo como características para el entrenamiento de modelos.

-

Algoritmo TF-IDF: la implementación más efectiva del algoritmo TF-IDF para calcular el peso de las palabras es el algoritmo TF-IDF propuesto por Salton en 1988. Este algoritmo combina características palabras en La relación entre el número de apariciones en un documento y el número de documentos que contienen la palabra característica se utiliza como peso de la palabra.

La extracción de características TF-IDF se implementa en Python mediante la función TfidfVectorizer, que genera características TF-IDF para cada texto.

-

Después de la extracción de características de TF-IDF, el conjunto de datos tiene variables de súper características (TF-IDF calcula el peso de todas las palabras que aparecen en todo el conjunto de datos en cada prueba). y la cara Para datos de características tan grandes, la compresión del conjunto de datos se puede lograr a través de SVD.

El principio de SVD es dividir el enorme conjunto de datos A generado por TF-IDF y establecer el valor K (la dimensión que desea comprimir, por ejemplo, K = 20. Después de la compresión, obtenga un conjunto de datos de características de 20 columnas) X es el conjunto de datos con solo K características después de la transformación.

Después de la compresión, TF-IDF solo tiene K columnas, mientras que la característica que se fusiona en 01 se basa en el texto mismo, es decir, el vector de características del conjunto de datos de texto.