Introducción a TF-IDF (Término Frecuencia-Frecuencia de documento inversa)
Frecuencia de documentos inversa de términos (TF-IDF) es una técnica de ponderación comúnmente utilizada en la recuperación de información y minería de textos para evaluar la importancia de las palabras para los documentos en un conjunto de documentos o corpus. Se puede evaluar la importancia de las palabras para los documentos de un conjunto de documentos o corpus. La importancia de una palabra aumenta proporcionalmente con el número de veces que aparece en el documento, pero disminuye inversamente con la frecuencia de su aparición en el corpus. Si una palabra es rara pero aparece muchas veces en el artículo, entonces probablemente refleja las características del artículo y es la palabra clave que necesitamos.
Por ejemplo, para contar palabras clave en un documento, la forma más sencilla es calcular la frecuencia de cada palabra.
La frecuencia de términos (TF) se refiere al número de veces que aparece una palabra en un documento.
La palabra con mayor frecuencia es la palabra clave del documento. Pero las palabras que aparecen con más frecuencia en un artículo deben ser palabras como "的", "是", "也"... Estas palabras obviamente no pueden reflejar el significado de este artículo. En este momento, debes agregar Cada palabra. un peso. Las palabras más comunes ("的", "是", "在") reciben el peso más pequeño, y las palabras que son menos comunes pero que pueden reflejar el significado de este artículo reciben un peso mayor. es la frecuencia inversa del documento.
**Frecuencia Inversa de Documentos (IDF)** es una medida de la importancia general de una palabra. Su tamaño es inversamente proporcional a lo común que es la palabra. Se calcula dividiendo el número total de documentos. en el corpus por el corpus. El número de documentos que contienen la palabra en, luego toma el logaritmo del cociente resultante.
Después de conocer TF e IDF, multiplique estos dos valores para obtener el valor TF-IDF de una palabra. Cuanto más importante sea una palabra para un artículo, mayor será su valor TF-IDF. Por lo tanto, las primeras palabras son las palabras clave de este artículo.
Como puedes ver, TF-IDF es directamente proporcional al número de veces que aparece una palabra en un documento e inversamente proporcional al número de veces que aparece una palabra en todo el idioma. Por lo tanto, el algoritmo para extraer automáticamente palabras clave es muy simple: calcule el valor TF-IDF de cada palabra en el documento y luego ordénelo en orden descendente, tomando las primeras palabras.