Método de vectorización de texto
Ignore estos detalles, estudie la vectorización del texto general e introduzca las siguientes ideas generales:
1: Modelo de espacio vectorial VSM
Creo que, en general, el vector. También se puede decir que el modelo espacial al que se hace referencia es un modelo de bolsa de palabras: el modelo más simple se basa en una representación única de palabras, con cada palabra como clave de dimensión, la posición correspondiente de algunas palabras es 1, otras son 0, la longitud del vector es la misma que el tamaño del diccionario. El valor tfidf de esta palabra se usa comúnmente en ingeniería (palabra1, palabra2, palabra3...palabran). itidf es el método de cálculo de peso más común en el procesamiento de textos y es una solución básica. En base a esto, también existen una serie de métodos de optimización, como el peso TFC / peso ITC, pero la idea es similar a tfidf. Generalmente se realiza la normalización y muchas herramientas tienen módulos correspondientes para calcular tfidf. Al seleccionar diferentes palabras como características dimensionales, primero se deben eliminar las palabras vacías, lo que también implica la cuestión de la selección de características. No todas las palabras son apropiadas para usar. Generalmente, se realiza un filtrado simple en función del valor ifidf o la frecuencia de las palabras, y también existen algunos métodos especiales para seleccionar características, como ganancia de información, información mutua, estadísticas de chi-cuadrado, etc. , introducido específicamente en algunos artículos.
Vectorización de texto, tfidf, este es un método mencionado en más de 90 artículos y demostraciones y artículos de bibliotecas de aprendizaje automático relacionados. En cuanto a sus ventajas, es sencillo y fácil de utilizar y puede cubrir en gran medida nuestras necesidades. Dé un ejemplo fácil de entender.
La segmentación de palabras chinas puede introducir errores, especialmente en oraciones coloquiales. Debido al efecto cascada, el efecto del análisis de texto final del aprendizaje automático se verá muy afectado.
Aunque este método compensa la pérdida semántica hasta cierto punto, no retiene la información del orden de las palabras, lo que resulta en una pérdida semántica considerable;
La última oración tiene una dimensión más alta y el vocabulario chino se utiliza habitualmente desde decenas hasta cientos de miles. Aunque se puede utilizar el filtrado de palabras vacías para reducir la dimensión, la dimensión final aún permanecerá en el nivel 10,000. Aprender con sklearn (10,000 conjuntos de entrenamiento) puede ocupar de decenas a cientos de gramos de memoria y básicamente no hay tolerancia a errores tipográficos. "
En términos generales. Creo que hay dos puntos:
1. Desastre multidimensional, hay muchas dimensiones del texto.
2. Pérdida semántica , Esto se manifiesta en la pérdida de información sobre el orden de las palabras, la incapacidad de reflejar sinónimos, la suposición de que las palabras son independientes, etc.