Cómo utilizar la tecnología de vectores de palabras para calcular la similitud de 2 documentos
En primer lugar, si no está limitado al método NN, puede utilizar el sistema BOW tf-idf LSI/LDA para completar el trabajo, que comúnmente se conoce como 01 o una representación en caliente.
En segundo lugar, si el cartel especifica que se debe utilizar el popular NN, que también se conoce comúnmente como método de incrustación de palabras, la primera opción es, por supuesto, word2vec (aunque no es un DNN real). Luego, después de obtener el vector de palabras de word2vec, puede obtener el vector del documento mediante ponderación simple/ponderación de etiqueta/ponderación tf-idf y otros métodos. Ésta es una forma. Por supuesto, antes de ponderar, las palabras DETENER generalmente deben eliminarse y procesarse la agrupación de palabras.
Además, el vector de párrafo en doc2vec también es un método para obtener directamente el vector de documento. Presenta modificaciones a los modelos cbow y skip-gram en word2vec. Basado en el artículo Representaciones distribuidas de oraciones y documentos (ICML 2014).
También existe un método de ponderación basado en árboles de sintaxis, propuesto por ICML en 2011; consulte el artículo "Análisis de escenas naturales y lenguajes naturales utilizando redes neuronales recurrentes" y algunos ajustes posteriores.
Por supuesto, el método para obtener vectores de palabras no se limita a word2vec; RNNLM y guante también pueden obtener vectores de palabras legendarios de alta calidad.
El artículo ICML2015 "De incrustaciones de palabras a distancias de documentos, Kusner, Universidad de Washington" propuso recientemente un método para calcular la similitud de documentos. La idea general es utilizar la distancia del coseno entre palabras como la distancia entre palabras. distancia terrestre entre palabras, la frecuencia de las palabras se utiliza como peso y la solución óptima de programación lineal se encuentra para armas de destrucción masiva bajo las restricciones del peso.
Finalmente, en un tutorial con tema de word2vec sobre kaggle101, el autor dijo: Probó ponderaciones simples y varias ponderaciones, no importa cómo las procesó, el efecto no fue tan bueno como 01. La razón es que. El autor cree que se pierde la información de ponderación más importante (que también se puede decir que es información del orden de las palabras), y el método doc2vec retiene esta información.
En la recién concluida ACL2015, muchas personas parecieron haber mencionado el método del guante. La idea es extraer el significado interno de las palabras para revelar información. Se dice que este es un método basado en estadísticas globales. (Con LSI como compromiso entre métodos basados en predicción local (representado por word2vec), el vector de palabras de salida asume la tarea de agrupar palabras en word2vec. GloVe: vectores globales para representación de palabras