Cómo evaluar el algoritmo fastText propuesto por el autor de Word2Vec
Los experimentos en el artículo se seleccionaron de un conjunto de datos que no es muy sensible al orden de las palabras de las oraciones, por lo que no es sorprendente obtener los resultados experimentales en el artículo. Pero por ejemplo, los siguientes tres ejemplos:
La película no es muy buena, pero aún así me gusta.[2]
La película es muy buena, pero todavía no me gusta Me gusta.
No me gustó, pero aun así fue bueno ver la película.
La polaridad de las oraciones 1 y 3 es generalmente positiva, pero la polaridad de la oración 2 es generalmente negativa. Si simplemente promedia la oración 1 y la oración 3 como una representación de oración categórica, puede resultar difícil comprender el impacto del orden de las palabras en la semántica de la oración.
Desde otra perspectiva, fastText puede verse como un modelo de oraciones usando una CNN [3] con tamaño de ventana = 1 + agrupación promedio.
En resumen: para tareas simples, una estructura de red simple es básicamente suficiente, pero para tareas más complejas, aún se necesita una estructura de red más compleja para aprender la representación de oraciones.
Además, las dos técnicas mencionadas en el artículo fastText son:
Máximo suave jerárquico
Cuando el número de categorías es grande, se puede construir codificación Huffman. tree para acelerar las capas soft max, el mismo truco que en word2vec antes.