Red de conocimiento informático - Conocimiento informático - Cómo evaluar el algoritmo fastText propuesto por el autor de Word2Vec

Cómo evaluar el algoritmo fastText propuesto por el autor de Word2Vec

En resumen, fastText convierte todas las palabras del documento en vectores a través de una tabla de búsqueda y luego utiliza un clasificador lineal para promediar y obtener directamente el resultado de la clasificación. fastText es muy similar a Deep Average Network [1] (DAN, como se muestra en la figura siguiente) en ACL-15, excepto que se elimina la capa oculta del medio. Las conclusiones de los dos artículos también son muy similares y ambos señalan que para algunas tareas de clasificación simples, no es necesario utilizar estructuras de red demasiado complejas para obtener casi los mismos resultados.

Los experimentos en el artículo se seleccionaron de un conjunto de datos que no es muy sensible al orden de las palabras de las oraciones, por lo que no es sorprendente obtener los resultados experimentales en el artículo. Pero por ejemplo, los siguientes tres ejemplos:

La película no es muy buena, pero aún así me gusta.[2]

La película es muy buena, pero todavía no me gusta Me gusta.

No me gustó, pero aun así fue bueno ver la película.

La polaridad de las oraciones 1 y 3 es generalmente positiva, pero la polaridad de la oración 2 es generalmente negativa. Si simplemente promedia la oración 1 y la oración 3 como una representación de oración categórica, puede resultar difícil comprender el impacto del orden de las palabras en la semántica de la oración.

Desde otra perspectiva, fastText puede verse como un modelo de oraciones usando una CNN [3] con tamaño de ventana = 1 + agrupación promedio.

En resumen: para tareas simples, una estructura de red simple es básicamente suficiente, pero para tareas más complejas, aún se necesita una estructura de red más compleja para aprender la representación de oraciones.

Además, las dos técnicas mencionadas en el artículo fastText son:

Máximo suave jerárquico

Cuando el número de categorías es grande, se puede construir codificación Huffman. tree para acelerar las capas soft max, el mismo truco que en word2vec antes.