Red de conocimiento informático - Problemas con los teléfonos móviles - Registro de análisis del modelo de convertidor

Registro de análisis del modelo de convertidor

Todo el modelo de transformador consta de dos partes, el codificador responsable de codificar los datos de entrada y el decodificador responsable de decodificar los datos codificados.

El codificador consta de N módulos con la misma estructura y diferentes parámetros. Cada módulo consta de una capa de autoatención de múltiples cabezales y una capa completamente conectada, en la que se agregan residuos al auto de múltiples cabezales. -Capa de atención y capa totalmente conectada. Conexiones y normalización de capa.

La estructura de un decodificador es similar a la de un codificador; En comparación con el codificador, la parte del decodificador tiene una atención de múltiples cabezales más. La primera atención de múltiples cabezales usa la operación de enmascaramiento, K y V de la segunda atención de múltiples cabezales usan la salida del codificador y Q usa la salida. del bloque decodificador anterior.

La salida del decodificador pasa a través de una capa lineal y softmax para generar la probabilidad de la siguiente palabra traducida.

El codificador consta de N capas (N=6 en este artículo) con la misma estructura y diferentes parámetros, es decir, la unidad en el lado izquierdo de la Figura 1, con "Nx" en el extremo izquierdo .

Cada capa incluye dos subcapas, a saber, la capa de atención de múltiples cabezales y la capa de retroalimentación. Cada subcapa tiene conexiones residuales y operaciones de normalización. La salida de cada subcapa se puede expresar de la siguiente manera:

La atención de múltiples cabezas realiza una proyección estructurada en h diferentes combinaciones de entrada a través de h diferentes transformaciones lineales, y finalmente une h diferentes resultados de atención, y finalmente el La salida de la atención de múltiples cabezales se obtiene a través de una capa Liner. Obtenga el resultado de la atención de múltiples cabezas a través del contrapiso.

Entre ellos, , ,

Las dimensiones de la salida de Muti-Head Attention son

Para obtener más información sobre Atención, consulte la documentación anterior:

Feed-Forward, también conocida como red de feed-forward de posición. Esta capa proporciona principalmente una transformación no lineal. Se dice que es posicional porque los parámetros de transformación para cada posición i son los mismos al pasar a través de la capa lineal.

Esta capa es relativamente simple. Es una capa de dos capas completamente conectada. La función de activación de la primera capa es Relu. La fórmula correspondiente no utiliza la segunda capa. p>

Pregunta: El resultado después de Atención debe multiplicarse por Atención para realizar la transformación de dimensiones. ¿Por qué se agrega aquí una red FFN de 2 capas?

P: Después de notarlo, el resultado se multiplica y se transforma dimensionalmente.

Respuesta: La adición de la red FFN agrega no linealidad (función de activación de Relu) al modelo, mejorando así el rendimiento del modelo. Por supuesto, también puedes eliminar la capa FFN, pero el efecto será peor.

El decodificador está ubicado en la mitad derecha de la Figura 1 y es similar al codificador de la mitad izquierda, pero existen algunas diferencias.

El decodificador tiene una atención multicabezal más que el codificador. La primera Atención de múltiples cabezas utiliza la operación Enmascarado, porque en la tarea de generación, las palabras delante de la palabra no pueden ver la información de las siguientes palabras, por lo que es necesario agregar Enmascarado para evitar fugas de información. La segunda entrada de atención de cabezales múltiples se asigna a partir de la matriz de codificación de salida del codificador, que se asigna a partir de la salida del decodificador anterior.

Finalmente, hay una capa Softmax que calcula la probabilidad de la siguiente palabra traducida.

Con respecto al modelo en el proceso de decodificación, una cosa a tener en cuenta es que el entrenamiento es diferente de la predicción.

Durante el entrenamiento, la decodificación se realiza de una sola vez y la verdad fundamental del paso anterior se utiliza para la predicción (la matriz de máscara también se cambia para que los tokens futuros no sean visibles en la decodificación

); p >

En la predicción, ya no existe una verdad fundamental, por lo que debemos predecir uno por uno.

Arriba presentamos brevemente los módulos codificadores y decodificadores, a continuación presentamos brevemente la incrustación de posición de Transformer.

Introducción a la incrustación de posiciones. Su objetivo principal es compensar la falta de información de posición en el modelo Transformer. Después de agregar la incrustación de posiciones y la incrustación de marcas, se puede conservar la información de posición de cada marca.

El autor de este artículo propuso dos métodos para agregar información de ubicación:

Un método es utilizar funciones seno y coseno de diferentes frecuencias para calcular directamente la identificación de ubicación de cada marca. La fórmula de cálculo es la siguiente:

Otro método es aprender directamente la incrustación de posición.

A través de experimentos, el autor descubrió que los resultados de los dos métodos eran básicamente los mismos, y finalmente el autor eligió el primer método.

El autor descubrió a través de experimentos que los resultados de los dos métodos eran casi los mismos, por lo que finalmente eligió el primer método.

A diferencia de los RNN, los transformadores se pueden entrenar mejor en paralelo.

Transformer en sí no puede utilizar información sobre el orden de las palabras, por lo que es necesario agregar incrustaciones posicionales a la entrada; de lo contrario, Transformer es un modelo de bolsa de palabras.

El enfoque de Transformer es la estructura de autoatención, en la que las matrices Q, K, V utilizadas se obtienen transformando linealmente la salida.

Transformer tiene múltiples autoatenciones en Multi-Head Attention, que captura los puntajes de atención del coeficiente de correlación entre palabras en múltiples dimensiones.

Explicación detallada del modelo Transformer (recomendado)

Explicación detallada del principio del modelo Transformer NLPT

Lectura clásica Explicación detallada del modelo Transformer