Red de conocimiento informático - Conocimiento sistemático - Modelo de lenguaje profundo-GPT

Modelo de lenguaje profundo-GPT

OpenAI propuso el modelo GPT (Generative Pre-Training) en 2018. El modelo adopta el modo de entrenamiento previo + ajuste fino y puede usarse para tareas como clasificación, razonamiento, preguntas y respuestas y similitud.

GPT se propone basándose en el transformador, pero es ligeramente diferente:

El vector de incrustación de cada palabra en la oración

es un único transformador, y finalmente La salida de una capa es H L.

De acuerdo con el resultado de la última capa, conecte una matriz w para generar una dimensión de 1 y luego calcule softmax para obtener la probabilidad de cada palabra para maximizar la probabilidad. Se obtiene la pérdida L 1 (C). Tenga en cuenta aquí que al calcular P (u), se utiliza el vector de incrustación We de la palabra del diccionario, que también es una técnica común en los modelos de lenguaje.

Dado Text1SEPText2, el transformador normal solo retiene el decodificador de autoatención enmascarado, de modo que cada posición de la última capa puede generar una probabilidad de que la siguiente palabra correspondiente se use para calcular la pérdida;

Utilice pequeñas cantidades de datos etiquetados para ajustar los parámetros del modelo.

Tome la salida h l de la última palabra del paso anterior como entrada del aprendizaje supervisado posterior.

Según la etiqueta de supervisión, la pérdida se calcula para obtener L 2 (C).

La suma de L 2 (C) y L 2 (C) es la pérdida después de realizarla, como se muestra en la siguiente figura:

El convertidor unidireccional no puede usar la corriente palabra la semántica de la palabra. Pero no parece usarse en la escena de la traducción, simplemente no sé cuál es la palabra. ¿Es este realmente el caso?