GPT y GPT2
GPT utiliza decodificador transformador.
Entrada para ajuste fino: vector de la última palabra.
GPT utiliza un transformador unidireccional que puede resolver tareas de generación de texto que Bert no puede completar.
Un formulario que aparece palabra por palabra
Por lo general, utilizamos una estructura de red específica para modelar tareas, establecer un modelo general de PNL y construir un molde p (salida | entrada, tarea). La salida, la entrada y las tareas están representadas por vectores.
Reemplace el reemplazo de la segunda etapa de Finetuning supervisado a no supervisado para completar las tareas posteriores porque introduce una gran cantidad de datos de tareas y tiene palabras clave.
Pregunta 1: GPT2 cambia el reemplazo de la segunda etapa de Finetuning para realizar tareas de PNL posteriores supervisadas a tareas posteriores no supervisadas. ¿Por qué hacer esto? Una explicación es que los autores de GPT querían demostrar que Transformer aprendió muchos conocimientos generales sobre varios dominios en la primera etapa.
Pregunta 2: ¿Por qué GPT 2.0 todavía se apega a un modelo de lenguaje unidireccional en lugar de un modelo de lenguaje bidireccional?
El artículo de Bert cree que la eficacia de Bert se debe principalmente al uso de un modelo de lenguaje bidireccional.
1. Los modelos de lenguaje unidireccionales son más convenientes para generar contenido que siga patrones de palabras.
2. Quiere demostrar que al aumentar la cantidad de datos y la estructura del modelo, unidireccional; Los modelos de dos vías no necesariamente pueden perder frente al modelo de dos vías.
Pregunta 3: ¿Cómo puede el modelo de lenguaje entrenado por GPT2 adaptarse a tareas posteriores sin supervisión, como el resumen de texto?
En primer lugar, el modo de salida de todas las tareas es el mismo, lo que salta de las palabras. GPT2.0 proporciona un método de tarea de generación novedoso, es decir, saltar palabras una por una y luego unirlas y generarlas en resultados de traducción o resultados resumidos. La entrada de GPT-2 también agrega palabras de aviso, por ejemplo, si el formato de entrada es texto TL:, el modelo GPT-2 sabrá que está realizando un trabajo de resumen.