Red de conocimiento informático - Aprendizaje de código fuente - ¿En qué mejoró la Roberta mejorada?

¿En qué mejoró la Roberta mejorada?

Poco después de que XLNet superara por completo a Bert, Facebook propuso Roberta (un método de entrenamiento de Bert robusto y optimizado). Nuevamente SOTA en múltiples tareas. Entonces, ¿qué mejora? No cambia Bert de Google a nivel de modelo, solo el método de preentrenamiento.

Inicialmente, Bert seleccionó al azar 15 tokens para cada secuencia y los reemplazó con [MASCARA]. Para eliminar la discrepancia con las tareas posteriores, Bert también reemplazó estos 15 tokens con [máscara] 80 veces. (2) El tiempo de 10 permanece sin cambios; (3) el tiempo de 10 se reemplaza por otras palabras. Pero durante todo el proceso de entrenamiento, la ficha de 15 no cambiará una vez que se seleccione, es decir, la ficha de 15 se selecciona aleatoriamente desde el principio y no cambiará en las N épocas posteriores. Esto se llama enmascaramiento estático.

RoBERTa inicialmente copió 10 copias de los datos previos al entrenamiento y cada copia seleccionó aleatoriamente 15 marcadores para enmascarar. En otras palabras, existen 10 métodos de enmascaramiento diferentes para la misma oración. Luego entrene cada dato con N/10 épocas. Esto equivale a que el token de máscara cambie para cada secuencia durante estas N épocas de entrenamiento. Esto se llama enmascaramiento dinámico.

Entonces, ¿es realmente efectivo este cambio? El autor hizo un experimento, solo el blindaje estático se cambió al blindaje dinámico y otros parámetros permanecieron sin cambios. El enmascaramiento dinámico realmente puede mejorar el rendimiento.

2. Con NSP versus sin NSP

Para capturar la relación entre oraciones, el Bert original usó la tarea NSP para el entrenamiento previo, es decir, ingresando un par de oraciones A y B para juzgar si las dos oraciones son consecutivas. En los datos de entrenamiento, 50 B es la siguiente oración de A y 50 B se selecciona al azar.

RoBERTa, por otro lado, elimina NSP pero ingresa varias oraciones consecutivas a la vez hasta una longitud máxima de 512 (puede abarcar artículos). Este método de entrenamiento se llama (oración completa), y el Bert original solo ingresa dos oraciones a la vez. Los experimentos muestran que RoBERTa también puede desempeñarse bien en tareas como MNLI para inferir relaciones entre oraciones.

3. Mini lote más grande

El tamaño de lote original de BERTbase era 256 y fue entrenado para 1 millón de pasos. El tamaño del lote de Roberta es de 8k. ¿Por qué utilizar un tamaño de lote mayor? (Excepto porque pueden permitírselo) El autor se basa en el fenómeno de la traducción automática de que el uso de un tamaño de lote más grande combinado con una tasa de aprendizaje más alta puede mejorar la tasa de optimización del modelo y el rendimiento del modelo. También se ha demostrado experimentalmente que Bert realmente puede usarlo. un tamaño de lote mayor. Basta con mirar la imagen sin entrar en detalles.

4. Más datos y entrenamiento más prolongado.

Aprendiendo de XLNet, que utiliza 10 veces más datos que Bert, RoBERTa también utiliza más datos. El rendimiento realmente ha vuelto a dispararse. Por supuesto, también requiere una formación más prolongada.

Después de este set, la actuación de SOTA finalmente llegó a un punto muerto, el juego, la alineación.