Inspiración de los ajustes de entrenamiento del modelo de clasificación basados en la plataforma pytorch
Tasa de aprendizaje del entrenamiento
El ajuste de la tasa de aprendizaje tiene un gran impacto en los resultados
Si el aprendizaje La tasa de aprendizaje es demasiado pequeña, no se puede encontrar el punto óptimo y el punto óptimo local no se localizará, por lo que no puede converger;
Si la tasa de aprendizaje es demasiado pequeña, el aprendizaje La tasa solo puede deambular dentro de un cierto espacio, y solo se puede encontrar el punto óptimo local Ventajas, o no se puede encontrar el mejor punto.
Los experimentos muestran que la mejor solución para la tasa de aprendizaje es realizar primero un paso de calentamiento, luego aumentar la tasa de aprendizaje, alcanzar el punto más alto después del calentamiento y luego disminuir gradualmente.
Es importante encontrar una tasa de aprendizaje razonable para mantener la tasa de aprendizaje global en este valor promedio, a fin de lograr mejores resultados. Por ejemplo, la mejor tasa de aprendizaje promedio de este ajuste de doble valle es 0,01<. /p>
?Mientras se mantiene la tasa de aprendizaje promedio, triangule la tasa de aprendizaje>Decrezca gradualmente según auc>Mantenga el promedio sin cambios;
?Selección del conjunto de verificación
? a. La validación cruzada es mejor que un conjunto de verificación específico. La validación cruzada tiene el mejor efecto de entrenamiento. Finalmente, el conjunto de prueba se utiliza para la evaluación, es decir, el conjunto de entrenamiento, el conjunto de calibración y el conjunto de evaluación son tres conjuntos. no cruzarse.
?3. La mejor manera de combinar diferentes modelos
a. Muchos experimentos han demostrado que: Los resultados son ligeramente peores. La fusión de cnn y lstm será mejor que la fusión de dos lstm.
El resultado de fusionar modelos con gran variabilidad. el mejor resultado.
?4. Método de ajuste y ajuste fino
a. Selección del volumen de datos: ajuste del volumen de datos de recopilación previa al entrenamiento> volumen de datos de muestras etiquetadas con precisión
p>b. Selección de capa previa al entrenamiento: la capa completamente conectada posterior y la parte de cálculo de pérdida se inicializan aleatoriamente, y solo la capa de vector de palabras y la capa de codificación se ajustan con precisión, lo que tiene mejores resultados.
c. Optimización de ajuste fino: 1. Si la correlación entre el conjunto de datos previo al entrenamiento y el conjunto detallado es pequeña, ajuste toda la red 2. Si la correlación es grande; entonces la capa inferior será menor La tasa de aprendizaje es mayor y se adopta la tasa de aprendizaje más alta o se utiliza el método de descongelación capa por capa
?5. algunas capas más completamente conectadas, equivalente a H = H1 *, H1 *, equivalente a H1 *, H1 *, relu (HW + b1) + b2, después de la transformación lineal de múltiples capas, agregar relu en el medio puede mejorar la adaptabilidad no lineal del modelo.
6. Capa de pérdida de Elmo-Bate o capa sin entrenamiento previo:
A. Capa de pérdida de Bate: 15% de reemplazo, (de los cuales 80%: máscara, 10% aleatorio , 10% vocabulario) número de clase: tamaño de vocabulario;? secuencia de salida: 0 0 0 mask_vocab 0 0 0 0 0 0 0
b.?Capa de pérdida de Elmo, número de clase: tamaño de vocabulario, presecuencia prevista secuencia
?Comparación de resultados: bajo la misma estructura de red, el fintune de Burt tiene una tasa de recuperación un 7% mayor que el no entrenado previamente, mientras que la tasa de recuperación de Elmo es un 3% mayor que el no entrenado previamente. uno entrenado.
7. Diseño de red de un modelo de lenguaje previamente entrenado de entrada de doble canal:
?Puede usar título+