Red de conocimiento informático - Conocimiento del nombre de dominio - Introducción a la generalización de algoritmos optimizadores de uso común

Introducción a la generalización de algoritmos optimizadores de uso común

Un optimizador es un método de optimización que realiza un descenso de gradiente para encontrar la solución óptima durante el entrenamiento de la red neuronal. Los diferentes métodos se centran en resolver diferentes problemas de diferentes maneras (por ejemplo, términos de impulso adicionales, cambios adaptativos en la tasa de aprendizaje, etc.), pero en última instancia, la mayoría de ellos están diseñados para acelerar el entrenamiento.

Los siguientes son varios optimizadores comunes, incluidos sus principios, fórmulas matemáticas, ideas centrales y rendimiento.

Idea central: es decir, calcular la pérdida de predicción de salida para cada gradiente de entrada de datos de entrenamiento; relativo al valor real;

Desde el punto de vista de la expresión, la actualización de parámetros en la red se mueve constantemente en la dirección de minimizar la función de pérdida:

Ventajas:

p>

Es simple y fácil de entender, es decir, para la solución óptima correspondiente (aquí considerada el valor mínimo de la función de pérdida), cada actualización de la variable se realizará en la dirección más rápida descenso del gradiente local, minimizando así la función de pérdida.

Desventajas:

A diferencia del descenso de gradiente (que calcula la pérdida de todas las muestras de datos a la vez y calcula el gradiente correspondiente), BGD (descenso de gradiente por lotes) solo toma un pequeño lote de datos. a la vez, y entrenado usando sus etiquetas reales.

Ventajas:

Desventajas:

Ventajas:

Desventajas: