Red de conocimiento informático - Problemas con los teléfonos móviles - Análisis del algoritmo SAC

Análisis del algoritmo SAC

El artículo anterior presentó DDPG, que utiliza estrategias deterministas para resolver problemas de control continuo. Ahora, presentaremos un método genial para el control continuo utilizando estrategias aleatorias, el Soft Actor Critic (SAC). Es un algoritmo sin políticas que optimiza estrategias aleatorias. Su característica principal es la regularización de la entropía. El entrenamiento estratégico es una compensación entre maximizar los rendimientos esperados y maximizar la entropía, que en realidad está relacionada con la exploración o la minería. El aumento de la entropía conducirá a una mayor exploración, lo que puede acelerar el aprendizaje posterior y evitar que la política converja prematuramente hacia un mal óptimo local.

Para evitar que alguien tenga dudas sobre el concepto de entropía, antes de comenzar a hablar de SAC, presentaré brevemente el concepto de entropía y los beneficios de las estrategias aleatorias.

Aquí la entropía se refiere a la entropía de la información, que representa la suma ponderada de toda la autoinformación posible de una variable aleatoria:

Como se muestra en la fórmula anterior, cuanto más aleatoria es la variable aleatoria , mayor es la entropía. Según la segunda ley de la termodinámica, la naturaleza misma siempre está en proceso de aumento de entropía, es decir, avanzando constantemente hacia el caos, mientras que el proceso de lucha de los seres humanos contra la naturaleza es el proceso de disminución de entropía. Espera claridad y orden, al igual que el proceso de aprendizaje por refuerzo.

En términos generales, el objetivo del aprendizaje por refuerzo es maximizar las recompensas, es decir, maximizar el valor del estado de acción. Para determinar la estrategia, puede elegir directamente la acción más grande, pero esto solidificará la acción. modo de operación, como entrenar un Cuando un brazo robótico recoge algo, las trayectorias de movimiento reales se pueden variar y determinar la estrategia hará que esta acción sea muy monótona. Y si es en un entorno de confrontación, esta operación fija también es fácil de ser explotada por el oponente. Las acciones basadas en un muestreo aleatorio de estrategias se pueden evitar de manera efectiva. Además, cuanto mayor es la entropía, más aleatorias son las acciones y las diferentes acciones. Se puede realizar en la misma situación. Cuantos más movimientos haya, más difícil será para el oponente predecirlos. Por supuesto, los beneficios de fomentar la entropía durante el entrenamiento son evidentes.

El método actor-crítico se basa en gradientes estratégicos, con el objetivo de maximizar a través del ascenso de gradientes. Debido a que el valor esperado es difícil de encontrar, se utiliza un método de Monte Carlo para aproximarlo:

Suponiendo que las acciones son multidimensionales, la política se aproxima mediante una multiplicación de distribución gaussiana:

Y su suma viene dada por la aproximación de la red neuronal:

En comparación con algoritmos como A3C, SAC solo agrega regularidad de entropía a la red de políticas. SAC también agrega regularidad de entropía a la red de valor, fomentando la generación de más estado. espacios, aumenta aún más la explorabilidad y hace que el modelo sea más robusto. El método consiste en modificar la función objetivo del aprendizaje de políticas ordinarias y aumentar la entropía de la política en el retorno de cada paso, de modo que el objetivo se convierta en

Entonces el gradiente estratégico se convierte en:

Entonces, el método de entrenamiento es básicamente el mismo que el de la estructura actor-crítica ordinaria. ...

Si solo usa la red anterior para entrenar, obviamente habrá un problema de sobreestimación, que conducirá a una sobreestimación al maximizar el valor Q, y la sobreestimación conducirá a calcular el objetivo de TD a través de su propia sobreestimación del tiempo de red. Por tanto, para resolver el problema de la sobreestimación, debemos cortar esta conducción y maximizar la sobreestimación. SAC utiliza tecnología limitante de doble Q similar al algoritmo TD3.

Como se muestra en la figura anterior, SAC utiliza dos redes Q para evitar la sobreestimación causada por la maximización al tomar el valor Q mínimo, y utiliza una red de valor de retardo (promediada a través de Polyak) para aliviar la sobreestimación causada por el arranque infinito. transmisión. Específicamente, se trata de un proceso de capacitación de este tipo:

Además, cabe señalar que el coeficiente de equilibrio de entropía de la estrategia anterior se puede establecer de forma manual o ajustarse automáticamente, y tiende a ser automático en la industria.