Red de conocimiento informático - Conocimiento del nombre de dominio - Conceptos básicos del aprendizaje por refuerzo (18) La unidad de opuestos entre los métodos TD y MC

Conceptos básicos del aprendizaje por refuerzo (18) La unidad de opuestos entre los métodos TD y MC

En la introducción anterior a TD, mencionamos algunas diferencias entre TD y MC, como desde la perspectiva del sesgo y la varianza:

MC tiene una varianza alta y es cero. . Estimación sesgada

b. TD tiene baja varianza y es una estimación sesgada

a.

b. TD también puede aprender en escenarios sin resultado final.

Suponga solo una experiencia limitada, como 10 episodios de datos o 100 pasos de tiempo. En este caso, la forma general de utilizar métodos de aprendizaje incremental es presentar repetidamente estas experiencias hasta que el método finalmente converja en una respuesta. Dada una función de valor aproximado, cada vez que se visita un estado no terminal, el incremento correspondiente se calcula utilizando las dos ecuaciones siguientes, pero la función de valor solo cambia una vez según la suma de todos los incrementos.

Luego, toda la experiencia disponible se procesa nuevamente usando la nueva función de valor, lo que da como resultado un nuevo incremento total, y así sucesivamente hasta que la función de valor converge. A este enfoque lo llamamos actualización por lotes porque las actualizaciones solo se realizan después de que se haya procesado todo el lote de datos de entrenamiento.

En la actualización por lotes, si la experiencia tiende al infinito, siempre que se elija que el parámetro de paso sea lo suficientemente pequeño, definitivamente puede converger a un resultado único que sea independiente de . El método MC constante también converge de manera determinista bajo las mismas condiciones, pero con resultados diferentes.

Por supuesto, esta es una situación ideal que se logra cuando la experiencia tiende al infinito (es decir, innumerables pruebas), pero en la práctica nos es imposible lograrlo si usamos una experiencia limitada para calcular el. función de valor ¿Cuál será el resultado de hacer una estimación? Por ejemplo, para el siguiente episodio:

Si tomamos muestras repetidamente de este episodio, ¿qué conclusión obtendremos al aplicar MC o método a las muestras obtenidas en un determinado muestreo? Veamos primero un ejemplo.

Supongamos que hay dos estados, A y B, en un problema de aprendizaje por refuerzo. El modelo es desconocido, no involucra estrategia ni comportamiento, solo involucra transición de estado y recompensa inmediata, y el coeficiente de atenuación es 1. . La siguiente tabla muestra la experiencia de 8 secuencias de estados completas, excepto la primera secuencia de estados, que tiene una transición de estado, las 7 secuencias de estados completas restantes solo constan de un estado. ¿Ahora debemos calcular los valores de los estados A y B en función de la información existente?

Considere utilizar el algoritmo MC y el algoritmo TD para calcular el valor de los estados A y B respectivamente:

Para el algoritmo MC:

En 8 secuencias de estados completas, solo la primera secuencia contiene el estado A, por lo que el valor de A solo se puede calcular a través de la primera secuencia:

Entonces se puede obtener.

El valor del estado B debe promediarse con el valor de cosecha del estado B en 8 secuencias:

se puede obtener.

Para el algoritmo TD,

Consideremos aplicar el algoritmo TD. El algoritmo TD intenta utilizar la experiencia del episodio existente para construir un MDP (como se muestra a continuación) dado que hay un episodio en el que el estado A tiene un estado sucesor B, el valor del estado A se calcula a través del valor del estado B. En el Al mismo tiempo, la experiencia muestra que la probabilidad de transición de A a B es del 100%, la recompensa inmediata del estado A es 0 y no hay decadencia, por lo que el valor del estado de A es igual al valor del estado de B.

El proceso de cálculo es el siguiente:

Por lo tanto, bajo el algoritmo TD.

El ejemplo AB muestra la diferencia entre las estimaciones calculadas por los métodos Monte Carlo por lotes y por lotes. Los métodos de Monte Carlo por lotes siempre encuentran la estimación que minimiza el error cuadrático medio en el conjunto de entrenamiento, mientras que los métodos por lotes siempre encuentran la estimación de máxima verosimilitud de los parámetros que se ajustan exactamente al modelo del proceso de Markov. La estimación de máxima verosimilitud de un parámetro es el valor del parámetro que maximiza la probabilidad de generar datos de entrenamiento.

Otra diferencia entre TD y MC

El algoritmo de aprendizaje MC, el algoritmo de aprendizaje TD y el algoritmo DP descritos hasta ahora se pueden utilizar para calcular el valor de estado. Sus características también son muy distintas. Entre ellos, el aprendizaje MC requiere una secuencia de estado completa para actualizar el valor del estado, mientras que el aprendizaje TD no requiere una secuencia de estado completa. El algoritmo DP es un método basado en modelos para calcular el valor de un estado. Calcula el valor de un estado calculando todos los posibles estados de transición de un estado, sus probabilidades de transición y las recompensas inmediatas correspondientes.

La siguiente figura refleja de forma muy intuitiva la diferencia entre los tres algoritmos.

Según las características de los tres métodos de aprendizaje anteriores, se puede resumir de la siguiente manera:

Cuando se utiliza un muestreo único, el algoritmo que no se somete a un valor de actualización de secuencia de estado completo es el aprendizaje TD cuando se utiliza un solo muestreo, pero el algoritmo que se basa en la secuencia de estados completa es el aprendizaje MC; el algoritmo que considera el muestreo de ancho completo, pero solo considera un estado posterior para cada experiencia de muestreo es el aprendizaje DP; la posibilidad de todas las transiciones de estado y se basa en una secuencia de estados completa, entonces este algoritmo es un método de búsqueda exhaustivo.

Cabe señalar que DP utiliza el modelo de todo el problema MDP, es decir, la probabilidad de transición de estado. Aunque en realidad no utiliza la experiencia de muestreo, utiliza las leyes de todo el modelo, por lo que. También se considera que se muestrea en todo su ancho.