Red de conocimiento informático - Conocimiento informático - Cómo evaluar la capacidad de autoaprendizaje de la nueva versión de AlphaGo

Cómo evaluar la capacidad de autoaprendizaje de la nueva versión de AlphaGo

El sistema AlphaGo consta principalmente de varias partes:

Dada la situación actual, la red de políticas predice/muestra el próximo movimiento.

Rodando rápido, el objetivo es el mismo que 1, pero a expensas de la calidad del ajedrez, la velocidad es 1000 veces más rápida que 1.

Value Network, dada la situación actual, se estima que ganan las blancas o las negras.

Monte Carlo Tree Search (MCTS) conecta las tres partes anteriores para formar un sistema completo.

Nuestro Dark Forest y AlphaGo también son sistemas construidos con 4. En comparación con AlphaGo, DarkForest fortalece 1, pero carece de 2 y 3, y luego reemplaza la función de 2 con la estrategia predeterminada del software de código abierto Pachi. A continuación se presentan varias partes.

1. Red de ajedrez y cartas

La red de juego de ajedrez toma la situación actual como entrada para predecir/muestrear la siguiente partida de ajedrez. Sus predicciones no sólo dan la mano más fuerte, sino que también dan puntuaciones para todos los próximos movimientos posibles en el tablero. Hay 361 puntos en el tablero de ajedrez y el número dado es 361. Un buen movimiento puntuará más que un mal movimiento.

Dark Forest es innovador en esta parte. Al predecir tres pasos en lugar de uno durante la capacitación, se mejora la calidad del resultado de la política, equivalente al efecto de su red RL que utiliza el aprendizaje por refuerzo para la autoemparejamiento. Por supuesto, no utilizaron la red después del aprendizaje por refuerzo en el sistema final, sino que utilizaron una red (red SL) aprendida directamente a través del entrenamiento. La razón es que los movimientos generados por la red RL carecen de cambios, lo que no favorece la búsqueda. .

Curiosamente, AlphaGo solo usa una red con un ancho de 192 por razones de velocidad, pero no usa la red óptima con un ancho de 384 (consulte la Figura 2 (a)), por lo que si la GPU es más rápido (o más), AlphaGo definitivamente se volverá más fuerte.

El llamado segundo paso de 0.1 es utilizar exclusivamente esta red para obtener el método legal más creíble. Este método no busca en absoluto, pero tiene un fuerte sentido de la situación general y no caerá en batallas locales. No es un error decir que crea una "sensación de ajedrez". Pusimos la red de juego de ajedrez de DarkForest directamente en KGS y tiene un nivel 3D, lo que sorprendió a todos.

Se puede decir que el avance de esta ola de Go AI se debe principalmente al avance de la red de ajedrez y cartas. Esto era inimaginable antes. Los métodos de generación de operadores anteriores se basaban en reglas o en forma local y entrenamiento de clasificador lineal simple. Se necesitan años de ajustar lentamente los parámetros para lograr avances.

Por supuesto, hay muchos problemas simplemente jugando al ajedrez en Internet. Por lo que vimos en DarkForest, no tiene sentido capturar generales sin importar su tamaño, no tiene sentido lanzarse a la batalla, no hay consideración por la vida o la muerte del lugar, los errores de matanza, etc. Un poco como una partida de ajedrez jugada por un maestro sin pensarlo mucho. Debido a que la red de ajedrez y cartas no tiene una función de juicio de valor y solo se basa en la "intuición" para jugar al ajedrez, solo después de unirse a la búsqueda la computadora puede tener la capacidad de emitir juicios de valor.

2. Muévete rápido

Entonces, ¿por qué necesitas moverte rápido cuando tienes una red de ajedrez y cartas? Hay dos razones. En primer lugar, la red de ajedrez y cartas funciona con relativa lentitud. AlphaGo dijo que eran 3 milisegundos, que es más o menos lo mismo aquí, pero los más rápidos pueden hacerlo en unos pocos microsegundos, una diferencia de 1000 veces. Por lo tanto, es muy importante dejar que la CPU busque primero cuando la red de ajedrez no regresa y luego actualizar la información de juego correspondiente después de que la red devuelva una mejor jugabilidad.

En segundo lugar, la rueda rápida se puede utilizar para evaluar la tabla. Debido a la cantidad astronómica de situaciones posibles, la búsqueda de Go es desesperada y la búsqueda alcanza un cierto nivel en el que se debe evaluar la situación existente. Cuando no existe una red de valoración, a diferencia del ajedrez, que puede hacer una valoración más precisa del tablero calculando las puntuaciones de las piezas de ajedrez, la valoración del tablero de Go debe realizarse simulando movimientos, desde el tablero actual hasta el final. punto final Ignorando las bifurcaciones en el camino, calcule los valores ganadores y perdedores, y luego use los valores ganadores y perdedores como una estimación del valor actual del tablero.

Aquí hay una compensación: al mismo tiempo, la máquina ambulante simulada tiene alta calidad y alta precisión de estimación única, pero la máquina ambulante es lenta y el operador de simulación es muy rápido; incluso utiliza un operador aleatorio. Aunque la precisión de la estimación única es baja, se puede simular varias veces para calcular el promedio y el efecto no es necesariamente malo.

Por lo tanto, si tienes una estrategia de ajedrez rápido de alta calidad, te será de gran ayuda para mejorar tus habilidades ajedrecísticas.

Para lograr este objetivo, el modelo de red neuronal es demasiado lento y aún se necesitan métodos tradicionales de coincidencia de patrones locales y regresión logística. Aunque este método no es nuevo, es muy fácil de usar y se utiliza en casi todas las recomendaciones publicitarias, clasificaciones de ofertas y clasificaciones de noticias.

En comparación con las soluciones más tradicionales basadas en reglas, después de absorber a muchos expertos, tiene la capacidad de ajustar automáticamente los parámetros mediante el método de descenso de gradiente, por lo que la mejora del rendimiento será más rápida y sin preocupaciones. AlphaGo logró una velocidad de corredor de 2 microsegundos y una precisión de corredor de 24,2 utilizando este método. 24,2 significa que su mejor predicción es consistente con la probabilidad de 0,242 del hijo del ajedrecista. En comparación, la red de ajedrez logró una precisión de 57 en 2 milisegundos en la GPU. Aquí vemos el equilibrio entre velocidad y precisión en las máquinas para caminar.

A diferencia del entrenamiento de modelos de aprendizaje profundo, los corredores rápidos utilizan la coincidencia de características locales, lo que naturalmente requiere algo de conocimiento del dominio Go para seleccionar características locales. AlphaGo solo proporciona la cantidad de funciones locales (consulte la Tabla 4 ampliada) y no especifica los detalles específicos de las funciones. Recientemente, también realicé experimentos utilizando su método y logré una precisión de 25,1 y una velocidad al caminar de 4 a 5 microsegundos. Sin embargo, la integración de todo el sistema no reprodujo su nivel.

Siento que 24.2 no puede resumir completamente sus movimientos rápidos, porque mientras den un paso clave equivocado, el juicio de la situación será completamente incorrecto y la Figura 2(b) puede reflejar mejor su estimación de seguimiento rápido; de la situación del disco. Alcanzar el nivel de la Figura 2(b) requiere más trabajo que simplemente igualar 24.2, algo que no enfatizan en el artículo.

Después de que AlphaGo tiene Kuaishou, no necesita una red de juego de ajedrez o una red de evaluación, no necesita la ayuda de ningún aprendizaje profundo ni GPU, y no necesita aprendizaje de refuerzo. de 3D en una sola máquina (ver tabla ampliada) 7 penúltimo renglón), bastante potente. Se necesitarían varios años para que cualquier programa Go alcance este nivel en una sola computadora utilizando métodos tradicionales. Antes de AlphaGo, Aja Huang escribió una vez un muy buen programa de Go y creo que también tiene mucha experiencia en esta área.

3. Red de valoración

Se puede decir que la red de valoración de AlphaGo es la guinda del pastel. A juzgar por la Figura 2(b) y la Tabla ampliada 7, AlphaGo no se debilitará demasiado sin él, al menos en el nivel 7d-8d. Sin la red de valoración, la puntuación sería 480 puntos menor. Sin la red de ajedrez y cartas, la puntuación sería entre 800 y 1.000 puntos menor. Lo que es particularmente interesante es que si solo usa la red de evaluación para evaluar la situación (2177), el efecto no es tan bueno como usar solo la red rápida (2416). Solo combinando las dos se puede mejorar aún más.

Supongo que Valuation.com y FastRunner se complementan en la estimación del mercado. Al comienzo del juego, todos juegan de manera más armoniosa y la red de valoración será más importante. Pero cuando hay un enfrentamiento complejo de vida o muerte, se vuelve más importante estimar el tablero caminando rápidamente. Teniendo en cuenta que la red de valoración es la parte más difícil de entrenar de todo el sistema (requiere 30 millones de veces de autoemparejamiento), calculo que fue la última en realizarse y la que tiene más probabilidades de mejorarse aún más.

En cuanto a la generación de datos de formación de Valuation Network, cabe destacar la letra pequeña del anexo del artículo. A diferencia de la red de ajedrez y cartas, solo se toma una muestra de cada juego de ajedrez y cartas para entrenar para evitar el sobreajuste. De lo contrario, para el mismo juego, la entrada es ligeramente diferente y la salida es la misma, lo que es muy perjudicial para el entrenamiento. Por eso necesitas 30 millones de juegos en lugar de 30 millones de discos. Para cada autoemparejamiento, el muestreo es muy particular. Primero, la red SL se usa para garantizar la diversidad de movimientos de ajedrez, luego el tablero se obtiene moviendo ajedrez aleatoriamente y luego se usa la red RL más precisa para obtener la estimación de resultado más precisa. Por supuesto, no puedo decir que sea mejor que usar una sola red.

Una cosa que me sorprendió es que no hicieron ningún análisis local de vida o muerte, sino que entrenaron una red de valoración bastante buena a través de entrenamiento violento. Esto muestra hasta cierto punto que DCNN tiene la capacidad de descomponer automáticamente el problema en subproblemas y resolverlos por separado.

Además, supongo que utilizaron reglas chinas para juzgar los resultados finales al tomar muestras de entrenamiento. Por lo tanto, cuando jugamos contra Lee Sedol en marzo, también se nos pidió que usáramos las reglas chinas. De lo contrario, si cambiáramos a otras reglas, necesitaríamos volver a entrenar la red de valoración (aunque creo que la diferencia en los resultados no será demasiado grande). ). En cuanto a por qué se utilizaron las reglas chinas en primer lugar, supongo que la programación es muy conveniente (también me sentí así cuando escribí DarkForest).

4. Búsqueda de árbol de Monte Carlo

Esta parte básicamente utiliza métodos tradicionales sin muchos comentarios. Usaron UCT con a priori, es decir, primero consideran el método que DCNN cree que es mejor y luego esperan hasta que cada método tenga más exploración y elijan un valor de tasa de ganancia más confiable. DarkForest selecciona directamente los 3 o 5 métodos principales recomendados por DCNN para realizar búsquedas. Mis experimentos iniciales tuvieron casi el mismo efecto. Por supuesto, su enfoque es más flexible. Al permitir una gran cantidad de búsquedas, su método puede encontrar algunos métodos que DCNN considera malos pero que son críticos para la situación.

Una cosa interesante es que cada vez que se busca un nodo hoja, no se expande inmediatamente, sino que se expande después de que el número de visitas alcanza un cierto número (40). Esto puede evitar demasiadas ramas y distraer. la atención de la búsqueda de energía, ahorrando valiosos recursos de la GPU. Al mismo tiempo, al expandirse, los discos de los nodos de las hojas serán más precisos. Además, utilizaron algunos trucos para evitar que varios subprocesos buscaran cambios simultáneamente al comienzo de la búsqueda, algo que también notamos en DarkForest y que mejoramos.

5. Resumen

En general, todo este artículo es un trabajo sistemático y no es una victoria que pueda lograrse con uno o dos pequeños avances. Detrás del éxito está la acumulación de autores, especialmente los dos primeros autores, David Silver y Aja Huang, durante la etapa doctoral y más de cinco años después de graduarse. Esto no se puede lograr de la noche a la mañana. Merecen poder formar parte de AlphaGo y disfrutar del honor que tienen ahora.

También se puede ver en el análisis anterior que, en comparación con los sistemas Go anteriores, AlphaGo depende menos del conocimiento en el campo Go, pero está lejos de alcanzar el nivel de los sistemas generales. Los ajedrecistas profesionales pueden comprender el estilo de juego de su oponente después de ver algunas partidas y adoptar las estrategias correspondientes. Un jugador experimentado puede aprender rápidamente un nuevo juego después de jugarlo varias veces, pero hasta ahora, los sistemas de inteligencia artificial todavía requieren una gran cantidad de entrenamiento de muestra para alcanzar el nivel humano. Se puede decir que sin la acumulación de muchos jugadores de Go durante miles de años, hoy no existiría la IA de Go.