Alpha Dog vuelve a evolucionar, ¿cómo evoluciona?
AlphaGoZero utiliza un nuevo método de aprendizaje por refuerzo para convertirse en profesor. El sistema ni siquiera sabía qué era Go al principio. Simplemente comenzó a partir de una única red neuronal y jugó contra sí mismo a través del poderoso algoritmo de búsqueda de la red neuronal.
A medida que aumenta el autojuego, la red neuronal se ajusta gradualmente para mejorar su capacidad de predecir el siguiente paso y, en última instancia, ganar el juego. Lo que es aún más sorprendente es que a medida que avanzaba el entrenamiento, el equipo de DeepMind descubrió que AlphaGo Zero también descubrió de forma independiente las reglas del juego y ideó nuevas estrategias, aportando nuevos conocimientos al antiguo juego de Go.
Después de 3 días de autoestudio, derrotó a la versión anterior de AlphaGo
AlphaGo Zero también es significativamente diferente de las versiones anteriores en tres aspectos.
Cronología de entrenamiento de AlphaGo-Zero
En primer lugar, AlphaGo Zero solo utiliza piezas blancas y negras en el tablero de ajedrez como entrada, mientras que la generación anterior incluía una pequeña cantidad de entradas de funciones diseñadas manualmente. .
En segundo lugar, AlphaGoZero solo utiliza una única red neuronal. En versiones anteriores, AlphaGo utilizaba una "red estratégica" para elegir el siguiente movimiento y una "red de valor" para predecir el ganador después de cada movimiento. En la nueva versión, estas dos redes neuronales se combinan en una, lo que permite entrenarla y evaluarla de manera más eficiente.
En tercer lugar, AlphaGoZero no utiliza movimientos rápidos y aleatorios. En versiones anteriores, AlphaGo usaba un método de movimiento rápido para predecir qué jugador ganaría el juego en la situación actual. En cambio, la nueva versión depende en gran medida de su red neuronal de alta calidad para evaluar situaciones de ajedrez.
Los rankings de varias versiones de AlphaGo.
Según Hassabis y Silva, estas diferencias han ayudado a que la nueva versión de AlphaGo mejore el sistema, y los cambios en el algoritmo han hecho que el sistema sea más fuerte y eficaz.
Después de sólo 3 días de autoentrenamiento, AlphaGo Zero derrotó poderosamente a la versión antigua de AlphaGo que previamente había derrotado a Lee Sedol, con un récord de 100:0. Después de 40 días de autoentrenamiento, AlphaGo Zero volvió a derrotar a la versión AlphaGo Master. "Master" ha derrotado a los mejores jugadores de Go del mundo, incluido el número uno del mundo, Ke Jie.
Para DeepMind, que espera utilizar la inteligencia artificial para promover el progreso de la sociedad humana como su misión, Go no es el secreto último de AlphaGo. Su objetivo siempre ha sido utilizar AlphaGo para crear un sistema universal y definitivo. herramienta para explorar el universo. La mejora de AlphaGoZero permite a DeepMind ver un gran avance en el uso de tecnología de inteligencia artificial para cambiar el destino de la humanidad. Actualmente están trabajando activamente con instituciones médicas británicas y el sector eléctrico y energético para mejorar la eficiencia médica y la eficiencia energética.
El ritmo de los tiempos es cada vez más rápido, y la velocidad del progreso científico y tecnológico también es cada vez más rápida...
Quizás algún día, la investigación y el desarrollo La ciencia y la tecnología serán controladas por un organizador y un grupo de robots inteligentes. En cambio...
En esta era, la tecnología está haciendo la vida más cómoda.