¿Puede la nueva versión de AlphaGo aprender a mejorar las habilidades de ajedrez por sí sola?
El 19 de octubre, DeepMind, el brazo de investigación de inteligencia artificial de Google, lanzó una nueva versión del software AlphaGo, que puede aprender Go completamente por sí solo. El sistema, llamado AlphaGo Zero, puede aprender jugando contra sí mismo, utilizando una técnica llamada aprendizaje por refuerzo. En el proceso de capacitación continua, este sistema comenzó a aprender algunos conceptos avanzados en Go por su propia capacidad.
Después de tres días de entrenamiento, este sistema ya puede derrotar a AlphaGo Lee, el mismo sistema que derrotó al mejor ajedrecista de Corea del Sur, Lee Sedol, el año pasado, con una puntuación de 100 a 0. Después de 40 días de entrenamiento, ejecutó un total de aproximadamente 29 millones de juegos autónomos, lo que permitió a AlphaGo Zero derrotar a AlphaGo Master (el sistema que derrotó al campeón mundial Ke Jie a principios de este año) por una puntuación de 89 a 11.
Los resultados muestran que todavía hay mucho margen de aprendizaje en inteligencia artificial en este campo en lo que respecta a los efectos de las diferentes tecnologías. AlphaGo Master utiliza muchas de las mismas técnicas de desarrollo que AlphaGo Zero, pero primero debe entrenarse con datos humanos antes de pasar a jugar solo.
Vale la pena señalar que, si bien AlphaGo Zero aprendió algunos conceptos clave durante varias semanas de capacitación, el sistema aprendió de manera diferente a los humanos. Además, AlphaGo Zero también es más eficiente energéticamente que las generaciones anteriores de sistemas. AlphaGo Lee requiere el uso de varias máquinas y 48 chips de aceleración de aprendizaje automático de Google TPU. La generación anterior de AlphaGo Fan utilizaba 176 chips GPU. AlphaGo Zero sólo necesita utilizar una máquina con 4 TPU.