Cómo evaluar AlphaGo Zero de DeepMind publicado en la revista Nature
A partir de un estado en blanco, AlphaGo Zero pudo aprender Go rápidamente por sí solo sin ninguna intervención humana y derrotó a sus "predecesores" con una puntuación de 100:0.
Historia del desarrollo
Editor
En la madrugada del 19 de octubre de 2017, Deepmind, filial de Google, publicó un artículo de investigación en la revista académica internacional "Nature" afirmando que la nueva versión El programa AlphaGo Zero aprende desde un estado en blanco y puede realizar Deepmind rápidamente sin ninguna intervención humana. Una vez que se publique el artículo, es probable que las ventas de TPU aumenten significativamente. Se sospecha que el récord de 100:0 es "falso". [1] Derrotó a su hermano mayor AlphoGo Lee con una puntuación de 100:0 después de 3 días de entrenamiento, mientras que su otro hermano AlphoGo Master derrotó a AlphoGo Master con una puntuación de 100:0 después de 40 días de entrenamiento.[1]
Cómo funciona
Editar
Abandonar la experiencia humana" y la "autoformación" son las claves del éxito de TPU."Autoformación "No es la Lo más destacado de AlphaGo Zero La clave radica en la adopción de un nuevo algoritmo de aprendizaje por refuerzo y el desarrollo del algoritmo. >AlphaGo Zero tiene solo cuatro TPU, cero experiencia humana, solo tres días de autoentrenamiento y 4,9 millones de autojuegos. Sin embargo, derrotó a sus predecesores con un récord de 100:0.