El principio del programa Alpha Go
AlphaGo es un programa de inteligencia artificial de Go. Este programa utiliza la "red de valor" para calcular la situación y la "red de estrategia" para elegir el siguiente paso. AlphaGo mejora el juego de ajedrez mediante la cooperación de dos "cerebros" de redes neuronales diferentes. Estos cerebros son redes neuronales de múltiples capas que son estructuralmente similares a las que utiliza el motor de búsqueda de imágenes de Google para reconocer imágenes. Comienzan con múltiples capas de filtros heurísticos 2D para manejar el posicionamiento del tablero Go, de manera muy similar a como una red clasificadora de imágenes maneja las imágenes. Después del filtrado, 13 capas de redes neuronales completamente conectadas emiten juicios sobre las posiciones que ven. Estas capas son capaces de clasificación y razonamiento lógico.
Estas redes verifican los resultados mediante entrenamiento repetido y luego revisan y ajustan los parámetros para mejorar la siguiente ejecución. Este procesador tiene un gran elemento de aleatoriedad, por lo que es imposible saber exactamente cómo "piensa" la red, pero una mayor capacitación puede hacer que evolucione mejor.
El primer cerebro: Selector de movimientos
El primer cerebro de la red neuronal de AlphaGo es la "Red de políticas de aprendizaje supervisado". Observe el diseño del tablero e intente encontrar el mejor siguiente movimiento. De hecho, predice la mejor probabilidad de cada siguiente paso legal, por lo que la primera suposición es la que tiene la mayor probabilidad. Esto puede entenderse como un "selector de movimientos".
El segundo cerebro: Evaluador de posición
El segundo cerebro de AlphaGo responde a otra pregunta respecto al selector de posición. En lugar de adivinar el siguiente movimiento específico, predice la probabilidad de que cada jugador gane, dada la posición de las piezas de ajedrez. Este "evaluador de situación" es la "Red de valor", que ayuda al selector de movimientos a juzgar la situación general. Este juicio es sólo aproximado, pero es muy útil para mejorar la velocidad de lectura. Al clasificar las posibles posiciones futuras como "buenas" o "malas", AlphaGo puede decidir si profundiza en una variante particular. Si el evaluador de posición dice que esta variante particular no es posible, entonces la IA omite leer más movimientos en esta línea.