AlphaZero

AlphaZero es un programa informático desarrollado por DeepMind, que utiliza el enfoque generalizado de AlphaGo Zero. El 5 de diciembre de 2017, el equipo de DeepMind lanzó una preimpresión presentando AlphaZero, que logró en 24 horas un nivel de juego sobrehumano en ajedrez, shogi y Go al derrotar a los campeones del mundo, Stockfish, Elmo y la versión de 3 días de AlphaGo Zero en cada caso. AlphaZero dominó a Stockfish después de solo 4 horas de autoaprendizaje, sin acceso a libros de apertura o base de datos de tablas de finales.^[1]^[2]^[3]

Relación con AlphaGo Zero

AlphaZero (AZ) es una variante más generalizada del algoritmo AlphaGo Zero (AGZ), y es capaz de jugar shogi y ajedrez, así como Go. Las diferencias entre AZ y AGZ incluyen:

AZ tiene reglas codificadas para establecer hiperparámetros de búsqueda.
La red neuronal ahora se actualiza continuamente.
Go (a diferencia del ajedrez) es simétrico bajo ciertas reflexiones y rotaciones; AGZ fue programado para aprovechar estas simetrías. AZ no es.
El ajedrez (a diferencia de Go) puede terminar empatado. por lo tanto, AZ puede tener en cuenta la posibilidad de un juego empatado.

AlphaZero vs Stockfish y Elmo

Al comparar las búsquedas de árbol de búsqueda Monte Carlo, AlphaZero busca solo 80,000 posiciones por segundo en ajedrez y 40,000 en shogi,^[4] en comparación con 70 millones para Stockfish y 35 millones para Elmo. AlphaZero compensa el menor número de evaluaciones mediante el uso de su red neuronal profunda para centrarse mucho más selectivamente en la variación más prometedora.^[1]

Resultados

En los juegos de ajedrez de AlphaZero contra Stockfish, a cada programa se le dio un minuto de tiempo de reflexión por jugada. AlphaZero ganó 25 juegos como blanco, ganó 3 como negro y empató los 72 restantes.^[1]^[5] En 2017, StockFish 8 era el campeón vigente del campeonato organizado por chess.com de ajedrez por computadora, con un ELO de 3400 puntos.^[6]

En cien juegos de shogi contra Elmo, AlphaZero ganó noventa veces y perdió ocho veces.^[1]

Después de 8 horas de autoaprendizaje de Go teniendo como contrincante a una versión previa de AlphaZero, AlphaZero ganó sesenta juegos y perdió cuarenta.^[1]

En una versión actualizada de AlphaZero este venció a Stockfish 8 en un match de 1000 partidas, obteniendo un resultado de +155 -6 = 839.^[7]Calculando este resultado en elo, AlphaZero seria superior a Stockfish 8 en 53 puntos elo. La diferencia de elo es mucho menor de lo que parece y se explica por la gran cantidad de tablas en el match. (Alphazero obtuvo el 57.45% de los puntos vs 42.55% que obtuvo stockfish 8^[8]).

Referencias

↑ ^a ^b ^c ^d ^e Silver, David; Hubert, Thomas; Schrittwieser, Julian (5 de diciembre de 2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (en inglés). pp. 4-5. Consultado el 7 de diciembre de 2017.
↑ «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours» (en inglés británico). Telegraph.co.uk. 6 de diciembre de 2017. Consultado el 6 de diciembre de 2017.
↑ «DeepMind’s AI became a superhuman chess player in a few hours, just for fun». The Verge. 6 de diciembre de 2017. Consultado el 6 de diciembre de 2017.
↑ Alphazero, un avance muy significativo en la Inteligencia Artificial
↑ «'Superhuman' Google AI claims chess crown». BBC News. 6 de diciembre de 2017. Consultado el 7 de diciembre de 2017.
↑ «Stockfish gana el Campeonato de módulos de ajedrez». chess.com. 18 de noviembre de 2017. Consultado el 7 de diciembre de 2017.
↑ https://www.chess.com/es/news/view/alphazero-stockfish-ajedrez
↑ https://chess24.com/es/informate/noticias/la-impresionante-fuerza-de-alphazero

Enlaces externos

AlphaZero: Shedding new light on the grand games of chess, shogi and Go

Datos: Q44860007

[Silver_et_al-1] Silver, David; Hubert, Thomas; Schrittwieser, Julian (5 de diciembre de 2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (en inglés). pp. 4-5. Consultado el 7 de diciembre de 2017.

[telegraph-2] «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours» (en inglés británico). Telegraph.co.uk. 6 de diciembre de 2017. Consultado el 6 de diciembre de 2017.

[3] «DeepMind’s AI became a superhuman chess player in a few hours, just for fun». The Verge. 6 de diciembre de 2017. Consultado el 6 de diciembre de 2017.

[4] Alphazero, un avance muy significativo en la Inteligencia Artificial

[bbc-5] «'Superhuman' Google AI claims chess crown». BBC News. 6 de diciembre de 2017. Consultado el 7 de diciembre de 2017.

[6] «Stockfish gana el Campeonato de módulos de ajedrez». chess.com. 18 de noviembre de 2017. Consultado el 7 de diciembre de 2017.

[7] ttps://www.chess.com/es/news/view/alphazero-stockfish-ajedrez

[8] ttps://chess24.com/es/informate/noticias/la-impresionante-fuerza-de-alphazero

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]