AlphaZero

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

AlphaZero es un programa informático desarrollado por DeepMind, que utiliza el enfoque generalizado de AlphaGo Zero. El 5 de diciembre de 2017, el equipo de DeepMind lanzó una preimpresión presentando AlphaZero, que logró en 24 horas un nivel de juego sobrehumano en ajedrez, shogi y Go al derrotar a los campeones del mundo, Stockfish, Elmo y la versión de 3 días de AlphaGo Zero en cada caso. AlphaZero dominó a Stockfish después de solo 4 horas de autoaprendizaje, sin acceso a libros de apertura o base de datos de tablas de finales.[1][2][3]

Relación con AlphaGo Zero[editar]

AlphaZero (AZ) es una variante más generalizada del algoritmo AlphaGo Zero (AGZ), y es capaz de jugar shogi y ajedrez, así como Go. Las diferencias entre AZ y AGZ incluyen:

  • AZ tiene reglas codificadas para establecer hiperparámetros de búsqueda.
  • La red neuronal ahora se actualiza continuamente.
  • Go (a diferencia del ajedrez) es simétrico bajo ciertas reflexiones y rotaciones; AGZ fue programado para aprovechar estas simetrías. AZ no es.
  • El ajedrez (a diferencia de Go) puede terminar empatado. por lo tanto, AZ puede tener en cuenta la posibilidad de un juego empatado.

AlphaZero vs Stockfish y Elmo[editar]

Al comparar las búsquedas de Árbol de búsqueda Monte Carlo, AlphaZero busca solo 80,000 posiciones por segundo en ajedrez y 40,000 en shogi, en comparación con 70 millones para Stockfish y 35 millones para Elmo. AlphaZero compensa el menor número de evaluaciones mediante el uso de su red neuronal profunda para centrarse mucho más selectivamente en la variación más prometedora.[1]

Resultados[editar]

En los juegos de ajedrez de AlphaZero contra Stockfish, a cada programa se le dio un minuto de tiempo de reflexión por jugada. AlphaZero ganó 25 juegos como blanco, ganó 3 como negro y empató los 72 restantes.[1][4]​ En 2017, StockFish 8 era el campeón vigente del campeonato organizado por chess.com de ajedrez por computadora, con un ELO de 3400 puntos.[5]

En cien juegos de shogi contra Elmo, AlphaZero ganó noventa veces y perdió ocho veces.[1]

Después de 8 horas de autoaprendizaje de Go y en contra de una versión previa de AlphaZero, AlphaZero ganó sesenta juegos y perdió cuarenta.[1]

Comparación con otros motores ajedrecísticos[editar]

Reacción[editar]

Referencias[editar]

  1. a b c d e Silver, David; Hubert, Thomas; Schrittwieser, Julian (5 de diciembre de 2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (en inglés). pp. 4-5. Consultado el 7 de diciembre de 2017. 
  2. «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours» (en inglés británico). Telegraph.co.uk. 6 December 2017. Consultado el 6 December 2017. 
  3. «DeepMind’s AI became a superhuman chess player in a few hours, just for fun». The Verge. 6 December 2017. Consultado el 6 December 2017. 
  4. «'Superhuman' Google AI claims chess crown». BBC News. 6 December 2017. Consultado el 7 December 2017. 
  5. «Stockfish gana el Campeonato de módulos de ajedrez». chess.com. 18 de noviembre de 2017. Consultado el 7 de diciembre de 2017.