Deepmind(Google)のAlphaZeroが将棋に参入

2017/12/072017/12/13コンピュータ将棋

羽生七冠誕生で盛り上がっているところに、大ニュースが飛び込んできました。なんと、あのアルファ碁を作ったDeepmind社が囲碁と同じ手法でチェスと将棋も機械学習させ、人間のトップレベルを超えるAIを作成したという論文が投稿されたのです。

Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm – 1712.01815.pdf(PDF)

トップレベルのプログラムを超えた

白紙状態から自己対戦による学習を行ない、24時間で人間を超え、トップレベルのプログラムに勝つ強さになったとのことです。

Starting from random play, and given no domain knowledge except the game rules, AlphaZero achieved within 24 hours a superhuman level of play in the games of chess and shogi (Japanese chess) as well as Go, and convincingly defeated a world-champion program in each case.
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm – 1712.01815.pdf(PDF)

3日間学習したプログラムが、WCSC27でPonanzaを破って優勝したelmoに90勝2敗8分とのこと。elmoの投了基準が早めなので再試が必要ではないかとの指摘もありますが、人間よりは圧倒的に強いのは間違いないと思います。elmoを超えるまで6時間というのは早すぎる。
（ちなみに3日間というのはGoogleのコンピュータパワーを使っての話。上等なPCでも110年かかるそうです）

Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm – 1712.01815.pdf(PDF)

tanuki-チームのメンバーと話したところelmoはresign valueが-900=勝率約20%なのに対してAlphaZeroは5%となっており不公平という問題点が挙がった。が、それを含めてもelmoに圧勝と言って良いと思う。
— nodchip@tanuki- (@nodchip) December 6, 2017