2017年09月19日

「将棋の機械学習――プログラマからの卒業」

<地球セミナ112-1 山本一成著「人工知能はどのようにして「名人」を超えたのか?」第1章>  <水明子>

 


 2017年は人工知能(AI)にとって記念すべき年になった。将棋AIのポナンザが佐藤天彦名人に2連勝、囲碁AIアルファ碁が世界ランキング1位の阿潔に3連勝したからだ。本書[1]はそのポナンザの開発者の初めての著書である。ポナンザが名人に勝利したシーンはyoutube[2]で見ることができる。


 AIの歴史には2つ目図のように3回のブームと2回の冬の時代があった。最初のブームは196070年代でコンピュータの普及に伴うものだ。この時代に日本でも汎用の大型計算機が作られ国立大学に導入されて大勢の研究者が使えるようになった。私自身も立体4目並べ(スコアフォー)のプログラムを作った覚えがある。わずか100行ほどのAIだった。

 

将棋電王戦 著者の山本一成と佐藤天彦将棋名人[3]
IMG_3229[1]



AIの3回のブームと2回の冬の時代[4]

人間を超えるか-第3次AIブームのビッグウェーブ



 第2次ブームは198090年代でスーパーコンピュータ、ワークステーション、パソコンなどが開発され、コンピュータの性能が急伸するのと並行して、個人にまで普及した時代である。この時代を代表するAIIBMのディープ・ブルーで、チェスのチャンピオンに
213分で勝利した。ディープ・ブルーはチェス専用スーパーコンピュータの名前である。CPUのレベルから開発し、多数のCPUによる並列計算を行うものだった。

 
 第3次ブームが現在進行中のものである。ディープラーニングというAI技術が開発され、画像認識やアルファ碁で大きな成果を上げた。今やディープラーニングは音声認識、自動翻訳、車の自動運転、天気予報、金融や人事にまで応用範囲を広げている[5]。ゲームAIの歴史を振り返ってみると次の表のようになる。将棋AIには
ボナンザとポナンザがある。Bで始まるボナンザを緑字で、Pで始まるポナンザを赤字で書いて区別することにする。本書の著者はポナンザの開発者である。

 

*ゲームAIの歴史*

1997年 IBMディープ・ブルーがチェスチャンピオンのガルリ・カスパロフに213分。ディープ・ブルーは汎用ワークステーション+専用CPU512台のチェス専用スーパーコンピュータ.

2007年 保木邦仁のボナンザが渡辺明竜王に惜敗.

2013年 電王戦のAIとプロ棋士5組の対戦でAI311分。ポナンザは佐藤慎一4段に勝利。

2016年 Googleアルファ碁が韓国のイ・セドル9段に41敗。

201617年 アルファ碁が世界最強の阿潔9段、井山裕太9段などに60戦全勝。

2017年 ポナンザが佐藤天彦名人に2連勝。

 

 チェスと将棋は起源が同じゲームだが次の表のように局面の数が桁違いである。チェスは取られた駒は使えないのでゲームの進行に伴って盤面の駒の数がどんどん減っていく。歩に当たるポーンを除けば、飛車相当のルーク、角のビショップ、桂馬八方飛びのナイト、飛車と角を兼ねたクイーンと大駒ばかりである。そのため探索も評価も将棋に比べれば単純でプログラムを作りやすいのだ。

 

ゲームの局面の数[1]

名人―各ゲームの曲面の数



 ゲームAIのプログラムは次の図のように探索と評価からできている。チェスの場合は駒の点数の和でかなり評価できる。ところが将棋では金銀のように動きの小さい駒が多く、駒の配置や陣形が重要になる。

 

ゲームAIのプログラムは探索と評価からできている[1]

名人ー知能を支える2本の柱



 評価の方法については後で説明することにして、探索はおおむね次の図のように行う。縦の矢印がゲームの進行方向で、三角が対局者が交互に打つ局面の広がりを表している。左の図は全部を探索する場合だが、コンピュータがいくら早くても10226乗ある局面すべての探索はできない。そのため右のようによさそうな手を選択的に探索するのだ。そのよさそうな手を判断するために評価が必要になる。

 

ゲームプログラムの探索[1]

名人ー評価の意義


 
ボナンザとポナンザはともに将棋のAIで名前が紛らわしい。ポナンザという名称は上の表「ゲームAIの歴史」に出てくる将棋AIボナンザBONANZA=大当たり)をもじってBPに変えたものだ。


 ボナンザ
開発者・保木邦仁の本職はコンピュータを使う理論化学者で、碁の腕前はアマ5級程度と弱い[6]。保木が博士研究員としてアメリカに留学しているとき、ディープ・ブルーがチェスチャンピオンに勝ったのに刺激されて、独力でボナンザを作ってみた。日本に帰ってから2006年の世界コンピュータ将棋選手権大会に参戦したところ優勝してしまった。評価パラメーターの最適化をコンピュータにさせる機械学習を導入した成果だった。ボナンザの評価方法は例えば次のようなものだ。


・駒割り 駒の種類に応じて点数をつける

・玉と他の2つの駒の位置

・隣接しあった駒2つの位置関係

・龍馬飛角桂香の効き筋にいる駒の種類

・龍馬飛角香が動ける枡の数

・玉の周囲25枡の効きの配置

    ・・・・・・

 

このようなパラメーターが約10000個あり、その総和で局面を評価する。この10000個のパラメーターを上級者の棋譜を再現するように最適化する機械学習を行った。よくは解らないがボナンザとポナンザプログラムの仕組みは基本的には同じなのではないかと思われる。


 ポナンザでは約200000000個のパラメータを用いる。10000個でも大変なのに200000000個の最適化など到底人間にはできない。機械学習によって最適化していく。まず、過去の上級者の数万局の棋譜を再現するようにパラメーターを機械学習で最適化する。上級者の手とAIの手の差を小さくするように少しずつ少しずつ修正してよいパラメーターを探していくのだ。


 この方法では上級者の真似をしているだけだからプロ棋士に勝てる可能性は小さい。そこで
ポナンザボナンザにはない方法を採用する。少しだけパラメータが異なるポナンザ同士を対戦させるのだ。そして勝率の高い方のパラメーターを採用する。この対戦を何十万回、何百万回と行わせる。こうしてパラメーターを最適化して名人に勝利した。


 機械学習で最適化したパラメーターの意味はもうプログラマにも解らない。AIはプログラマを卒業して独り立ちしたのだ。


 これまでの
ポナンザ最新技術のディープラーニングを採用していない。アルファ碁]7]はディープラーニングを使って、将棋より局面がはるかに多い囲碁の最強棋士に勝っている。これについては次の記事で紹介しよう。

 


出典

[0] 「人工知能AIの本と解説へのリンク」への戻り

http://blog.livedoor.jp/nara_suimeishi/archives/51919243.html#more

[1]「人工知能はどのようにして「名人」を超えたのか?」山本一成 (ダイヤモンド社、2017

http://blog.livedoor.jp/nara_suimeishi/archives/51913511.html#more

[2] 2017年6月25日放送のNHKスペシャル「人工知能 天使か悪魔か2017」

   http://www.dailymotion.com/video/x5ryvtc

[3] http://japanese.engadget.com/2017/02/22/ponanza-2/

[4] 「人工知能は人間を超えるか ディープラーニングの先にあるもの」松尾 豊(KADOKAWA2015

http://blog.livedoor.jp/nara_suimeishi/archives/51917698.html#more

[5] 「グーグルに学ぶディープラーニング」日経ビッグデータ編(日経BP社、2017

http://blog.livedoor.jp/nara_suimeishi/archives/51914242.html#more

[6] 「ボナンザVS勝負脳――最強将棋ソフトは人間を超えるか」保木邦仁、渡辺 明(角川書店、2007)

[7] 「最強囲碁AI アルファ碁解体新書」大槻知史・著、三宅陽一郎・監修(翔泳社、2017

http://blog.livedoor.jp/nara_suimeishi/archives/51918743.html#more

 




nara_suimeishi at 22:46│Comments(0)観察と学習 

コメントする

名前
URL
 
  絵文字