「黒魔術とディープラーニング―科学からの卒業」花のm4/3 ミゾソバはブーケのように

2017年10月22日

「囲碁と強化学習ー天才からの卒業」  

<地球セミナ113-2 山本一成著「人工知能はどのようにして「名人」を超えたのか?」第3章> <大村 沙紀>     



<人工知能の成長が人間の予想を大きく超えたわけ>

20163月「アルファ碁」が最高プロ棋士に圧勝、人工知能は囲碁に於いて人を完全に超えた。2014年頃にもあと10年は掛かると言われていた事がなぜ飛躍的に成長したのか?理由は人間の認識の問題とコンピューターの学習法の進歩による。


<人間は「指数的な成長」を直感的に理解できない>

 人の直感は線形的な上昇<一次関数的>に傾斜、指数的急上昇を理解できない。「人間の常識」と「コンピューター世界の常識」の違いを知る事が重要である。

<人類はこれから、プロ棋士と同じ経験をする> 

 プロ棋士が今体験したAIに追い抜かれた体験を我らは様々な分野で近い将来実感するだろう。人間を追い抜くコンピューターは人間を手本とした「教師あり学習」だけで可能なのか?

武道や伝統芸能などでは守破離の現実が見られる。(写真Wikipediaより)

守破離の画像守破離 能




<ポナンザの「守破離」>

 守:師や流派の教え、型、技を守り抜く段階

 破:他の師や流派の教えも考え良い物は取り込む段階

 離:今までの流派を離れ新しい独自のものを創設する段階

   機械学習に加え強化学習を導入


<強化学習とは何か?>

 2014年以前の将棋プログラムの機械学習は「教師あり学習」であった。強化学習は教師を必要としない。未知の環境であってもコンピューターは投機的に調べて結果をフィードバックして学習する。フィードバックを繰り返すことで「評価」を《強化》されるので「強化学習」という。


 2014年以前のポナンザはプロ棋士のお手本を学習し評価の精度を向上させていた。強化学習の導入後はお手本なしであり得そうな局面を6手〜8手進めて結果を判定、その情報をフィードバックして評価を微調整。実際にはこの結果を80億局面ほど集めて未来を予言する力を強化する。この進化したポナンザを使って同じ操作を繰り返しおよそ1兆程度の局面を調べた。(コンピューターはこのような繰り返しに耐える能力を持ち人間との差が歴然である。この本質が人間を抜く力を得た源であると思う。)


<ポナンザ流の誕生>

 強化学習を繰り返すうち予想外の展開、新戦法を指すようになった。「ポナンザ流」と称され体系化されている。その為プロ棋士の十八番であった「矢倉」の戦法が一時期指されなくなるなど影響が大きい。プロ棋士の戦法にもコンピューター戦法が取り入れられるようになった。


 人工知能の開発においては、必ず大量のデータが必要。そのうえで最初は「教師あり学習」、その後「強化学習」に移る。

<人類の反撃と許容>

 AIに負けじとする人間はタクラミ(罠)で対抗する。コンピューターは危機感を持たずにハメられた。感情が無くいつでも同じように打つコンピューターのよい処だが人間の罠にハメられることがある。但しコンピュータも強化学習で対策を学ぶようになる。コンピューターに負けることも時間と共に、対ヒト戦と同様に(負けても当たり前なんだと)考えることが出来るように変化してきた。プロ棋士のこの心理的な体験はこれからの社会で様々な場面で人が体験することになる、という予言。

 “第27回 世界コンピュータ将棋選手権(WSC)”が20175月に開催されました。絶対王者「Ponanza」に昨今話題のディープラーニングを組み込んだ「PonanzaChainer」の活躍に注目が集まる中、優勝をかっさらったのは新星「elmo」。http://forest.watch.impress.co.jp/docs/serial/yajiuma/1058898.html

 人工知能(AI)の進化の速さと競争の激しさを印象づけた。http://www.asahi.com/articles/DA3S12932545.html


<アルファ碁の登場>

 AI将棋で自信を付けた著者が囲碁に挑もうとした矢先ディープマインド社がアルファ碁を発表。ディープラーニングと強化学習を得意とする人工知能エキスパート集団。

 

<なぜ、コンピューターにとって囲碁だけが特別なゲームだったのか?>

 1940年代に既にVon Neumannにより“Theory of Games and Economic Behavior”でチェスを自動で指すことが論じられている。チェス、将棋、オセロの手法が囲碁には通用しなかった。何故か?評価の概念を導入できなかった。将棋では各駒に「駒の位置関係」に基づく点数を付けることが出来る。将棋と囲碁の壁は「何を評価すればいいかが分かるor分からない」の壁だった。

 

<モンテカルロ法という救世主>

 円の面積を求めるプログラムなどランダムを使って何かを推定する手法全般を言う。数式を巧みに使った解法をエレガントな解法と言うのに対しモンテカルロ法とはエレファントな解法(ダサいけれども律義な努力型タイプ) 囲碁にモンテカルロ法を適応? ある局面でランダムに石を打ち、勝つか負けるかの情報を収集。評価をせずに「探索」だけで解決するという「評価を諦めた方法」を考案した。

 

<モンテカルロ囲碁の成長>

 機械学習を使ってプロ棋士の打つ手を学習、モンテカルロ導入で一気にアマチュア級位クラスから高段クラスに成長。だがあるレベルで成長が止まる。

 

<アルファ碁が示したことは「囲碁は画像だった」>

 アルファ碁の仕組みは科学論文誌「Nature」に詳細発表された。画像処理を得意とするディープラーニングを積極的に利用しデータはRGB(赤、緑、青)入力の応用、黒石、白石、空白地の3種に分解してプロ棋士のデータをディープラーニングに適応させ教師あり学習をさせた。

 

<アルファ碁の3つの武器>

 「モンテカルロ法」「ディープラーニング版打ち手予測器」「ディープラーニング版評価」 

 
<科学が宗教になる瞬間>

 囲碁界の不思議な現象 ポナンザの将棋の新定跡とは雰囲気が違う何か? 新しい囲碁の道を模索し始めた。「科学が宗教になる瞬間」と表現した囲碁棋士大橋拓文(ひろふみ)のコメントが印象的である。

AI囲碁に対するコメントも印象的、将来のAI育ちの棋士への期待(左)とAI感覚の移入(右)(NHK囲碁講座より)
Ai 囲碁AI感覚


<天才からの卒業>

 知の本質は何処にあるのか? 昆虫と普通の人の間か、普通の人とアインシュタインの間か、アインシュタインと人工知能の間か?人工知能は天才を追い抜くのか?囲碁、将棋などでは既に追い抜いた。


トップ棋士に3連勝したAlphaGo、引退を表明

 AlphaGoの引退を発表した、DeepMindCEOであるDemis Hassabisは次のように語っている

『囲碁発祥の地とされる中国で、世界トップレベルの棋士と連戦することは、AlphaGoにとっても進化のための最高の機会となりました。このような最高の機会を経験し、AlphaGoは引退させることといたしました。今後、AlphaGoの開発チームは「次のレベル」のための開発に注力することとなります。アルゴリズムをより汎用的なものに改造し、この世の中に存在する複雑な問題を解決するためのお手伝いができるようになればと考えています。想定しているのは、病気の治療方法の発見や、消費エネルギーの劇的削減、革新的な新素材の開発などです。』




hoshino_oomurasaki at 23:00│Comments(0) 観察と学習 

コメントする

名前
 
  絵文字
 
 
「黒魔術とディープラーニング―科学からの卒業」花のm4/3 ミゾソバはブーケのように