行動選択と報酬量と前頭前野

何かアクションを起こしたら、結果が返ってくる。世の中の難しいところは、同じアクションを起こしたからといって、いつも同じ結果が得られるとは限らないこと。

けど、脳には、そのアクションと結果の関係を常にアップデートする能力が備わっている。というか、備わってないと、世の中渡っていけない。。。

以下の論文では、そのアクション−結果(報酬量)の関係をアップデート(適応)することと、まるで関連しているかのような活動を示すニューロンが、マウス前頭前野にいることを報告している。(導入部分はちょっと脚色してます。。。すみません。

J Neurosci. 2007 Mar 28;27(13):3548-59.  
Adaptation of prefrontal cortical firing patterns and their fidelity to changes in action-reward contingencies.
Kargo WJ, Szatmary B, Nitz DA.

何をやった?
マウスに4つの選択をさせる。そのうち2つの選択をすれば報酬(チョコレート)が得られ、一方は3個、他方は1個もらえる。そういう課題をマウスにやらせる。(基本的には迷路課題。H型迷路なのでH迷路?)

その課題をやっている時の内側前頭前野(medial prefrontal cortex)のニューロン活動を、ステレオトロードという電極を使って計測している。

何がわかった?
もらえる報酬が多い行動を起こした時ほど、前頭前野の細胞たちの活動頻度が高く、活動の精度・信頼性も高い、ことがわかった。さらに、個々の細胞間の活動の相関性も低くなることがわかった。

何を学ぶ?
この研究、技術的な点でもいくつかポイントがありそう。

第一に、課題。
1日のトレーニング中に、「アクション−報酬量の関係のアップデート」をマウスができるくらい、簡単に設定されていること。

計測中のニューロンが、そのアップデートに伴って活動パターンをどのように変えるのか?知りたい場合、1回の実験でマウスにそのアップデートをしてもらうに越したことはない。

第二に、最後の解析。
いわゆるnoise correlationというやつをみている。結果がなかなか面白い。ニューロンのペアがどれくらい協調的に活動を変化するかを調べている。

高報酬の時は、むしろ独立っぽく活動するようだ。

解釈はいろいろありそうだけど、「アップデート」が確立されて、しかも高報酬を得られる場合は、ニューロンの役割分担がしっかりするのかもしれない。

---
ただし、この論文全体を通して、解析するときに、強引に行動イベントを揃えている。そのあたりの効果が解析結果にどのように影響しているのか、非常にわかりづらい。

うまい解析だとは思うけど、何となくグレーな部分を感じてしまった。

それから、信頼性定量に1/CVというのは、解釈が直感的でない気がして、わかりにくいかも?(アルフォンソ先生もそう仰ってます。

それはともかく、なかなか面白い・良い論文。