少数の法則の信仰

アモス・トヴェルスキー/ダニエル・カーネマン

----------------------------------------------------------------------------------------
要約 - 確率に対して、人々が持つ直観は誤っている。
特に、母集団からランダムに抽出したサンプルを、実際以上に代表的と見なす誤りを犯す。
つまりサンプルが、母集団の本質的な特徴すべてに似ている、と思ってしまうのである。
この信仰は心理学の研究に流布しており、それが不幸な結果をもたらしているということを、
心理学の専門家に実施した、研究上の意思決定に関するアンケートで例証する。
----------------------------------------------------------------------------------------

「被験者20人に対して実験を行ったところ、あなたの理論を支持する有意な結果(z=2.23、p<.05、両側検定)を得たとします。
 あなたは新たに10人の被験者で実験をすることにしました。
 このグループに対し片側検定を行ったら、結果が有意になる確率は、どれくらいだと思いますか?」

「.85くらいかな?」と思った人は、大部分の人もそう答えたと知って、喜ぶかもしれない。
事実その答えは、数理心理学会と米心理学会という2つの小集団に配布したアンケート回答の中央値だった。
もし確率がおよそ.48だと思うなら、あなたは少数派だ。
回答者84名のうち.40~.60の回答をしたのは9人だけだった。
しかし0.48は、0.85よりも、はるかに合理的な予測だ。

得られた予測値は、さまざまな解釈ができる。
たとえば一般的な研究実践の場で、ある研究で得られた値を、他の研究の帰無仮説に対する、もっともらしい代替値にする、といったアプローチがある。
質問した確率は、最初のサンプルの結果によって定義された対立仮説に対する、第2の検出力(つまり、第2のサンプルで有意な結果を得る可能性)と解釈できる。
平均と分散がわかっている特殊なテストの場合、人は「母集団の平均が、最初のサンプルの平均と等しい」という仮説の検出力を計算するだろう。

第2実験のサンプル・サイズは、第1実験の半分なので、z>1.645となる確率は、わずか.473だ。
理論的により正式なアプローチは、得られた確率値をベイズ理論に従って解釈し、適切に選択した事前分布と比較して計算することだ。
事前確率として均一分布を仮定した場合、期待される事後確率は.478となる。
事前分布が帰無仮説寄りであることはよくあるが、そのときは事後確率がさらに小さくなることは明らかだ。

ほとんどの心理学者には明白に、「得た発見を、再び得ることができる」という確率を過大に見積もる信仰が存在する。
そのような信仰がなぜ生まれるのか、またそのような信仰は研究上、どのような結果をもたらすのか、というのが、この論文のまさに論点である。
私たちのテーマは「人々は無作為抽出に関する強い直感を持っているが、その直感は基本的な点で誤っている」こと、
「そのような思いこみは、普通の被験者でも、熟達した科学者でも共通である」こと、
しかも「そのような思いこみを、重大性をもって、不幸にも研究に適用してしまうこと」である。

私たちは、人は母集団からランダムに取り出したサンプルを、過度に「代表的」に、つまり「本質的なすべての特徴が母集団に似ている」と見なすのだ、と考えている。
その結果、少なくともサンプル数が小さい間は、ある母集団から取り出した任意の2つのサンプルが、相互に、また標本理論が示す以上に、母集団と似ていると人は期待する。
サンプルを「代表的」と見なす傾向は、さまざまな状況ではっきり見られる。
たとえば公平なコイン投げを仮定したランダムな数列を作らせると、被験者は、どう短く区切っても、偶然の法則が予測するよりも、はるかに.50に近くなるような数列を作る(Tune, 1964)。
つまり被験者の作った数列の各部分は、コインの公平さを、それぞれ過度に代表しているのである。

確率学習実験(Estes, 1964)など、運まかせのゲームを連続して行い、被験者がランダムに発生する数列を連続的に予測する実験でも、同様の結果が観察される。
被験者は、まるでランダムな数列の各部分が、いつでも真の確率を反映するかのように行動するのだ。
いわゆる「ギャンブラーの誤り」である。

ギャンブラーの誤解の核心にあるものは、偶然の法則の公平性に関する誤解である。
ギャンブラーは、「コインは公平なので、どちらに偏っても、すぐに反対方向に打ち消される」と思いこむ。
記憶や道徳が限定された、最も公平なコインでさえ、ギャンブラーが考えるほどには公平ではない。

これは、ギャンブラーだけの誤解ではない。
次の例を考えよう。

ある都市にいる中学2年生のIQ平均値は、100だとわかっています。
教育効果の研究のために、標本として無作為に50人の子供たちを選びました。
最初の子供をテストしたら、IQは150でした。
そのときサンプル全体のIQは、どれくらいと予測しますか?

正解は101なのだが、驚くほど多くの人は、サンプルの平均IQは、それでも100だと信じ続ける。
このような予測は、「ランダムな系列は自動的に調整される」という思いこみによってのみ、正当化される。

「エラーは互いに消し合う」といった言い回しは、積極的な自動調整のイメージを表現したものだ。

自然界にある身近な法則のいくつかは、そのような法則に従っている。
たとえば安定した平衡からの偏りは、平衡を回復する力を生む。
対照的に、偶然の法則は、そのようには働かない。
サンプリングを続けても、偏差は打ち消されない。単に薄まるだけなのだ。

私たちはこれまで、偶然に関する、2つの関連する直感について述べてきた。
人がサンプルをお互いに、またそれらを取り出した母集団に、非常に似ていると思いこむことから、私たちは「代表」仮説を提案した。
さらに私たちは、サンプリングはその途中で自動調整されると人が信じることを示唆した。
2つの信仰は、同じような重大な結果につながる。
どちらもサンプルの特徴に関する期待を生みだすし、その期待は、少なくともサンプルが少数である場合、現実よりも変更されにくい。

大数の法則は、サンプル数が非常に大きくなれば、サンプルがきわめて正確に母集団を代表する、ということを保証する。
付け加えるならば、自動修正の力が働く場合には、小標本はさらに母集団を代表し、互いに類似するようになる。
人の無作為抽出に関する直観は、少数の法則にも適用される。つまり大数の法則が、少数でも同様に当てはまると考えるのだ。

少数の法則の思いこみをしている、架空の科学者を考えよう。
その思いこみは、彼の科学上の仕事に、どのような影響を与えるだろうか。

私たちの想定した科学者は、実験規模が制御不能な変動とあまり関係しない現象を研究する。
言い換えれば、彼が自然界から受け取るメッセージ中にノイズは少ない。
この科学者が、気象学者、薬理学者、もしかしたら心理学者にさえ、なるかもしれない。
少数の法則を信じて生きている科学者は、小標本に基づいた結論の有効性を、過度に確信するだろう。

具体例として、その科学者が「幼児は2つのオモチャのどちらを好むか」の研究に没頭しているとしよう。
最初の5人の幼児を調査したところ、4人があるオモチャを好んだ。
多くの心理学者は、この時点である期待を抱くであろうが、「好みに差はない」という仮説は、まだ否定されていない。
その確信をすぐに出版しようとするかもしれないが、幸運なことにその確信は、論文として印刷されるのには不十分だ。
ちょっと計算すれば、その心理学者は、得られたような極端な結果は、「好みに差はない」という仮説に基づいても3/8で得られるとわかるだろう。

確かに、統計的仮説検定を科学的な推論に適用するときには、さまざまな困難がつきまとう。
だが、有意水準(ベイジアンは尤度比の方が好きかもしれないが)の計算は、科学者が実験で得た結果を、主観的な偏見で評価するのではなく、分散をサンプリングした確実な結果として評価するよう、科学者に強いるのだ。
したがって統計的検定は、少数の法則を信じて生きている科学者を、多くのメンバーが監視することによって、帰無仮説をあまりに簡単に捨て去ること(つまり第1種の過り)から科学のコミュニティーを保護しているのである。

いっぽう、確実な研究仮説なのに認めないという危険(つまり、第2種の誤り)に対する、同様の防護壁はない。
良い点を取りたいという欲求と、学年に関する相関関係を研究する、ある心理学者を想定しよう。
サンプル・サイズを決めるとき、彼はこう考えるかもしれない。
「相関係数はどれくらいだろう? r=.35 ってところかな。結果が有意になるためには、Nがどれくらい必要だろう。(数表を見る) N=33か。素晴らしい。サンプル数はこれだ」
この推論のただ一つの欠点は、その科学者が「サンプルはいつも母集団を高度に代表している」と信じているために、サンプルの分散を見落としてしまうことである。
母集団の相関係数に関する彼の推測が正確であった場合、サンプルの相関係数は、ほぼ同じ確率で.35以下にも.35以上にもなるだろう。
したがって、N=33で有意な結果(つまり検出力)を得られる可能性は、およそ.50である。

統計的検出力の詳細な研究においてコーエン(1962, 1969)は、大きな効果、中くらいの効果、小さな効果の妥当性の定義と、さまざまな統計的検定の検定力計算の助けとなる、広汎なセットを示した。
コーエンの定義によれば、通常の実験では2つの平均値の差は、たとえば.25の違いは小さく、.50の違いは中間で、1の差は大きい。
事務員と中くらいの技能を必要とする職人のIQ平均値の差は、中間である。

研究実践に関する詳細な研究においてコーエン(1962)は、異常社会心理学誌のある号に掲載された統計をすべて調査し、効果の3つのサイズそれぞれについて、実際に検出できる可能性を計算した。
検出力の平均値は、小さな効果は.18、中くらいの効果は.48、大きな効果は.83だった。
もし典型的な心理学者が中くらいの効果の検出を期待してサンプル・サイズを選んでいるとするなら、彼らの研究における検出力は、およそ.50なのである。

コーエンの分析は、多くの心理学研究の統計的な検出力が、とんでもなく低いことを示している。
これは破滅的な行為だ。そのような研究は科学者たちの挫折と、非生産的な研究を生み出すからだ。
根拠のある仮説をテストしても、はっきりした結果を得られない研究者は、自然は信頼できない、もしくは対立的であると見なさざるをえなくなる。
さらに言えば、Overall(1969)が示したように、統計的な検出力が不足している研究が広まることは、ムダなだけでなく、真に有害だ。
出版される研究成果において、帰無仮説が大きな割合で根拠なく棄却されることになるからだ。

統計的な検出力を考慮することは、アンケート研究のデザインでは特に重要となるので、私たちはアンケート質問に関する態度を調査した。
博士課程の学生が、40匹の動物を用いる、困難で時間がかかる実験を終えたとしよう。
学生は多くの変数を記録し、分析した。
実験は、全体的に、はっきりした結果が出なかった。
しかし、実験前後を比較した値の1つは高度に有意(t=2.70)であり、それは注目すべき値で、実験の主な目的となりえた。

その実験結果の重要性、驚くべき値、学生が行なった数々の分析を考慮したとき―
あなたは、学生が論文誌に投稿する前に、再実験をしろとアドバイスするだろうか?
アドバイスするなら、学生にどれくらいの動物を扱わせるべきだろうか。

私たちはこの質問を心理学者たちに行ったところ、再実験をさせたいという感情が圧倒的だった。
回答者75人のうち66人が、唯一の有意な結果は偶然であった可能性があると危惧し、再実験を勧めた。

博士課程の学生が追加実験に必要とする個体数として、アドバイスの中央値は20だった。
このアドバイスに従った高い可能性で起こりそうなことを考えることは、よい教訓だ。
第2のサンプルの平均と分散が、最初のサンプルと同一ならば、t値は1.88になるだろう。
再実験で学生が有意な結果を得られる可能性は、2分の1(p=.05、片側検定)よりちょっと上でしかない。

再実験に20というサンプル数を、回答者は合理的と思うと予想したので、私たちは次の追加質問をした。
あなたの不幸な学生が、20匹の動物を追加して最初の研究を繰り返したところ、同じ結果を同じ方向に得て、t=1.24であったとします。
さあ、今度はどうアドバイスしますか?
1つを選択してください[括弧内の数は、各回答を選択した回答者の数である]

(a) 実験結果を記録し、結論を事実として公表するべきである。
(b) 暫定的な発見として結果を報告するべきである。(26)
(c) さらに別の動物群[中央値=20]で実験すべきだ。
(d) 2グループ間の差を説明すべきである。(30)

最初の発見の信頼度がどうあれ、信頼度は再実験によって確実に補強されることに注意しよう。
2つのサンプルの効果は、同じ方向であるだけでなく、効果の大きさは、最初の実験の正確に2/3である。
回答者が推奨したサンプル・サイズ(20)において、再実験は、実験に期待してよいのとほぼ同じ程度に成功した。
しかし回答の分布状況は、推奨した再実験によって学生が発見した事実を知った後でも、懐疑的な態度が継続されることを示している。

この不幸な事態は、統計的な検出力が不十分な場合に、典型的に起こることである。
回答b、c(これらはある条件ときには正当化できる)にひきかえ、最も多かった回答(実際にそういう回答だった)は、言い訳が不可能である。
2つの実験の有意性には差がないと理解した上でも、回答者が同じ回答をするのか、私たちには疑問である。
(2つのサンプルの分散が等しいとき、有意差に必要なt値は.53である)

回答者たちは統計的検定をせず、私たちの言う代表仮説に従った。
2つのサンプルの差は予想よりも大きかったので、彼らはそれを説明するべきだと考えた。
しかし「2グループ間の差の説明を見つけよう」とすること、十中八九、ノイズを説明することになる。
要するに回答者たちは、再実験をちょっと雑に評価したのだ。

これは代表仮説から説明できる:
もしサンプルが互いに非常に似ていると期待するなら、正しい仮説は、ほとんど全ての再実験で、統計的に有意になるだろう。

再実験の成功に関する尺度のいいかげんさは、次の質問に対する回答ではっきりする:

個体数15で実験したところ、有意な値、t=2.46という結果を得ました。
別の研究者が、同じ個体数でその実験を追試したのですが、t値は有意ではありませんでした。
実験結果の方向は、どちらのデータ群でも同じです。
あなたは文献の調査中です。
2回目の実験で、追試は失敗であったと記述されているt値は、どれくらいであった可能性がいちばん高いと思いますか?

大多数の回答者は、t=1.70を追試の失敗と見なした。
この2つの研究(t=2.46とt=1.70)のデータを合わせた場合、結合データに見合うt値は約3.00である。(分散は同じと仮定する)
ここで私たちは、矛盾した事態に直面する。
最初の研究の一部と考えたときには信頼度を高める、その同じデータが、独立した研究であると思ったときには信頼度を揺るがすのである。
このダブルスタンダードは、特に憂慮すべきものである。なぜならさまざまな理由から、追試は通常、独立した研究と見なされるし、また仮説は、よく証拠や反論の積み重ねによって評価されるからである。

広範囲に見られる思いこみと異なり、追試のサンプル数をオリジナルの実験より大きくすべきこともよくあるのだ。
一度、発見したことに関する再実験の意思決定は、たいていその発見への強い執着と、懐疑的なコミュニティーへ受け入れられることへの願望となって現れる。
再実験が独立して有意であることを、あるいは少なくとも、優位性を高めることをコミュニティーがムダに求めるため、人は大規模なサンプルで実験するに違いない。

例証するために、以前に取り上げた不幸な博士課程の学生が、最初の結果(t=2.70、N=40)の有効性を検証したい場合を考える。
t値が1.70未満となってしまう危険が.10であることを許容するなら、彼は再実験では約50匹で実験すべきなのだ。
最初の結果よりやや弱い(t=2.20、N=40)場合、同じ検出力に必要な再実験のサンプル・サイズは、約75に増える。

ここまで議論した結果が、平均と分散に関してのみの仮説に制限されないことが、次の質問に対する回答によってはっきり示される。
相関関係を調査するため、100人の被験者の、20個の変数を記録する実験を行いました。
190の相関係数のうち、27個は5%有意で、そのうちの9個は1%有意でした。
有意な相関係数の平均の絶対値は.31で、また実験結果は、理論的な背景から見て、とても合理的なものでした。
有意な27の相関係数のうちいくつが、N=40の再実験でも、ふたたび有意になると思いますか?

N=40のとき、5%有意なら、約.31の相関関係が必要である。
これは、最初の研究で有意とした相関係数の平均値と同じである。
したがって、最初に有意だった相関係数のおよそ半分(つまり13か14)だけが、N=40でも有効である。
さらに、言うまでもなく、再実験の相関係数は、最初の実験のものと異ならざるを得ない。
従って回帰現象によって、最初に有意だった係数は、非常に減少するだろう。
ゆえに、最初の27の有意な相関係数のうち、8~10が再現されるというのが、楽観的な予測である。

回答者の予測の中央値は18だった。
この値は、最初の100人からランダムに40人の被験者を選んで再計算したときに見つかるであろう、有意な相関係数の数を超えている!
人は明らかに、再実験のサンプル中に、最初の統計の単なるコピー以上のものを期待するのである;
彼らは、結果の有意性が再現されると期待し、サンプル・サイズの小ささに注意を払わない。

この期待は、代表仮説が、信じられないほど広く及ぶことを示している;
少数の法則でさえ、そのような結果を生み出すことはできない。
結果のパターンが再現可能であるという期待は、ほとんど彼らの全員に共通の論理的根拠だが、実践しても非常に残念な結果に終わる。

3変数間の相関係数と、3つの従属関係をすべて熱心に計算する調査者は、しばしば大きな確信をもって、一つの有意な相関関係があったと解釈する。
不確実な発見に対する確信は、得られた相関行列は高度に代表的であり、容易に再現可能であるという信仰から生じている。

私たちは調査によって、少数の法則の信仰者は、以下のように科学を実践すると理解した:

自分の思いこみが非常に強いことを理解せず、小標本に自分の研究仮説を賭ける。

検出力を過大評価する。

初期の傾向で(例えば最初のわずかな被験者データで)不適切な確信を抱き、そして観察パターンが安定しても(例えば多数の実験を行い、その結果に同一性があっても)、最初の確信を抱き続ける。

有意性を過大評価する。

再実験において、自分の、もしくは他人の実験結果を評価するときに、有意な結果の再現性に対して、異常に高い期待を持つ。

信頼区間の幅を過小評価する。

思いこみによって、どんな差にも、原因の「理由」を見つけるので、結果の変動が、サンプリングに起因しているとは、めったに考えない。

したがって彼には、行っているサンプリングの変動を認識する機会がほとんどない。

ゆえに少数の法則に対する彼の信仰は、永久に傷つかないままだろう。

私たちのアンケートは、少数の法則に対する信仰の普及ぶりを立証する、相当の証拠を引き出した。
Edwards(1968) は、人は確率的なデータから十分な情報や確信を得ることができないと論じ、この失敗を保守性と呼んだ。
私たちの回答者のほとんどを保守性で説明することは不可能である。
むしろ代表仮説でよく説明できる。人は、データが実際に含んでいるよりも多くの確実性を抽出する傾向があるのだ。

属するグループに関係なく、いちばん典型的な回答者は、信仰者だった。
私たちはどちらのサンプルも全体を象徴しているとまでは主張しないが、数理心理学学会、および米心理学会の大会の、通常セッションにおける聴衆の回答の中央値に差はなかった。
論理学や確率論を理解しても、誤った直観が消えないことは明らかだ。

それでは何をするべきだろうか?
少数の法則に対する信仰を止めるか、せめてコントロールできないだろうか?

研究の体験を積み重ねても、サンプリングの変動が容易に「説明されすぎる」ので、たぶん、たいして役に立たないだろう。
思いこみを修正できるような経験をしても、偽の説明をするために、修正の動機も機会も訪れない。

統計学専攻の学生は、母集団からあるサイズのサンプルを何度も抽出することを個人的に体験することで、サンプリング変動の効果を学ぶかもしれない。
しかし、そうすれば思いこみを修正できる、と言う自信が、私たちには全くない。というのも、ギャンブラーの誤りのように、相当に矛盾した論拠でも生きのびるからだ。

この思いこみが修正不可能だとしても、学生はその存在を認識し、必要な予防措置を講ずることを学ぶことができる。
統計学の教育は警告に不足していないので、統計の直観に関する偏見の警告は、場違いではないかもしれない。

単純な予防策は計算だ。
少数の法則の信仰者は、有意水準、検出力、信頼区間に関し誤った直観を持っている。
有意水準はふつう計算され報告されるが、検出力と信頼限界は、そうではない。
おそらく計算すべきなのだ。
ある妥当な仮説に関する検出力は、たとえばコーエン(1962, 1969) の小規模、中規模、大規模な効果について、実験前にはっきり計算しておくべきである。
そのような計算をすれば、たとえば、サンプル・サイズを4倍にしなければ実験しても意味がない、ということに、頻繁に気づくだろう。

真面目な研究者が、仮説の検証に.50の確率で失敗すると知りながら、なお許容するとは、私たちには考えられない。
さらに言えば検出力の計算は、否定的な結果(すなわち、帰無仮説を棄却できなかったこと)の解釈に必要なのだ。
検出力に関する読者の直感的な予測も間違っていると思われるので、計算した値を印刷することが、時間や紙面のムダであるとは思えない。

初期の心理学の文献では、学会の発表では、たとえば標本の平均は 平均値 ± PE と書くことが普通だった。PEとは確率誤差(平均のまわりの50%の信頼区間)である。
この慣習はその後、仮説検証が一般的になるにつれて放棄された。
しかし、信頼区間は、サンプリングの変動に関する有用な指標を与えるし、私たちが過小評価しやすいのは、まさにこの変動なのである。

有意水準を強調すると、その基礎となっているサンプル・サイズの効果と、統計的な有意性があいまいになりがちだ。
サンプル・サイズにかかわらず、ある実験における効果の大きさは、再実験をしたときの効果の大きさの合理的な見積もりである。
それとは対照的に、再実験時に評価される有意水準は、サンプル・サイズに決定的に依存する。

サイズと重要性の違いをはっきりさせておけば、また、観察した効果の大きさを計算し、報告されることが慣例となれば、有意水準の再現性に関する、非現実的な期待が修正されるかもしれない。
この視点から見たとき、仮説検証モデルを受け入れたことは、少なくとも心理学にとって単純に祝福できるものではなかった。

少数の法則の熱狂的な信者は、統計的推測の論理に誠実な人に対し、多くの罪を負っている。
代表仮説は、認知の歪みについて述べるものであり、動機がなんであれ作用する。
したがって、熱狂的な信者は帰無仮説を早急に棄却できて満足する一方、大事にしている仮説を捨てる可能性は、ますます減少する。その直感的な期待は、日和見主義の楽観的な観測によるものではなく、世界の一貫した誤認によって支配されている。
ある論説を書くようせかされたら、彼は自分の統計的な直感を、適切な懐疑心と見なし、可能なときはいつでも、計算を印象に置き換えるかもしれない。
-------------------------------------------------------------------------------------------------------------------------

引用文献

Cohen, J. The statistical power of abnormal-social psychological research. Journal of Abnormal and Social Psychology, 1962, 65, 145-153.

Cohen, J. Statistical power analysis in the behavioral sciences. New York: Academic Press. 1969.

Edwards, W. Conservatism in human information processing. In B. Kleinmuntz (Ed.), Formal representation of human judgment. New York: Wiley, 1968.

Estes, W. K. Probability learning. In A. W. Melton (Ed.), Categories of human learning. New York: Academic Press, 1964.

Overall, J. E. Classical statistical hypothesis testing within the context of Bayesian theory. Psychological Bulletin, 1969, 71, 285-292.

Tune, G. S. Response preferences: A review of some relevant literature. Psychological Bulletin, 1964, 61, 286-302.