.
今日から3回連続で、
国際協力を行うために、
最低必要な統計学について書いていく。

予定では、
1.リサーチデザイン
2.サンプル数の決定
3.クラスターサンプリング
という流れになる。

・・・
・・・


本格的な国際協力を行う場合、
統計学は、必須の学問である。

理由は
(1)プロジェクトの目標(指標)を作成する時も、
(2)プロジェクトを実施した後に効果判定をする時も
必要になるからだ。

・・・

(1)プロジェクトを作成する場合には
どんな分野の活動であろうが、
事前に
それに関連する統計学的指標をいろいろ調べる。

まず、
他団体(政府や国連など)に聞いて情報を入手し、
それだけでは情報が不十分な場合、
自分の団体で、統計調査を実施する。

後者の場合は、当然必要になるが、
前者の場合でも、得られた指標がどのような意味を持つか、
その指標に、どのような欠陥(見ていない部分)があるか、
を知っておかないと、大きな落とし穴に陥ってしまう。

(私のブログの、貧困や医療の指標を参照)

よって、プロジェクトを策定する場合、
統計学の知識は必須である。

・・

(2)プロジェクトを実施した後に
通常、統計調査を行い、その効果判定をする。
それにより
今回のプロジェクトが意味があったのか
無かったのかを知ることができる。

また、複数の指標でプロジェクト結果は評価され、
それにより
多面的なプロジェクトの性格が見えてくる。

どのような要因(活動)が、一番(指標への)効果があったのか、
などの関係するファクター分析も行われる。

・・・

で、
通常、この統計学の基礎を勉強するために
プロの国際協力師になりたい人は、
大学院(修士課程等)に行って勉強することになる。

が、
大学院に行く前に、
いきなり青年海外協力隊やNGOのインターンなどで
現場に行ってしまう場合がある。

また将来、NGO職員やJICA職員となる場合には
大学院修士は、必ずしも必須ではないので
統計学を勉強する機会はないかもしれない。

こうした人々のために、
統計学の基礎を、ここに紹介しておく。

・・・
・・・

統計学で、ある調査をする場合、
まず、その調査のデザイン(計画)をする。
これを、「リサーチ・デザイン」、という。

Research Design

リサーチ・デザインには、3種類があり、

1.叙述的研究 Descriptive study
2.分析的研究 Analytic study
3.実験的研究 Experimental study

である。

三つの違いは、以下。


1.叙述的研究は、
これこれこういう事象が、この標本(選ばれた人)たちにある。
それは、おそらく母集団(その地域全体)でもそうであろう、
というもの。

(標本たちから、母集団の様子を推測しただけ。)
(推測した内容が、信頼できるかどうかを、検証すること。)


例えば、
ある地域では、
井戸の水に大腸菌がたくさんいて、
また
その地域で下痢で死亡している人がたくさんいる、
などという、いくつかの事象を推測する。

A(井戸水の大腸菌が多いということ)

B(その地域で下痢で死亡する人が多いこと)
という
いくつかの事象が、母集団で起こっている
ということを推測する。

AとBとの間に、なんらかの関係があるかは、証明できない。

単に、AもBもある、としか言えない。


よって、
AとBとに関係がある、と証明したい場合、
他の分析的研究などを行わないといけない。

言い方を帰れば、いくつかのことが
母集団で起こっているという情報だけを提供し
それ以上の研究は次の研究にまかせる、という
ある意味で、
「ネタ」を提供する作業だ、とも言える。


2.分析的研究のほうは、
AとBが、関係ある、ということ(仮説)を証明したい
時に使う。

(要するに、分析的研究には仮説がある。)
(叙述的研究には、仮説はない。)

例えば、井戸の水に大腸菌がいること

下痢で死ぬ人が多いこと

関係あるのかないのか、を知りたい時、行う。

(ともかく、自分が考えた仮説を証明したい。)

で、重要なのは、
この分析的研究においてわかるのは、
仮にそれが証明されたとしても、
AとBが関係ある
ということだけであり
Aが原因で、Bの結果になった
と言ってはいけない、ということ。

関係がある、と言えるだけで、
原因と結果になる、とは言えないのだ。

これをよく、みんな間違えているので、注意が必要。

要するに、
井戸水に大腸菌がいること

下痢で死ぬ人が多いこと

なんらかの関係がある。
が、
前者が原因で、後者が結果である、とは
言ってはいけない、のだ。

(もしかしたら、逆の関係かもしれない。)
(それ以外の関係かもしれない。)


3.実験的研究

AとBに関係があるとわかった場合、
通常、さらに、
Aが原因で、Bになった、ということを
証明したくなる、はずだ。

井戸の大腸菌のせいで、
下痢で死ぬのだ、
と言いたいはずだ。

で、この、原因と結果、の関係を
証明をするためには
上記の二つとは、また別の
実験的研究、というものが
必要になる。

で、これには通常、
まず事前に、
化学的、生物学的、医学的、疫学的、など
さまざまな側面で、
Aが原因で、Bとなる可能性が高いことを
論理的に説明した後で、
さらに
標本になんらかの負荷を暴露する実験
Intervention Trials
が行われる。

ある、負荷(大腸菌のいる井戸水を飲む状況)を暴露したアルファ群と
その負荷がないベータ群を、
それぞれ、例えば300人ずつ用意し、
1年間、ずっとその経過を追ったところ、
アルファ群は、たくさんの人が、下痢になった。
ベータ群は、ほとんどの人が、下痢にならなかった。

ということが、証明できれば、
これは、原因と結果である、と考えてもよい、
となる場合がある。

・・・

まとめると、

1.叙述的研究は、
標本たちから母集団の状況を推定するだけ。仮説はない。

2.分析的研究は、
AとBの関係がある、という仮説を証明する。

3.実験的研究は、
Aが原因で、Bが結果である、という仮説を証明するもの。

・・・

以下、ちょっと難しい単語が続く。

通常、

1.叙述的研究には、
Cross-sectional study
などが用いられる。

2.分析的研究には
Case-control study
などが用いられる。

3.実験的研究には
Cohort study with Intervention Trials

などが用いられる。

・・・

Cross-sectional study
とは何かというと、
次のような表(テーブル)を考える。

     病気あり 病気なし
暴露あり  90   10
暴露なし  10  390

全体のサンプル数は、総計で、500(人)

わかりやすいようにいうと、
暴露とは、井戸水に大腸菌が入っていること。
病気とは、下痢で死ぬこととする。

これは、例えば、
2007年の、6月1日
(またはその前後のせいぜい一週間以内)
で調べた結果であり、
ある一瞬の、スナップ・ショット(撮影)にすぎない。

継続的に、その集団を追いかけたのではなく、
一瞬の、横断的側面、にすぎない。

(ある意味、いい加減である。)

Cross-sectional study
の場合、サンプル数(上記の場合は、500人)
を決めたら、あとは、
単に、暴露した人とそうでない人、
病気にかかった人とそうでない人、
の数を調べて、数えるだけ、である。

この方法は、
1.の叙述的研究に使われる方法で、
単に、その標本たちから
母集団(全体)の状況を、推測できる、
というだけである。

いくつかの事実が、母集団にあるのではないか、
と言えるだけ。

しかし、一瞬の調査でできるので、
予算は、少なくてすみ、
実用的である。

・・・

Case-control study は
一見、上述の、
Cross-sectional study に似てみえる。
上記のように
表(テーブル)で、結果がでるからだ。

しかし、本質的に、異なる。

     ケース  コントロール
     病気あり 病気なし
暴露あり  90   20
暴露なし  10   80

小計   100  100

違いは、全体の数を500人と決めたのではなく、
病気になった人を100人、
病気になっていない人も100人
と決めてから
調査を行うことである。

これにより
病気になった人のうち、何人が(過去に)暴露していたのか?
病気にならなかった人のうち、何人が(過去に)暴露していなかったのか?
を調べる。

この方法は、通常、
分析的研究に用いられ、
この調査を行えば、
A(暴露)とB(病気)は、関係がある
と言える結果が出せることになる。


また、オッズ比、というものがある。

ケース・コントロール研究において
ケース(病気)の中で、暴露があった割合

コントロール(健康)の中で、暴露があった割合

比較した(割った)値が、オッズ比、である。

上の表の例で、考えると、
 90/10=9
 20/80=0.25
 9/0.25=36

要するに、
病気の人々の中で、大腸菌の多い井戸水に暴露されたいた割合は
健康な人々のそれに比べて
36倍だ、
ということになる。

この数字を、相対危険度(オッズ比)という。


余談:
さらに、補足をすると、
このAとBが関係がある、という証明をしたい場合、
統計学では、まず、
その逆の仮説を立てることになっている。

つまり、
(ちょっと、まどろっこしい論理だが)
AとBは、関係が無い、という仮説を立てた。
しかし、
それを証明しようとしたけれども
どうしても、そうはならなかった。
よって、
AとBは、関係がある、はずだ。
という結論にもっていく、という方法を統計学ではとる。

この、最初に自分の望む結果と逆の仮説を作ることを、
「帰無仮説」の策定という。

・・・

Cohort study とは、
ある暴露がある集団のことを、
未来に向かって、ずっと追いかける研究である。

     病気あり 病気なし  小計
暴露あり 150   50  200
暴露なし  20  180  200


Case-control study と、是非、比較して欲しい。
Case-control study では、
病気ありの小計が100人、病気なしの小計が100人だった。
そのうち、暴露にあったものが何人いたかを調べた。

それに対して、

Cohort study は、まったく逆である。
まず、暴露を(これから)する人を200人、
暴露を(これから)受けない人を200人、用意する。
そうした人たちらに、
(通常)これからの未来に、暴露をして、どうなるかを見るのだ。
1年とか、10年とか、フォローアップし、
どちらにどれだけの病気が発症していくかを観察し続ける。

これは、すぐ結果がでないので、時間がかかるが、
一般に、この方法のほうが、正しい結果が出やすい、
ということになっている。

(統計学の中で、非常に格が高く、信頼性も高い。)

・・・

余談:
厳密には、
retrospective Cohort(後ろ向きコホート)

prospective Cohort(前向きコホート)
があるが、
今回は、後者のみの話をする。

・・・

簡単にいうと、
ある集団に、暴露をかけて、その後1年とか10年とか
ずっと追いかけていき、病気などになるかを調べることである。

例としては
大腸菌の含まれた水を飲んでいるアルファ群と
そうでないベータ群の
両方をおいかけていき、
アルファ群のほうが、ベータ群よりも、明らかに下痢の発生が多い、
などを観察すること。

通常、これは、
実験的研究に用いられ、
(同時に、化学・生物学・医学なども裏打ちするデータがあれば)
Aが原因で、Bが結果である、
と言ってもよいことになっている。

(逆に言えば、統計学だけでは、どんなにがんばっても、
 Aが原因で、Bが結果である、と言うことは難しい。
 この点は、重要である。)

・・・

通常、
予算がかからず、簡単である、
ある一瞬のスナップショットである
Cross-sectional study
を、まず行う。

ある母集団から、
数百人の標本を抽出して、
下痢になる原因となっているものを探る。

その結果、
大腸菌の多い井戸水を飲むこと、などが
疑われてくる。

これが、
1.叙述的研究
である。


次に、
予算がなければ、
Case-control study
を行う。

下痢になった人と
ならなかった人たちを
それぞれ、数百人ずつ選び、
(過去に)大腸菌の多い井戸水を飲んだかどうか、
質問する。

この結果により、
A(大腸菌の多い井戸水)

B(下痢になったこと)

関係ある、といえることになる。

これが、
2.分析的研究
である。


また、
もしも、大量の予算があれば、
お金と時間のかかる
Cohort study with Intervention Trials
が、行われる。

アルファという群(人々)には
大腸菌の多い井戸水を飲み続けてもらい
ベータという群では
綺麗な水を飲み続けてもらう。

その結果、
1年したら、何人の人が、その間に
下痢になったか、ということを調べる。

これと同時に
化学的に、井戸水にカルシウムなどの下痢の原因がないこと、
生物学的に、大腸菌が下痢を起こすタイプの病原性があること、
医学的に、その大腸菌が腸まで到達し、発症する可能性が高いこと、
疫学的に、他の地域でも、同様の現象が起こっていること、
などが、
同時に証明された場合、
A(井戸水を飲むこと)が原因であり、
B(下痢がおこる)といってもよい、
ということになる。

これを、
3.実験的研究
と呼ぶ。

・・・
・・・

要するに、
今回、統計調査を行う目的が
どういう目的でやるのかを
はっきりさせて行うことが必要だ。

5W1Hを明確にすること。
(いつ、どこで、だれが、何を、どのように、なぜ)

で、この中で、最も重要なのが、最後の、
「なぜ」
である。


その地域で、下痢による死亡率が高いが、
まだ、ほとんどなんの情報もない場合、
Cross-sectional study
により
叙述的研究をするしかない。

すると、
様々な要因(ファクター)がひっかかってくる。
井戸が大腸菌で汚染されている。
トイレがない。
マラリアが多い。
栄養失調が多い。
など。

(要するに、なんでもいいから、
 原因を探りたい、という時に
 叙述的研究を行う。)


集められた情報の中で、一番死亡率に影響を与えていると
思われるものに対して
A(井戸の汚染)とB(下痢で死亡)は
関係がある、
という仮説を立て、
それを証明する。

この時、
Case-control study による
分析的研究を行う。

(要するに、死亡率を高めている原因が
 ある程度、めぼしが付いており、
 明らかに、AとBが関係している可能性が高い、
 という時に、こちらを行う。)


以上の二つは、ある時点での
スナップショットであり、
横断的な側面でしかないが、
少ない予算で行うことができ、
また、時間もあまりかからないので
非常に実用的である。

国際協力の世界では、
通常、この二つを用いる。


で、
もしも、大規模な予算があり
継時的な変化をみたい、
または
どうしても、
Aが原因で、Bが結果である、
ということを証明したい場合、
Cohort study with Intervention Trials
を行う、
ということになる。

しかしこれは、
大量の予算と、長い時間がかかるため、
国際機関か政府機関の
大規模なプロジェクトでないと難しい。


と、いうことを見極めた上で
あなたが必要な
リサーチデザインを、立てていって欲しい。

・・・

以下、明日に続く。


・・・

このブログの続きはこちらへ
http://blog.livedoor.jp/toshiharuyamamoto128/archives/52038367.html