.
今回は、いきなり、実用的な話をする。

現在、パソコン用の、統計学解析ソフトが
多数あり、ダウンロードできるものまである。

よって、
自分で、難しい計算を行う必要はなく、
そのソフトを使う時に、
最初に入力しなければならない
10個ぐらいの項目を
適切に埋めていけるか、
または
適切に選択していけるか、
ということが、問題になる。

で、
こうしたソフトがあっても、
決してそれは、簡単ではない。

ある程度の統計学的知識がないと
適切に使うことができないからだ。

・・・

まず、統計解析ソフトは、以下の四つが有名である。

1.Epi Info

一番簡単。ウェブからダウンロードできて無料。
開発途上国のスタッフに教えやすい。実用的。
http://zeus.mis.ous.ac.jp/EpiInfo/epiinfoj.html

2.STATA

英語圏および英語が使える大学生・大学院生がよく使う。
http://www.stata.com/

3.SAS

世界最高レベルの統計解析。値段が高い。
http://www.sas.com/offices/asiapacific/japan/software/stat.html

4.SPSS

日本語版のマニュアルのが豊富なのは、これ。日本ではこれが標準。
http://www.spss.co.jp/

・・・

次に、
今回の内容で、最大のポイントとなる、
「サンプル数の決定の仕方」
について、書いていく。


統計学を使う、ということは、
なんらかの要因と、なんらかの要因に
関係がある、などということを証明するために行うわけだ。

例えば、
この地域の井戸水の大腸菌の数が多いこと

この地域の人が下痢で死ぬことが多いこと

関係ある、ということ(仮説)を証明したい、など。

で、この仮説が証明できなければ(正しくなければ)
井戸水の大腸菌を減らすプロジェクトを行っても
その地域で下痢で死ぬ人の数は、減らない、ことになる。

というわけで、、
この統計処理の結論は、非常に重要となる。

だって、下手をすると、
まったく意味のないプロジェクトに
お金を大量に注ぎこむことになるからだ。

で、
通常、95%の信頼区間(confident interval)をもって
(95%の信頼性をもって)
この仮説を証明できた、というような言い方をする。

(逆に、有意水準5%である、とも言う。)

で、
この、95%の確立で、統計学的に信頼できる、
と言えるためには、どのくらい多くの
サンプル数(標本数、調べる数)が
ないといけないか、ということを
事前に知らないといけない。

統計調査を行うために、事前に、
最低必要なサンプル数を知らないといけない。

例えば、
イラクに、井戸が仮に、10万個あるとして、
大腸菌で汚染されているかどうかを知りたい時に、
その全てを調べることは
(予算的にも、時間的にも)できないから、
そのうち、何個調べれば、全体の予想ができるか、
(予想をしていいか)
ということが問題になる。

10個でいいのか?
100個か?
1000個か?
10000個か?

どのくらいののサンプル数(標本数)があれば、
全体(母集団)を推測してよいか、
(95%の信頼性をもって、推測できるか、)
ということを、判断できなければならない。

統計学とは、母集団(全体)の中から、
ピックアップしてきた(抽出してきた)
数少ない標本たち(サンプルたち)をもとにして
母集団(全体)が、どのようになっているのかを
推測する、という学問である。

当然、サンプル数が多いほど、
母集団の本当の様子を、推測できる確立は高まる。

が、
通常、現実の世界では、団体の予算の関係で
サンプル数は、できるだけ減らしたい。

このため、
統計学を用いて、
ぎりぎり必要なサンプル数を算出し、
予算をできるだけ抑える、ということが必要になる。

この最低必要なサンプル数を決定することが
現場レベルにおける統計学で
もっとも重要なことである。

・・・
・・・

で、
このサンプル数を決定する要因は
以下の4つである。


1.事前の情報による、おおよその割合
  A prior information about parameters of interest

2.効果の大きさ
  Effect size ( difference to be expected )

3.信頼区間
  confidence level

4.パワー
  power


これらの要因を、次に解説していく。

・・・

1.事前の情報による、おおよその割合
  A prior information about parameters of interest

これは、非常に重要である。

なんでかというと、
10人に3人かかっているような(頻度の多い)病気の場合、
少ない標本数(100人ぐらい)でも、高率にひっかかってくるが、
1万人に一人しかいないような少ない病気の場合、
少ない標本数(100人ぐらい)では、ひっかかってこない。

さらに、それにより全体(母集団)の中での数を推測するためには
頻度の少ない(稀な)病気のほうが、標本数がたくさんいることになる。

(1)文献調査

よって、ターゲットをする病気の、全人口における割合を
他の団体の過去の調査(文献)などにより、
なんとかして「知る」ことが必要になる。

(2)パイロット・スタディー

他の団体の事前調査がない場合、
パイロット・スタディー ( pilot study ) として
30サンプル程度で、簡単な調査を行い、
それにより、おおよその結果を推測する。

この30という数字が、統計学では
magic number と呼ばれており、
様々な結果を導き出すための
非常に重要な(最低必要な)数字となっている。

(このことは、後で触れる、もっとも実用的な
 クラスター・サンプリングでも登場する。)

(3)専門家の意見

さて、上記の二つとも、無理な場合、
専門家の意見をきく、という方法もある。

・・・

2.効果の大きさ
  Effect size ( difference to be expected )

例えば、ある国では
下痢で死亡する割合が、全死亡のうちの
10万人あたり1万人だったとする。

ところが、
その国の中のある地域で、
下痢で死亡する割合が、全死亡のうちの
10万人あたり1万5千人だったとする。

事前の調査で、
どうやら、この地域の井戸に大腸菌が多い、
という情報を得た、とする。

この場合、
もしも、
井戸の大腸菌と、下痢で死亡が関係あるという
仮説を立てた場合、
井戸の大腸菌による「効果の大きさ」は
1万人が1万5千人に増えたわけだから、
(もとを100%とすると、150%になったわけだから)
50%(増えた)、ということになる。

この場合、この50%という数字を
「効果の大きさ」Effect size
と呼ぶ。

この「効果の大きさ」が大きいほど
サンプル数は、少なくてすむ。

この「効果の大きさ」が小さいほど
サンプル数は、多くないといけない。

・・・

3.信頼区間
  confidence level

結論からいうと、95%、すなわち、0.95
という数字を、ここに入れればよい。

4.パワー
  power

結論からいうと、80%、すなわち、0.8
という数字を、ここに入れればよい。

以下、上記の二つの数字の解説を
簡単にしておく。


ムテキン、という人が、悪いことをしたらしく
警察につかまった。
本当かどうか、はっきりしない。
(でも、私は、彼は無罪だと思う。それを証明したい、とする。)

この裁判が行われた。

以下の四つになる可能性がある。

       本当に無罪    本当は有罪
       
判決は無罪  正しい判決    間違った判決
      (信頼区間95%) (100-80=20%)

判決は有罪  間違った判決   正しい判決
      (100-95=5%)  (power 80%)

小計     100%        100%


ムテキンという人が、
本当に無罪で、判決も無罪になる確率を
95%まで、上げたい。

これが目的なのだから、当然そうであろう。
この95%信用できる、という数字を
信頼区間 confidence level ( C.I.)と呼ぶ。


一方、
ムテキンという人が、
実際は有罪で、判決も有罪になる確率も
80%までは、保障したい。

こちらは、メインの目的ではないので、
やや数字を下げることができる。

この、いわば裏の、目的の保障を
パワー power と呼ぶ。


なんで、こちらを下げていいのかというと
以下のような理論による。

上の表(テーブル)に戻って考えた場合、
左下の「間違った判決」

右上の「間違った判決」

ある。

左下の「間違った判決」は
ムテキンが、実際は無罪なのに、有罪になってしまったケース。

右上の「間違った判決」は
ムテキンが、実際は有罪なのに、無罪になってしまったケース。

さて、みなさん。
この二つの「間違った判決」のうち
どちらがより、ひどい間違いだろうか?

一般的には、
無罪の人を有罪としてしまうことのほうが、
有罪の人を無罪にしてしまうことよりも
ひどい間違いである
ということになっている。

よって、
左下の「間違った判決」を5%以下におさえ
(すると、その裏である信頼区間が95%となり)
右上の「間違った判決」を20%以下におさえ
(すると、その裏であるパワーが80%となり)
これらの数字が算出されるのである。

この文章を読んだ後、また上記の表の数字と計算をみれば
理解できるであろう。

・・・

以上より、
サンプル数を決定するための、
四つの項目の解説をした。

もしも、事前の情報もなく、
効果の大きさもわからない場合、
以下の数字を、統計処理ソフトにほうりこめば
ソフトが、最低必要なサンプル数を
計算してくれる。

1.事前の情報による、おおよその割合
   50%

2.効果の大きさ
   プラスマイナス5%以内

3.信頼区間
   95%

4.パワー
   80%

こうすると、サンプル数が、最大になる。
よって、調査は大変になるが、
とりあえず、これだけやれば大丈夫、という数は
計算できる。


・・・
・・・

ここで、データーの種類の話

統計調査を行った場合、
そのデータには、いくつかの種類がある。

1.カテゴリー・データ Categorical Data

 健康であること healthy を 1
 病気であること sick  を 2

などにした場合。
(自分で、そういう数字を、わりふった、ということ。)

この場合、数字には、定量的な意味はない。
(その数字の平均値などを出しても、意味ない。)


2.定量的データ Quantitative Data

これには、2種類がある。

Discrete 整数のみ

Continuous 少数点以下もある数字

いずれにしても、
これらの数字には意味がり、
平均値を出したりすることにも意味がある。

・・・
・・・

以上を踏まえて、計算式の紹介。
見るだけでいい。


叙述的研究の場合(仮説がない場合)、
上述の四つのサンプル数の決定因子のうち、
4.のパワーが必要ない。

このため、以下の計算式で、算出することができる。

n : サンプル数
p : prior information (事前の情報による推定割合)
δ: efect size
C.I.:信頼区間(95%の場合、1.96として計算する)


データが、カテゴリーデータの場合

 n = 1.96 x 1.96 x p (1-p) / δxδ


データが定量的データの場合
上記とは違う、別の計算式を使う。

また
分析的研究で、仮説がある場合、
パワーも入ってくるため、
もっとずっと難しい計算式を使う。

(見ると、いやになるだろうから、掲載しない。)

が、
こうした計算は、すべて
既に紹介したパソコンソフトが行ってくれるので
自分で計算できる必要は、ない。

あなたが必要なのは
これまで紹介してきたような
理論だけを知っていればよい。

うざったいことは、すべてコンピューターが
やってくれる。


ともかく、これであなたは、
現地にいって、
プロジェクトを作成するための
なんらかの事前調査を行う時に、
最低必要なサンプル数を、算出することが
できるようになったはずだ。

・・・

ここまでが、二日目。