とある社会調査士演習向けTAメール。

アンケート調査(質問紙調査)をする際に、「何人集めればいいの?」という話への応答です。
一応、以下のように返したのですが、ほんとにあってるのか、若干自信がなかったり。。
ご指摘お待ちしております。

---
質問紙調査の最低サンプル数について。
具体的に数字で考えていきます。

(1)中心極限定理から考える
「どんな確率分布でも、同じ物をたくさん集めて平均を取ると正規分布する」という中心極限定理から考える。
これはn(ただし、無作為に選んだn)を大きくすればするほど、正規分布に近づくというものでした。
このとき、「n>30」というのが一応の目安です。
したがって、30以上のサンプルをとれば(一応)いい、というもの。

(2)クロス表の期待度数から考える
クロス表を使って分析するとき、「期待度数が5未満のセルができたらダメ」というルールがあります。
(※「期待度数」であって「観測度数」じゃありません。)

具体例で考えて行きましょう。
世代別×男女のクロス表をつくるとします。
20代、30代、40代の各世代がそれぞれ、14人、6人、20人いたとします。
男女なので、あらわれる確率は1/2となり、それぞれの期待度数は

20代:男性7人/女性7人
30代:男性3人/女性3人
40代:男性10人/女性10人

となります。
ここで「期待度数5未満のセルができたらダメ」ルールを思い出してください。
30代のセルが「男性3人」「女性3人」となり、
世代×男女という3×2のクロス表のうち、2つのセルが「5未満」になりました。
アウトです!
このクロス表を成り立たせるには、あと少なくとも「30代が4人追加で必要」です。
という具合に、実際にクロス表分析をする際にあらわれる期待度数から、必要なサンプル数を類推する、ということができます。
ここでは3セル×2セルのクロス表ですが、セル数が増えればますます1セルあたりの期待度数が小さくなるので、サンプル数がたくさん必要になります。
これから分かる通り、「全体で何人必要」というのは一概には言えないのです。

例えば、世代(10歳刻み)を「10代」から「70代」まで7階層までとるとします。
それを男女やYes/Noなど2分類でクロスするためには、各世代10人ずつは必要です。
トータルだと、70人(7世代×10人)ですね。
なので、仮に世代(10歳刻み)をつかった(クロス表)分析をしたいなら、最低でも70名分はアンケート票を集めないといけない(仮に各年齢層がまんべんなく集まったとして)、ということになります。
実際にまんべんなく年齢が分布しているわけじゃないので、その分、サンプルの総数を増やさないといけないわけですが。

以上、(1)(2)から、最低30以上、 クロス表分析ができる数のサンプル数を集める必要がある、ということがわかります。

参考にしてみてください。
ではでは!
---








Special Thanks to レンタルサーバー