2009年12月08日 02:00 [Edit]

統計思考力養成ギブス - #書評_ - 統計数字を読み解くセンス

化学同人竹内様より献本御礼。

こんな本を待っていた。

統計思考が重要なことは不透明な時代を見抜く「統計思考力」」を読めばいやでもわかるし、「統計数字を疑う」をよめば統計をそのまま信じようとはしなくなる。

しかしそれでは一体全体統計というものをどう扱えばいいのか。

本書には、それがある。


本書「統計数字を読み解くセンス」は、疫学という、統計を最も実践的に扱う学問の専門家が、統計のどこに目をつけ、どこに注意するのかを実際に統計を処理しながら学んでいく一冊。

目次 - KAGAKUDOJIN BOOKSHELLより
第1章 統計数字はじめの一歩 - データの集計と分析
一 どんなデータがあるのだろう

カテゴリーデータ / 数値データ / 計数データと連続データ / 収集したデータをどう表現するか - データの性質を考慮した統計処理

二 データの分布に現れる法則

市町村の人口の先頭桁の数字 - ベンフォードの法則 / ベンフォードの法則に従うのはどんなデータ? / k番目のものの割合は全体のk分の一に比例する - ジップの法則 / パレート曲線とパレートの法則 / ローレンツ曲線とジニ係数

確率をめぐる話(1) 二個のサイコロの目の和
第2章 平均することでなにがわかるか
一 平均とはどういうことか

実感からずれる平均 / 代表する値はいくら? / トリム平均

二 宝くじ一枚の当選金 - 期待値とはなにか  
確率をめぐる話(2) 確率を具体化するとどういうことになるのだろうか
第3章 偏差値を正しく理解する
一 全体の中での位置を知る

平均値との差を測るモノサシ - 標準偏差 / 標準化得点を求める / 標準化得点でなにがわかるか

二 偏差値はなにを明らかにするか?

偏差値を求める / 偏差値が正しく機能する条件

三 対数正規分布の平均値と標準偏差
確率をめぐる話(3) 宝くじの番号、宝くじに当たりやすい人
第4章 データ集計のコツ
一 集計表の見方とつくり方

クロス集計表とはなにか / クロス集計表のつくり方

二 シンプソンのパラドックス

なぜパラドックスが生じるのか / データの個数に差はないか

確率をめぐる話(4) 誕生日のパラドックス
第5章 相関関係をどう読み取るか
一 ふたつのデータの相関をとらえる

散布図からわかること / 相関の強さはどう決まるか / 直線相関と曲線相関

二 性質の異なる数値をどう扱うか

外れ値の扱い方 / ふたつの性質の異なるデータの扱い方 / 統計学的に意味のある相関係数とは

確率をめぐる話(5) ロト6で出やすい数字はあるのか?
第6章 因果関係を検討する
一 相関関係と因果関係

因果関係の基準はなにか / 後向き調査と前向き調査 / 危険度を測る目安 - 相対危険度 / 相対危険度の近似値 - オッズ比

二 見かけの相関
三 風が吹けば桶屋が儲かるか
確率をめぐる話(6) 薬の有効・無効
第7章 もっともらしい結論に惑わされない - 検定
一 検定とはなにか

帰無仮説と対立仮説 / 観察値と期待値

二 違いの大きさを測る基準

有意確率 / 有意水準 / ふたつの過誤 / 検出力 / 統計量の大きさとサンプルサイズの影響

三 奇妙な一致に統計学はどう答えるか?

生まれ星座で交通事故の危険性が異なる? / スポーツ選手の生まれ月の偏り / 血液型と性格に関係はあるか?

確率をめぐる話(7) 野球選手の打率
第8章 全体の姿を推しはかる - 推定
一 標本とはなにか

標本が満たさなければならない条件 / 偏った標本だとどういうことが起きるか / 標本調査とくらべて、全数調査は本当に有効なのだろうか / どれくらいのデータを集めればよいのだろうか

二 得られた結果をどう判断するか

調査で得られた結果は、母集団を代表するものだろうか / 調査によって得られた比率の確からしさ

三 ペンキの厚さの分布と信頼区間

ペンキの厚さを推定することはできるか / ふたつの独立な測定値の和の平均値と分散

確率をめぐる話(8) エレガントな調査法
第9章 統計による予測は可能か?
一 "回帰"という現象
二 地球は温暖化しているか?

気温の推移はどうなっているか? / 気温はどう変化するか? / 予測の宿命

三 予測の精度を高める方法

二〇〇八年の平均気温 / 重回帰分析 / ダミー変数を使うこと / 外挿と内挿

確率をめぐる話(9) 確率を意思決定に役立てる - 降水確率
第10章 健康な生活を送るための統計学
一 正常と異常の境目

診断基準はいかに決まるか? / 検査結果はどの程度信頼できるのか?

確率をめぐる話(10) 検査結果の確からしさ
二 安全性の判断

発がん動物がゼロ匹なら発がん性はないのか? / 外挿すれば安全な量は出せるか?

目次を見ての通り、本書に出てくるのは身近で、それだけにだまされやすく、そして実際多くの人がだまされている問題ばかりである。そう。多くの人。その中には、プロすら含まれる。

P. 148
一九三六年の米国大統領の選挙において民主党のフランクリン・ルーズベルトと共和党のアルフレッド・ランドンのいずれが大統領になるかについて、リテラリー・ダイジェスト社は二五〇万人規模の世論調査を行い、ランドンが当選するだろうと予測しました。一方、ギャラップ社はわずか二〇〇〇人の調査から、ルーズベルトが再選されるという結果を出しました。選挙の結果はルーズベルトの再選でした。

統計学にとってのこの事件は、建築学にとってのタコマ・ナローズ・ブリッジに相当するほど有名なものなのだが、この事件を知らなかった人、理由はおわかりになるだろうか。

リテラリー・ダイジェスト社が使った方法は、電話。

え?まだわからない?

実は、当時はまだ電話というのは高級品で、電話という手法を取るだけで標本が富裕層側に傾いてしまったのだ。その結果の共和党優位。一方ギャラップの二千人は、本当にランダムに算出した二千人。二千が二百五十万に「勝った」理由が、ここにある。

このエピソード、現代においてはなおのこと意味がある。ネット調査というのは、現代においては当時の電話調査と同じバイアスがかかりはしないか。

しかしこのバイアスこそ、統計思考の最大の敵なのである。その中には、どんな分布を選択するのかという分布選択バイアスすらある。標準分布を何にでもあてはめてしまおうとするのもその一つ。それがどんな結果をもたらしうるかは、「ブラック・スワン」が指摘し、その後にリーマン・ショックが来たのは記憶に新しい。

しかし、それでめげてはいけない。統計には、そのバイアスを見抜く方法もきちんと用意されているのである。それがどんな方法か、本書でぜひご確認していただきたい。

本書に強いて問題が一つあるとすると、縦書きであるにも関わらず横書きの専門書なみに数字と式を詰め込んだこと。これがあるが故に「統計思考力」も「統計数字を疑う」も本書のレベルまで踏み込めなかったとも言え、そんな「常識」を華麗にスルーしてくれた化学同人に拍手を送りたい一方で、しかし読みにくいことは否めず、ここまでやるのであれば横書きも辞さない方がよかったのではないか。

冒頭に「一体全体」という言葉が出てきた。統計とは、まさに「一部を見て全部を知ろう」とする技術である。うまくやれば2,000が250万に勝ち、開票と同時に「当選なう」と自信をもってつぶやける。カミオカンデでニュートリノを見つけたのもまた、統計。微積分、線形代数、に続く、「道具としての数学三種の神器」の三番目にして最も強力なのが統計なのだ。

本書のレベルまで統計が読めれば、だまされることもなくなる、というよりだまされてもすぐに気がつくだろう。繰り返す。プロだってだまされるのが統計である。大事なのはだまされまいと身構えるのではなく、決断に至る前にそうと気がつくことなのだから。

Dan the Black Swan


この記事へのトラックバックURL

この記事へのトラックバック
404 Blog Not Found:統計思考力養成ギブス - #書評_ - 統計数字を読み解くセンス
404 Blog Not Found:統計思考力養成ギブス - #書評_ - 統計数字を読み解くセンス【】at 2012年01月24日 01:59
この記事へのコメント
例えば、中国は2008年の失業率について、以下の通り発表している。
「2008年の登録失業者数は886万人で、失業率の実績は4.2%である」

 失業率4.2%といえば、現在の日本と同レベルである。この数値を「思ったよりも良い」と思うか、「思ったよりも悪い」と思うかは人それぞれだと思う。だが、それ以前に、この文章を見た瞬間に「んん??」とピンとこなければ、その人は中国経済について語ることを差し控えておいたほうが無難である。
http://voiceplus-php.jp/web_serialization/china_economy/001/index.html


Posted by おれに語る資格はなかった・・・・ at 2009年12月10日 02:25
http://www.youtube.com/watch?v=9ZTBc82Jwpc&feature=related

婚活
Posted by   at 2009年12月10日 00:08
http://www.youtube.com/watch?v=7nBSwyZOlHE

勘違い女
Posted by    at 2009年12月10日 00:06
>まあ、アフェリエイトのポイントを稼ぐためかもしれませんが、自分の紹
>介した本、あるいは自分の知見が世の中のほんのすべてであるかのような
>書き方は止めておいたほうがいいのでは。

wwwwwwwwwww
Posted by 匿名孫 at 2009年12月09日 20:11
>その一つ。それがどんな結果をもたらしうるかは、「ブラック・ス
>ワン」が指摘し、その後にリーマン・ショックが来たのは記憶に新
>しい。

統計数理研究所の赤池先生だか林先生だかの著作には、それよりずっと以前に同じ主旨の指摘がしてあったと思いますが。というより、サンプリングの手法による偏りを考慮するのは、この種の調査を行う際の前提として常識的なことですよね。まあ、アフェリエイトのポイントを稼ぐためかもしれませんが、自分の紹介した本、あるいは自分の知見が世の中のほんのすべてであるかのような書き方は止めておいたほうがいいのでは。
Posted by 匿名子 at 2009年12月09日 19:21
米国で1936年当時、電話アンケートを行った電話の台数が250万台ですか。
同じ時の日本の電話の普及台数ってどの程度なのだろうか?

当時の両国の電話普及率の差がどの程度なのかわかりませんが
戦争に負けた理由の一つが見えるように思います。
Posted by 通りすがり3 at 2009年12月09日 16:30
初心者向けの本はもとより、統計学の専門書を見渡しても、「標本とは何か」「検定とは何か」についてしっかりと言及している本は少ないように思える。
それゆえ、大半の社会学が中途半端な統計処理を使って”科学”の名を語るようになる。

目次を見るにつけ、本書には、その抜け落ちたプロセスがしっかりと埋まっているように見える。

たぶん知らない事は書いてないだろうけど、読んでみようかな。
Posted by yack at 2009年12月09日 02:55
よく緊急電話調査とやらがあるけど、いまどき日中、家にいてヒマそうにアンケートに答える、というのはほとんど一種類の人間だろうな。
Posted by 痴本主義者 at 2009年12月08日 22:51
やばい経済学という本と似ているかもしれませんね。

ドラッカー氏も統計学をかじったことがあるようです。
Posted by 光畑 昭宏 at 2009年12月08日 22:34
統計って単純ではないのですね。紹介している3冊読んでみたくなりました。
Posted by しゃくや at 2009年12月08日 21:29
特に疫学で気をつけなければいけないのは、相関関係と因果関係を取り違えてないかということだ。
二つの変数の間に関係があるといっても、それが、原因と結果であるとは限らず、別の第3の因子があることがある。
Posted by 風竜胆 at 2009年12月08日 21:10
不透明な時代を見抜く「統計思考力」 p159
『ギャラップ社が使ったのは「割当法」という無作為選出に近い方法』
『リテラシーダイジェストが使ったのは電話帳、クラブ会員名簿、自社の購読者リスト』
Posted by 浦川 真一 at 2009年12月08日 19:59
青木教授は統計の資料をいろいろオープンにしているから結構好きです。
こういう実例が多い本はテキストと連動して読む/学ぶのがいいと思います。
統計の見方だけを押し付けられても思考氷結に繋がると思うんで。
Posted by apeescape at 2009年12月08日 12:15
面白そうですね。早速図書館でリクエストしますw
Posted by yang at 2009年12月08日 10:06
>その前にギャラップ社が使った方法を書かなければ分かるわけが
ないのでは?

ギャラップ社が勝った理由は確かにそれだけではわからないけど、
リテラリー・ダイジェスト社が負けた理由はそれでわかりますよ
Posted by 通りすがり2 at 2009年12月08日 08:04
>リテラリー・ダイジェスト社が使った方法は、電話。

>え?まだわからない?

その前にギャラップ社が使った方法を書かなければ分かるわけが
ないのでは?
Posted by 通りすがり at 2009年12月08日 07:38