『世論の曲解』(光文社新書)で政治をめぐる世論調査や分析に鋭い批判を行なった著者によるデータ分析の入門書。
 ただし、例えば伊藤公一朗『データ分析の力』(光文社新書)が因果推論のさまざまな手法を紹介し、データ分析のツールを教える本だったのに対して、本書は世に出回っているデータ分析の問題点を指摘し、その読み解き方を教えるものとなります。
 その点では、本書はメディア・リテラシーの本でもあり、少し古い本になりますが谷岡一郎『「社会調査」のウソ』(文春新書)と同じ系譜にある本とも言えます。

 近年ではデータが重視される中で、マスメディアやネットにもさまざまなデータ分析が溢れていますが、これらの中には明らかにおかしいものもあれば、一見すると鋭いようでいて実は何かがおかしいものもあります。
 本書はそうした玉石混交のデータの洪水の中で、玉と石を見分ける手がかりを教えてくれます。まさに今の世の中に必要な本だと言えるでしょう。

 目次は以下の通り。
はじめに 怪しいデータ分析への処方箋
第1章 データ分析読解の基本、因果関係
第2章 怪しさを感じ取る糸口、議論と数字のズレ
第3章 結果論は分析ではない
第4章 データが歪めば結果も歪む
第5章 「分析したつもり」の落とし穴
第6章 幻の因果関係を生み出す交絡因子
第7章 散布図に潜む罠
第8章 偽の相関、逆の因果と叫べば勝ちではない

 第1章では因果関係を押さえることがとり上げられていますが、ここでまず陥りやすいのが原因を1つに求めてしまうことです。
 「原因→結果」という図式で考えると、原因と結果が一対一で対応しているように思えてしまいますが、現実ではさまざまな要因が組み合わさっています。

 本章では「ニュースにおいて交通事故が頻繁にとり上げられるようになったのはなぜか?」という問いが置かれています。
 「交通事故が珍しくなった」「ニュース番組の時間が長くなった」などの原因が浮かぶかもしれませんが、他にも「ハンディカメラやドライブレコーダーの普及で画がつくりやすくなった」「道路網の整備で画になりやすい事故が増えた」など、言われれば原因はいろいろと列挙できます。
 物事の原因を考えていく上で、しっくりくる原因が見つかったらといってそこで分析を止めるのではなく、そこからさらに思考を進めていくことが必要なのです。
 ですから、因果関係というよりは因果構造という言葉で捉えた方が適切だと言います。

 第2章では議論と数字のずれに焦点があわされています。
 本章でとり上げられているのは、秋田県の自殺率の高さなどに触れた記事で、「秋田県は人口10万人当たりの美容院の数が全国で1位。そのことからわかるのは、見栄っ張りでほかの地域よりも恥を感じやすい県民性だということです」(61p)というネット記事の一節です。
 「美容院の数が多い」=「見栄っ張り」というロジックには首をひねる人もいるかもしれませんが、「秋田美人」という言葉もある通り、「秋田県民は他県民よりもおしゃれ」くらいの理解をする人は多いと思います。

 ただし、「10万人当たりの美容院の数」の数の1位が秋田県、2位以下が徳島県、鳥取県、山形県とつづき、ワーストが神奈川県、千葉県、埼玉県、愛知県、東京都だということを知ると(62p表1参照)、この「10万人当たりの美容院の数」という数字に疑いを持つはずです。
 「これは「見栄っ張り」云々などではなくて、都市部と農村部の違いで、都市部だと数字が低く出ているのではないか?」と感じた人も多いでしょうが、本書はそこからさらになぜそのような数字が出てくるかのかということも解説しています。基本的に都市部の美容院の方が1つの店舗にいる美容師の数が多く、商圏も広いのです。

 こういったデータについては最大と最小を観察することで、その性格が見えてくるといいます。自分でデータ分析をするときは全体を見ることが必要ですが、例えば、今回の例では神奈川がワーストだとわかれば、「神奈川県民は見栄を張らない??」となるわけです。

 第3章では「苦しい」データ分析の誤りを具体的に指摘してく術が示されています。
 とり上げられている記事では、男性の未婚に関して地域によって「男余り」にばらつきがあり、20〜30代の「男余り」率は1位茨城県、2位栃木県・福島県、3位群馬県と北関東に集中していると指摘し、その原因は不明としています。

 「男余り」率というと「北関東の男性は魅力がないのか?」などと思っていますが、この「男余り」率なるものは「男性率」という単純なデータと強く相関しています(96p図1参照)。男が多いので未婚の男も多いのです。
 では、なぜ男が多いのか? 「男余り」率の第1位となった茨城県の市町村別のデータを見ると、男性率が高いのは1位が鹿嶋市で2位が日立市です。両市とも製造業が強い場所であり北関東は製造業が盛んなので「男余り」率が高いのです。

 先ほどあげた記事の著者(荒川和久)の後の記事ではこのことを指摘しており、別の記事では「生産工程従事者」や「運搬・清掃・包装等従事者」の未婚が多いことをあげ、「ガテン系」や「肉体労働系」は結婚しにくいということを示唆しています。
 
 しかし、これも誤解です。「生産工程従事者」や「運搬・清掃・包装等従事者」はそもそも男性が多いですし、各職種の年齢構成が若ければ未婚率も高く出ます。「生産工程従事者」の20〜30代の割合は比較的高く、結婚できないというよりも、結婚していない若い人が多いとも解釈できるのです。
 実際、製造業に従事する若者の未婚率は他の産業や職種に比べて高いわけではありません。

 「でも、製造業がさかんな北関東の未婚率は高いのでは?」と思った人もいるでしょうが、北関東の未婚の男性のすべてが製造業に従事しているわけではありません。余っている男性は、他の産業に従事している人かもしれないのです。

 また、「男余り」率なる指標は未婚率とは微妙に違った現れ方をするものであり、そもそも指標としてどうなのかという問題もあります。
 最後に指摘されていますが、男性の未婚率の強い影響を与えているのは正規か非正規かであり、「運搬・清掃・包装等従事者」で未婚が多いのはこれら職種で非正規の割合が高いからです。

 愛4章では「データの取り方」の問題が検討されています。
 大ヒットした『鬼滅の刃』、映画の『無限列車編』の公開に合わせて2020年10月26日発売号の『週刊少年ジャンプ』でキャラクターの人気投票が行われましたが、そこで禰豆子が11位と低い順位にとどまったことが話題となりました(1位は善逸、以下、義勇、無一郎、炭治郎)。
 それを受けて、禰豆子が不人気の理由がいろいろと考察されましたが、著者はここで忘れがちになるのが調査のタイミングだと言います。

 この人気投票の投票券は、2020年2月10日発売の『週刊少年ジャンプ』と単行本の19巻についていました。投票券の数はジャンプ本誌に1枚、単行本に2枚です。
 単行本は発売一月で200万部ほど売れており、投票の割合は単行本の投票券の方が多かったと考えられます。19巻は無限城での戦いが描かれている巻で童磨や黒死牟との戦いが中心になります。つまり禰豆子がほとんど活躍していない時期を描いた巻でした。
 一方、結果発表は連載が終了したあとだったので、禰豆子の存在感の薄さが意外に思えるわけです。

 選挙における出口調査をもとに「若い人は自民支持」的な結論を導き出すのも問題があります。出口調査を受けた人は選挙に投票に行った人であり、若者全体ではありません。若者の投票率の低さを考えれば、若い人ほど有権者全体の中で自民党に投票した人が少ないとも言えるのです。

 本章では、「神戸の病院に外来に訪れた患者に血液検査をしたところ約3%に新型コロナウイルスに感染したことを示す抗体があった。神戸市全体の性別や年齢の分布に合わせて計算すると、約2.7%にあたる約4万1000人に感染歴があったことになる」という研究とそれにもとづいた記事がとり上げられています。

 「病院に来る人ということで高齢者が多いのでは?」と思うかもしれませんが、このあたりについてはきちんと補正していあります。
 しかし、「病院に来る人」には体に不調の人が多いはずというデータは補正できていないとして(さすがに発熱外来の患者は除外してあるものの)、「補正できるデータ」と「補正できないデータ」について考察しています。
 ここの分析はかなり込み入っているので詳しくは本書をあたってください。

 第5章では「「分析したつもり」の落とし穴」と題し、データを分析したつもりでも空振りに終わってしまっているケースを指摘しています。
 最初にとり上げられているケースは「17年度の秋田県への移住者は177世帯314人で、過去最高だった16年度の137世帯293人を上回った」という記事です。
 数字だけをさらっと見ると「そうなのか」で終わるかもしれませんが、秋田県の人口が100万弱であることを知っていれば、あるいは都道府県のサイズ感を知っている人ならば、「少なすぎるのでは?」と思うでしょう。

 実はこの数字は、NPO秋田移住定住総合支援センターに登録して県外から移り住んだ人数なのです。ですから、ここには秋田の大学に進学した人や転勤で来た人などは入っていません。
 「移住者」と書くと単純にその地に引っ越してきた人全てを指すと考えてしまいますが、この数字は「登録移住者」という特殊な数字です。
 この登録移住者が移住者全体を反映するものであればこの数字にも意味がありますが、おそらくはそうではないでしょう。「地方創生」の一環として行われている政策ですので、年々知名度は上がっているはずであり、登録する人は年とともに増えている可能性があると考えられるからです。

 鳥取県も「移住者」は増えていますが、これも移住相談会などのイベント、各自治体や在京・在阪の窓口を通じて接触した「相談者」に限定した数字で、鳥取県の人口減少は止まっていません。
 結局、これらの数字は「地方創生」という旗印のもとに進められた政策のアリバイのためにつくられたようなものなのです。

 この章ではもう1つ、中選挙区制下の選挙において自民党で時点で落選した議員は次の選挙で強いうという「次点バネ」がとり上げられています。ここは著者の得意とする分野なので、ぜひ本書を読んでほしいのですが、ここでもデータの歪みに気づくことの重要性が指摘されています。

 1960〜90年の衆議院選挙において次点で落選した候補の次の選挙での当選確率は77.7%と最下位当選者の79.6%に迫っています(184p表2参照)。
 ただし、ここで抜け落ちているのが次点で負けて次に立候補しなかった、あるいは、自民党の公認を得られなかった候補者の存在です。次の選挙に自民党の公認でチャレンジした次点落選の候補者は、ある程度有望な候補者であり、その分、当選確率が押し上げられていると考えられるのです。

 さらに次点落選候補が当選するケースは80年、86年という自民党が大勝した選挙でよく観察されます。そして、これらの選挙の前の選挙(79年と83年)は自民党の候補者が数多く落選した選挙です。
 つまり、大敗→多くの落選者(次点落選も多い)から大勝→多くの当選者(前回次点で落選した候補者も当選)という選挙全体の流れにも影響を受けています。
 前回落選した政治家が数多く復活当選を果たすと、そこに何か理由やストーリーを読み込みたくなりますが、「平均への回帰」で説明できたりするのです。

 第6章は交絡因子について。ある2つのデータの相関関係に別の要因が絡んでいるケースです。
 例えば、男性の所得と頭髪の薄さが相関しているとして(髪が薄いほど所得が高い)、ここに年齢という要素が絡んでいることを想像することは容易だと思います。一般的に年齢に伴って所得が上がることが多いからです。この場合の年齢を交絡因子と言います。

 ここでは仕事の有無と再犯率についての記事がとり上げられています。保護観察を終えた人を調査したところ、「再犯率は仕事に就いている人が約7%、無職は約30%に上った」(223p)というのです。
 さらっと読めば納得してしまうような因果関係(「仕事の有無」→「再犯率」)ですが、ここにも交絡因子が隠れている可能性はあります。

 まず、出所者が就職できるかできないかは出所者の年齢に左右されそうです。若者は就職がしやすく、高齢者は就職が決まりにくいでしょう。そして、高齢者ほど今までの生き方を変えにくいかもしれません。 
 他にも、もともとも規範意識や素行、犯罪欲といったものが影響している可能性もあります。「素行が悪い→面接で断られ、再犯」、「そもそも出所後も犯罪をしたいと思っている→就職活動をしない」という関係も考えられるからです。

 こうした交絡因子を見つけるコツとして、「2つの因果構造を考える」(このケースだと就職率が何に影響するかを考える)、「逆方向の因果関係で捉えてみる」(このケースだと再犯しそうかどうかが就職率に影響を与えるという関係)、「逆算して考える」(このケースだと想定される因果関係(「仕事の有無」→「再犯率」)をないものとして考える)の3つをあげています。

 第7章は「散布図に潜む罠」と題して、散布図を見ながら偽の相関関係を見破る術を教えてくれています。
 まず、偽の相関関係が出現しやすいパターンが時系列のデータです。例えば、日本の高齢化率と東京の年平均気温を時系列で並べるときれいに相関しますが(241p図1参照)、これは高齢化率も年平均気温も年々上昇傾向にあるというだけです。

 2つ目のパターンが地域別集計データです。ここでは2013年の参院選の共産党の候補者において、リツート数が多かった候補の得票数が多かったという記事がとり上げられています。「ネットをうまく使った候補者が当選した」という筋書きです。
 246p図2の散布図を見ると確かにリツイート数と得票数には相関関係があるのですが、参院選の選挙区は都道府県単位であり、有権者数も定数は都道府県によって違います。
 各都道府県に大体同じくらいの割合で共産党支持者がいると仮定すれば、共産党の得票数は都市部で多く、地方で少なくなるでしょう。また、フォロワー数も支持者が候補者をフォローすると考えれば、都市部の候補者で多く、地方では少なくなるでしょう。
 そして、共産党が議席獲得のチャンスがあるとして力を入れるのも都市部の選挙区です。

 こうした要因から、都市部では得票数も多いし、フォロワー数も多いでのリツイート数も多くなると推定されます。
 日本の都道府県は人口のばらつきが非常に大きいために、都道府県別データなどは間違った相関を生み出しやすいのです。
 ちなみに本章の後半では、共産党の比例候補の立て方などを考慮に入れてより踏み込んだ分析も行っています。

 第8章は「偽の相関、逆の因果と叫べば勝ちではない」と題されています。
 「新聞を読むと国語の成績がよくなる」と聞けば、ちょっと頭の回る人であれば「それは家が金持ちだと新聞も購読するし、成績もいいということだろう」、「新聞を読むから成績がよくなるのではなく、成績がいいから新聞が読めるので因果関係が逆ではないのか」と考える人もいると思います。実際、著者が架空の「論破」記事を書いています。

 もちろん、親の所得と子どもの成績は相関しているのですが、親の所得は子どもの通塾などさまざまな経路で成績に関わっていると考えられます。親の所得→読書経験→新聞購読→成績上昇という経路も考えられはします。
 また、「成績がよい→新聞購読」という関係があるとしても「新聞購読→成績がよい」という因果関係がないとは言えないのです。

 このように本書はデータ分析におけるさまざまな陥穽を指摘しています。扱っている分析事例にはやや難しく感じるものもあるかもしれませんが、かなり丁寧にステップを踏んで問題点を指摘してくれているので、統計などに親しんでいない人にも問題点がわかるようになっています。
 エビデンスの必要性が叫ばれていますが、同時にその「エビデンス」が本当にエビデンスなのかを見抜く眼も必要になります。本書はそういった眼を鍛えてくれる本です。