「データ分析」が客観的・公平でないその根拠 数字の見方次第でまったく違う結果になる
この時、それぞれの層の一昨年の平均所得は、上のようになる。さて、今年はかなりの不景気で、4人全員の所得が減ったとしよう。高所得者層の2人の年間所得は1800万円と900万円に、低所得者層は650万円と250万円に減ったとする。
この時、今年の高所得者・低所得者、各層の平均所得は次のようになる。
これを、先に見た一昨年の平均所得と比べてみると、なんと、4人の国民全員の年間所得は減ったのにもかかわらず、高所得者層の平均所得も、低所得者層の平均所得も、ともに増加しているではないか! なんとも直感に反する結果だが、計算に間違いはない。
この例のような「ある対象を『部分』で見た時と、それらを統合した『全体』を見た時では傾向が異なる」という現象は、1951年、イギリスの統計学者、E.H.シンプソン氏が「分割表における相互作用の解釈」という論文の中で指摘した。このため、一般には「シンプソンのパラドックス」として知られている。
打率で数字を読み解く
シンプソンのパラドックスは、データの「部分」をみるか「全体」をみるかで、まったく異なった結論が導かれる可能性がある、ということを私たちに忠告している。とりわけ、平均値のような、一見わかりやすい比較の場合は、部分と全体が相反する傾向をもつことに疑いを持ちにくい。
オレゴン大学の数学教授であり、メジャー・リーグの大ファンでもあるケン・ロス氏が、”Mathematician at the ballpark”という本の中で紹介した例をみてみよう。ロス氏は、2名の大リーガーデレク・ジーター氏とデビッド・ジャスティス氏の打率を、1995年と1996年の2年間にわたって比較した。
このデータをみると、1995年と1996年、どちらの年も、ジャスティス氏の打率は、ジーター氏の打率を上回っていることがわかる。すなわち、年ごとに評価するなら、ジャスティス氏のほうが好打者だ、と言う印象を受ける(もしあなたが正義感あふれる人間なら、ジャスティス氏は、ジーター氏ほど人気はないけれど、もっと評価されるべき選手だ、と憤慨するだろう)。
ところが、両年を通算した打率を見てみると、ジーター氏がジャスティス氏を大きく上回っているのだ(残念ながら、あなたの正義の怒りは徒労に終わることになる)。これもまた、「部分と全体では傾向が異なる」シンプソン氏のパラドックスである。
「部分」を見ずに、「全体」の印象だけで判断することの危うさを教えてくれる、こんな例もある。次の表は、米フロリダ州で、ある1年間におきた殺人事件の裁判について、有罪判決が出た割合を調べたものだ。