「データ分析」が客観的・公平でないその根拠

数字の見方次第でまったく違う結果になる

■一昨年の平均所得
高所得者層:(2000万円+1200万円)÷2 = 1,600万円
低所得者層:(700万円+300万円)÷2 = 500万円

この時、それぞれの層の一昨年の平均所得は、上のようになる。さて、今年はかなりの不景気で、4人全員の所得が減ったとしよう。高所得者層の2人の年間所得は1800万円と900万円に、低所得者層は650万円と250万円に減ったとする。

この時、今年の高所得者・低所得者、各層の平均所得は次のようになる。

■今年の平均所得
高所得者層の平均所得:1800万円
低所得者層の平均所得:(900+650+250)÷3 = 600万円

これを、先に見た一昨年の平均所得と比べてみると、なんと、4人の国民全員の年間所得は減ったのにもかかわらず、高所得者層の平均所得も、低所得者層の平均所得も、ともに増加しているではないか! なんとも直感に反する結果だが、計算に間違いはない。

この例のような「ある対象を『部分』で見た時と、それらを統合した『全体』を見た時では傾向が異なる」という現象は、1951年、イギリスの統計学者、E.H.シンプソン氏が「分割表における相互作用の解釈」という論文の中で指摘した。このため、一般には「シンプソンのパラドックス」として知られている。

打率で数字を読み解く

シンプソンのパラドックスは、データの「部分」をみるか「全体」をみるかで、まったく異なった結論が導かれる可能性がある、ということを私たちに忠告している。とりわけ、平均値のような、一見わかりやすい比較の場合は、部分と全体が相反する傾向をもつことに疑いを持ちにくい。

オレゴン大学の数学教授であり、メジャー・リーグの大ファンでもあるケン・ロス氏が、”Mathematician at the ballpark”という本の中で紹介した例をみてみよう。ロス氏は、2名の大リーガーデレク・ジーター氏とデビッド・ジャスティス氏の打率を、1995年と1996年の2年間にわたって比較した。

D.ジーター氏とD.ジャスティス氏の打率の比較(表:Ken Ross ”Mathematician at the ballpark”)

このデータをみると、1995年と1996年、どちらの年も、ジャスティス氏の打率は、ジーター氏の打率を上回っていることがわかる。すなわち、年ごとに評価するなら、ジャスティス氏のほうが好打者だ、と言う印象を受ける(もしあなたが正義感あふれる人間なら、ジャスティス氏は、ジーター氏ほど人気はないけれど、もっと評価されるべき選手だ、と憤慨するだろう)。

ところが、両年を通算した打率を見てみると、ジーター氏がジャスティス氏を大きく上回っているのだ(残念ながら、あなたの正義の怒りは徒労に終わることになる)。これもまた、「部分と全体では傾向が異なる」シンプソン氏のパラドックスである。

「部分」を見ずに、「全体」の印象だけで判断することの危うさを教えてくれる、こんな例もある。次の表は、米フロリダ州で、ある1年間におきた殺人事件の裁判について、有罪判決が出た割合を調べたものだ。

次ページ裁判の結果を分析してみる
ライフの人気記事
トピックボードAD
関連記事
  • コロナ後を生き抜く
  • Amazon週間ビジネス・経済書ランキング
  • 日本野球の今そこにある危機
  • 日本と中国「英語教育格差」
トレンドライブラリーAD
アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
  • シェア
トレンドウォッチAD
自動車「コロナ不況」が促す<br>部品業界サバイバルの行方

コロナ危機の自動車部品メーカーへの影響は、過剰な設備と人員を抱えていた日産系でとくに深刻。比較的堅調だったトヨタ、ホンダ系も無傷ではありません。世界レベルでの技術開発競争は激化の一途で、生き残りへの再編と淘汰が始まろうとしています。