「データ分析」が客観的・公平でないその根拠

数字の見方次第でまったく違う結果になる

殺人事件の裁判における、被告人の人種と有罪判決の割合(表:HILLS LIFE DAILY)

上の表を見ると、被告人が白人の裁判では、有罪判決の割合は11.0%なのに対し、被告がアフリカ系の場合は7.9%となっている。このデータを見るかぎり、フロリダ州では、少なくとも裁判において、アフリカ系への差別は認められず、むしろ、アフリカ系が優遇されている、という印象を受ける。はたしてそれは「正しい印象」だろうか。

実は、この例は「隠れたプレーヤー」を見つけなければ、判断を誤ってしまう、という実例だ。この表に、あらたな属性の「被害者の人種」を加えた次の表を見ると、まったく逆の事実が見えてくる。

殺人事件の裁判における、被告人、被害者の人種と有罪判決の割合(表:HILLS LIFE DAILY)

これを見ると、被告人がアフリカ系で「被害者」が白人の時、有罪判決の割合は22.9%と突出して高いことがわかる。一方、被告人が白人で「被害者」がアフリカ系の場合、有罪判決はゼロだ。

分析者の主観や視点が入る

つまり、2番目の表から見えてくるのは、「白人がアフリカ系を殺しても有罪にはならないが、逆に、アフリカ系が白人を殺すと有罪になる確率が極めて高い」という事実だ。最初の表から受けた印象とは、まったく逆の事実が見えてくる。

2つの表は同じ対象を、同じデータを使って整理したものだ。ただ、最初の表では、「被害者の人種」という属性を無視している。それによって得られた分析結果は、真逆になってしまうのだ。さらに言えば、2番目の表が「最終的な真実」かどうかも保証はない。このデータに、さらに他の属性、たとえば、被告人・被害者の収入や学歴、職業、性別などを加えれば、また違った結論が導かれるかもしれない。

データや数字に基づく分析は、客観的で公平なものだと信じられている。しかし、どのデータ、どの属性に注目するかには、必ず分析者の主観や「視点」が入っている。集めたデータは正しく、分析者に悪意や偏見はなく、分析の手順に間違いがないとしても、その結果は、必ずしも「真実」とは限らないのだ。

もしかしたら、完璧な真実というのものは存在しないかもしれない。しかし、「真実」に少しでも近づくためには、与えられたデータを鵜呑みにするのではなく、少し足を止めて、今、部分と全体のどちらを見ているのかを考え、背後に隠れている別な「視点」がないかを疑ってみることしかないだろう。「シンプソンのパラドックス」は、データ時代を生きる私たちに、その「心構え」を教えてくれている。

参考書籍
・Ken Ross “A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans”(Pi Press/2004)
・”Simpson’s Paradox” (Wikipedia)
“More examples of Simpson’s Paradox, barring the ones on Wikipedia, Titanic, and delayed flights.” (StackExchange)
・神永正博『直感を裏切る数学』(講談社ブルーバックス/2014)

(TEXT BY ATSUHIKO YASUDA@XOOMS、
PHOTO:Getty Images)

HILLS LIFE DAILYの関連記事
100年後に「絶品!」と謳われる料理を、人工知能が考えた?
ゴルフ初心者が家でもできる基礎レッスン——「テーラーメイド-アディダスゴルフ」コーチ直伝のハウツー
造り手のクリエイティビティが光る! 日本の自然派ワインを堪能できる3店
ライフの人気記事
トピックボードAD
関連記事
  • コロナ後を生き抜く
  • コロナショック、企業の針路
  • 新競馬好きエコノミストの市場深読み劇場
  • 「非会社員」の知られざる稼ぎ方
トレンドライブラリーAD
アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
  • シェア
トレンドウォッチAD
コロナ徹底検証<br>日本は第2波に耐えられるか

米国やブラジルでは新型コロナウイルスの感染拡大が続いていますが、日本は感染者も死者も圧倒的に少ない。その理由はいったいどこにあるのでしょうか。政策面、医療面から「第1波」との戦いを検証。「第2波」への適切な備え方を考えます。