「データ分析」が客観的・公平でないその根拠 数字の見方次第でまったく違う結果になる

ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小
殺人事件の裁判における、被告人の人種と有罪判決の割合(表:HILLS LIFE DAILY)

上の表を見ると、被告人が白人の裁判では、有罪判決の割合は11.0%なのに対し、被告がアフリカ系の場合は7.9%となっている。このデータを見るかぎり、フロリダ州では、少なくとも裁判において、アフリカ系への差別は認められず、むしろ、アフリカ系が優遇されている、という印象を受ける。はたしてそれは「正しい印象」だろうか。

実は、この例は「隠れたプレーヤー」を見つけなければ、判断を誤ってしまう、という実例だ。この表に、あらたな属性の「被害者の人種」を加えた次の表を見ると、まったく逆の事実が見えてくる。

殺人事件の裁判における、被告人、被害者の人種と有罪判決の割合(表:HILLS LIFE DAILY)

これを見ると、被告人がアフリカ系で「被害者」が白人の時、有罪判決の割合は22.9%と突出して高いことがわかる。一方、被告人が白人で「被害者」がアフリカ系の場合、有罪判決はゼロだ。

分析者の主観や視点が入る

つまり、2番目の表から見えてくるのは、「白人がアフリカ系を殺しても有罪にはならないが、逆に、アフリカ系が白人を殺すと有罪になる確率が極めて高い」という事実だ。最初の表から受けた印象とは、まったく逆の事実が見えてくる。

2つの表は同じ対象を、同じデータを使って整理したものだ。ただ、最初の表では、「被害者の人種」という属性を無視している。それによって得られた分析結果は、真逆になってしまうのだ。さらに言えば、2番目の表が「最終的な真実」かどうかも保証はない。このデータに、さらに他の属性、たとえば、被告人・被害者の収入や学歴、職業、性別などを加えれば、また違った結論が導かれるかもしれない。

データや数字に基づく分析は、客観的で公平なものだと信じられている。しかし、どのデータ、どの属性に注目するかには、必ず分析者の主観や「視点」が入っている。集めたデータは正しく、分析者に悪意や偏見はなく、分析の手順に間違いがないとしても、その結果は、必ずしも「真実」とは限らないのだ。

もしかしたら、完璧な真実というのものは存在しないかもしれない。しかし、「真実」に少しでも近づくためには、与えられたデータを鵜呑みにするのではなく、少し足を止めて、今、部分と全体のどちらを見ているのかを考え、背後に隠れている別な「視点」がないかを疑ってみることしかないだろう。「シンプソンのパラドックス」は、データ時代を生きる私たちに、その「心構え」を教えてくれている。

参考書籍
・Ken Ross “A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans”(Pi Press/2004)
・”Simpson’s Paradox” (Wikipedia)
“More examples of Simpson’s Paradox, barring the ones on Wikipedia, Titanic, and delayed flights.” (StackExchange)
・神永正博『直感を裏切る数学』(講談社ブルーバックス/2014)

(TEXT BY ATSUHIKO YASUDA@XOOMS、
PHOTO:Getty Images)

HILLS LIFE DAILYの関連記事
100年後に「絶品!」と謳われる料理を、人工知能が考えた?
ゴルフ初心者が家でもできる基礎レッスン——「テーラーメイド-アディダスゴルフ」コーチ直伝のハウツー
造り手のクリエイティビティが光る! 日本の自然派ワインを堪能できる3店

「HILLS LIFE DAILY」編集部

六本木ヒルズ開業の翌年に創刊された、都心エリアのためのライフスタイルメディア。都市生活者に向け新たな情報やトレンドを伝え、アイデアやビジョンを広く提案しつつ、東京という街のクリエイティブな可能性を高めてゆくことを目的としている。

この著者の記事一覧はこちら
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
ライフの人気記事