靴大きい子は高学力?データ分析の怖い落とし穴 意思決定する人に知ってほしい「相関と因果」

✎ 1〜 ✎ 4 ✎ 5 ✎ 6 ✎ 最新
著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

ここからは因果関係の有無を確かめたいときに最低限確認すべき2つのポイントを説明する。

留意していただきたいことはここに挙げるポイントをすべて確認したとしても因果関係の有無を確定させることはできないということだ。しかし、これらのポイントに注意を払うことで変数間の関係を誤認する可能性を低くすることはできる。

1つ目は、原因となる変数が結果となる変数よりも先に起きているかどうかだ。これは当然のことではあるが、現時点で起きていることが過去の出来事に影響を与えることはできないということだ。

2つ目は、先ほどの学年のような両方の変数に影響を与える変数(交絡因子)が存在しているかどうかだ。

先ほど説明したように両方の変数に影響を与える別の変数が存在する場合、因果関係がなくても相関関係は観測されることがある。そのため、交絡因子の存在はつねに気にしなければならない。

因果関係を見抜くために大切なのは「ドメイン知識」

しかしながら、実際に交絡因子の存在を確かめるのは非常に難しいことである。なぜならば、得られたデータのみを検討すればよいわけではないからだ。実際にはデータとして得られていない変数の中に交絡因子があることも想定しなければならないため、頭の中で交絡因子の候補を検討することになる。

このような場合に重要となるのがドメイン知識と呼ばれる、その分野での背景知識である。どの変数を考慮しなければならないのかといった判断にはその分野での知見が必要だからである。ドメイン知識を活用して、変数が生み出される構造を考察することで、より正確に変数間の関係を見抜くことができるだろう。

最後に本稿の内容を簡単に整理しておく。まず相関関係があることが必ずしも因果関係があることを意味するわけではないということ。そしてデータの関係を見誤らないためには、データだけからではわからないその変数の背後にある構造を理解する必要があり、そしてそのためにドメイン知識をしっかりとつける必要があるということ。データを見る際にはこれらの点を心に留めておきたいものである。

川西 建 インテージ 先端技術部

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

かわにし たける / Takeru Kawanishi

2021年インテージ入社。現在データの社会的利活用とデータサイエンス業務、研究開発に従事。名古屋大学大学院経済学研究科社会経済システム専攻博士前期課程修了。修士(経済学)

この著者の記事一覧はこちら
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
キャリア・教育の人気記事