令和の「データサイエンティスト」に必要な能力 因果を推論するのに有効な分類法「決定木」

ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

データサイエンティストの基本スキルとして挙げられるものの1つが「因果推論」です。因果推論とは、入力データ(インプット)と出力データ(アウトプット)から、その因果関係(原因とそれによって生じる結果との関係)を統計的に推定していく考え方です。

統計学では複数のデータの「相関関係」を分析する手法が中心でした。しかし、近年では、「相関」ではなく「因果」を推計する「因果推論」が注目されるようになりました。因果推論を用いた政策効果の測定がノーベル経済学賞を受賞したこともあり、注目されている手法です。

ビジュアル データサイエンティスト 基本スキル84 (日経文庫)
『データサイエンティスト 基本スキル84 (日経文庫)』(日経BP 日本経済新聞出版)。書影をクリックするとAmazonのサイトにジャンプします

因果関係を分析する事例として、広告効果の推計があげられます。広告に接触することで商品(例えばエアコンやアイスなど)の購入率が上がったのか、単純に気温が高くなったから買っただけなのかを明確にする必要があります。実際に広告に接触した人が「もし、接触しなかったら」どうなっていたのかを把握することで、因果関係を推定します。接触した場合の効果と、接触しなかった場合の効果を比較すれば、その差が因果関係の割合と考えられるのです。

広告に接触した人(処置群)と、接触しなかった人(対照群)について、その広告の商品を購入した割合を比較して、広告の効果を推計します。実際には広告に接触しなかった人(対照群)のデータから、広告に接触した人(処置群)が、広告に「接触しない場合」の効果を推計します。

しかし、一般的に、広告に接触する割合は女性が高いと言われており、広告の効果なのか、性別の影響なのかを特定できません。そのため、広告の接触・非接触以外の条件を同一にして、処置群と対照群を比較する必要があります。

分類の定番「決定木」

説明変数(入力データ)と目的変数(出力データ)が揃っていて、データの関係から目的変数を予測する手法を「教師あり学習」と言います。教師あり学習の方法としては、大きく2種類あり、実績から未知の数値を予測する「回帰」と、目的変数に応じて説明変数を適切なグループに分ける「分類」です。そして分類の手法として最も有名な方法が「決定木」なのです。

決定木とは、目的変数(例:アイスの売上)に影響する説明変数(例:曜日、気温、天気)を明らかにして、説明変数の構造を樹木状のモデルとして作成する分析手法のことです。

例えば、休日で、気温が30℃以上で、雨が降らない場合に、アイスがよく売れる、などを構造化します。樹木状で視覚的に把握できるので解釈が簡単という特徴があります。決定木の分岐点となる説明変数の内容や水準は、目的変数を最も高い精度で分類できるように(アイスの売上の差が大きくなるように)設定されます。

【2023年4月11日11時00分追記】初出時のイラストを一部削除しました。

決定木分析を一度実施するだけでは誤差が大きいため、決定木分析を複数回実施することで、分類の精度を高めることを「アンサンブル学習」と呼びます。代表的な方法が、学習データを複数に分割するバギングという方法です。

分割されたデータごとに決定木分析を行い、それぞれの結果を平均することで目的変数を推計します。この方法は「ランダムフォレスト」と呼ばれています。主にコンピュータを使って行われるこれらの方法は、データサイエンティスト達によって活用されているのです。

塩崎 潤一 野村総合研究所 未来創発センター生活DX・データ研究室長

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

Junichi Shiozaki

1967年生まれ。筑波大学社会工学類卒業。1990年、野村総合研究所入社。専門分野はマーケティング戦略、数理解析・数理モデル、生活者の価値観など。同社にてデータサイエンスを活用した新規事業の立ち上げに責任者として関与。主な著書に『変わりゆく日本人』、『第三の消費スタイル』など。2019年より(社)データサイエンティスト協会の理事も兼ねる。「NRIデータサイエンスラボ公式YouTubeチャンネル」で情報を発信中。

この著者の記事一覧はこちら
広瀬 安彦 野村総合研究所 エキスパート研究員

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

1972年、三重県四日市市生まれ。慶応義塾大学文学部卒、青山学院大学社会情報学研究科にて博士前期課程、北海道大学大学院国際広報メディア・観光学院にて博士後期課程を修了。大手印刷会社を経て2001年に野村総合研究所に入社。専門はインターネットによる広報戦略、データサイエンティストの育成、M-GTA(Modified GroundedTheory Approach)を用いた質的研究。明星大学経営学部非常勤講師、日本生産性本部 経営アカデミー講師。「NRIデータサイエンスラボ公式YouTubeチャンネル」で情報を発信中。

この著者の記事一覧はこちら
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
キャリア・教育の人気記事