令和の｢データサイエンティスト｣に必要な能力 因果を推論するのに有効な分類法｢決定木｣

1/2 PAGES

2/2 PAGES

データサイエンティストの基本スキルとして挙げられるものの1つが「因果推論」です。因果推論とは、入力データ（インプット）と出力データ（アウトプット）から、その因果関係（原因とそれによって生じる結果との関係）を統計的に推定していく考え方です。

統計学では複数のデータの「相関関係」を分析する手法が中心でした。しかし、近年では、「相関」ではなく「因果」を推計する「因果推論」が注目されるようになりました。因果推論を用いた政策効果の測定がノーベル経済学賞を受賞したこともあり、注目されている手法です。

『データサイエンティスト基本スキル84 (日経文庫)』（日経BP 日本経済新聞出版）。書影をクリックするとAmazonのサイトにジャンプします

因果関係を分析する事例として、広告効果の推計があげられます。広告に接触することで商品（例えばエアコンやアイスなど）の購入率が上がったのか、単純に気温が高くなったから買っただけなのかを明確にする必要があります。実際に広告に接触した人が「もし、接触しなかったら」どうなっていたのかを把握することで、因果関係を推定します。接触した場合の効果と、接触しなかった場合の効果を比較すれば、その差が因果関係の割合と考えられるのです。

広告に接触した人（処置群）と、接触しなかった人（対照群）について、その広告の商品を購入した割合を比較して、広告の効果を推計します。実際には広告に接触しなかった人（対照群）のデータから、広告に接触した人（処置群）が、広告に「接触しない場合」の効果を推計します。

しかし、一般的に、広告に接触する割合は女性が高いと言われており、広告の効果なのか、性別の影響なのかを特定できません。そのため、広告の接触・非接触以外の条件を同一にして、処置群と対照群を比較する必要があります。

分類の定番「決定木」

説明変数（入力データ）と目的変数（出力データ）が揃っていて、データの関係から目的変数を予測する手法を「教師あり学習」と言います。教師あり学習の方法としては、大きく2種類あり、実績から未知の数値を予測する「回帰」と、目的変数に応じて説明変数を適切なグループに分ける「分類」です。そして分類の手法として最も有名な方法が「決定木」なのです。

決定木とは、目的変数（例：アイスの売上）に影響する説明変数（例：曜日、気温、天気）を明らかにして、説明変数の構造を樹木状のモデルとして作成する分析手法のことです。

例えば、休日で、気温が30℃以上で、雨が降らない場合に、アイスがよく売れる、などを構造化します。樹木状で視覚的に把握できるので解釈が簡単という特徴があります。決定木の分岐点となる説明変数の内容や水準は、目的変数を最も高い精度で分類できるように（アイスの売上の差が大きくなるように）設定されます。

【2023年4月11日11時00分追記】初出時のイラストを一部削除しました。

決定木分析を一度実施するだけでは誤差が大きいため、決定木分析を複数回実施することで、分類の精度を高めることを「アンサンブル学習」と呼びます。代表的な方法が、学習データを複数に分割するバギングという方法です。

分割されたデータごとに決定木分析を行い、それぞれの結果を平均することで目的変数を推計します。この方法は「ランダムフォレスト」と呼ばれています。主にコンピュータを使って行われるこれらの方法は、データサイエンティスト達によって活用されているのです。