令和の「データサイエンティスト」に必要な能力 因果を推論するのに有効な分類法「決定木」
データサイエンティストに必要な能力
データサイエンティストという仕事が注目を集めています。インターネットの普及などITが進化したことで、企業が取り扱えるデータが格段に増えました。ビジネスにおいて、ヒト、モノ、金に次ぐ4つ目の経営資源として、データの活用が重要な要素となってきたのです。データを整理・分析し、ビジネスに活用する役割を担うのがデータサイエンティストです。
一般社団法人データサイエンティスト協会では、データサイエンティストに求められるスキルとして、3つの能力を定義しています。ビジネス力、データサイエンス力、データエンジニアリング力の3つです。
データを分析するだけであれば、データサイエンス力さえあればよいかもしれません。しかし、実際のデータサイエンティストには、データを処理すること(データエンジニアリング力)、分析すること(データサイエンス力)、その結果をビジネスに活用すること(ビジネス力)のすべてが求められます。
データサイエンティストの基本スキルとして、統計学や機械学習における基礎的な知識・スキルを整理してマッピングしたものが以下の図です。横軸は、基礎知識としての「新しさ」の度合いを表しており、右側に位置するものが、近年話題になっている知識です。縦軸は、下側がより基礎的なもので、上側にいくほど、実践的なものです。また、ある項目をもとに発展した項目など、関係が近い項目については、それぞれを矢印で結んでいます。
特にデータサイエンスなどを学んでいなくても、新聞やインターネットなどで目にするものが多いのではないでしょうか。これらの中から今回は、「因果推論」と「決定木(けっていぎ)」についてご紹介します。