データサイエンティストが陥る機械学習の罠 過去データの過剰学習は将来予測には不適

ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

機械学習では、学習データと呼ばれるものをもとに、機械(コンピューター)が自動的に学習を行います。学習の回数を多くしたり、説明する要素を増やすことで、予測などの精度を高めることができます。しかし、学習データにだけ適応した学習だけが過剰に進んでしまうことがあります。

その結果、将来のデータ(説明変数)に対して、結果(目的変数)を推定する性能が下がってしまうことがあります。過去のデータのみを使って過剰に学習してしまうと、将来予測として使い物にならないのです。この状態を過学習と言います。

過学習を避けるためにはいくつかの方法があります。説明する側の式の複雑さが増すことに罰則をつけて学習させる「正則化」が代表的です。また、「ホールドアウト検証」という方法は、元データを学習用のデータと、検証用のテストデータに分けて学習結果を評価する方法です。学習用データで誤差を少なくすれば良いのではなく、テストデータにおける誤差も少なくするような学習結果を採用する考え方です。

このようにデータサイエンティストの業務内容は、ビジネスに直結するようになってきていますが、その一方で、課題も多くあります。たとえばこの過学習のように、専門的な知識がないと、誤った結論を出してしまうこともあります。そのために、データサイエンティストとしての能力を「資格」という形で証明することも求められてきているのです。

データサイエンティストの業務と資格

データサイエンティストが取得している、あるいは、これから取得しようとしている資格には以下のようなものがあります。

データサイエンティスト協会は、データサイエンティストとして働いている人を対象に、持っている資格と、これから取得したい資格についてのアンケート調査結果を発表しました。

ビジュアル データサイエンティスト 基本スキル84 (日経文庫)
『データサイエンティスト 基本スキル84 (日経文庫)』(日経BP 日本経済新聞出版)。書影をクリックするとAmazonのサイトにジャンプします

持っている資格の1位は、AI・ディープラーニングに関する知識やリテラシーが問われる「G検定」でした。G検定の「G」は「ジェネラリストGeneralist」を意味しています。2位はIT技術者の国家資格である「基本情報技術者」です。この資格試験にはIT技術者としての基本的な知識に加えて、アルゴリズムや情報セキュリティを問う設問もあります。

一方、これから取得したい資格については、「統計検定(2級以上)」が1位となりました。統計検定2級では、データをもとにした仮説の構築と検証といった統計学の知識が求められるため、データサイエンティストの登竜門とも言える資格となっています。

2位には、2021年にデータサイエンティスト協会が創設した、「データサイエンティスト検定(リテラシーレベル)」が続きます。これはデータサイエンティストに必要な3つの能力(データサイエンス力、データエンジニアリング力、ビジネス力)がバランス良く問われるもので、今までになかった切り口の資格と言えるでしょう。

塩崎 潤一 野村総合研究所 未来創発センター生活DX・データ研究室長

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

Junichi Shiozaki

1967年生まれ。筑波大学社会工学類卒業。1990年、野村総合研究所入社。専門分野はマーケティング戦略、数理解析・数理モデル、生活者の価値観など。同社にてデータサイエンスを活用した新規事業の立ち上げに責任者として関与。主な著書に『変わりゆく日本人』、『第三の消費スタイル』など。2019年より(社)データサイエンティスト協会の理事も兼ねる。「NRIデータサイエンスラボ公式YouTubeチャンネル」で情報を発信中。

この著者の記事一覧はこちら
広瀬 安彦 野村総合研究所 エキスパート研究員

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

1972年、三重県四日市市生まれ。慶応義塾大学文学部卒、青山学院大学社会情報学研究科にて博士前期課程、北海道大学大学院国際広報メディア・観光学院にて博士後期課程を修了。大手印刷会社を経て2001年に野村総合研究所に入社。専門はインターネットによる広報戦略、データサイエンティストの育成、M-GTA(Modified GroundedTheory Approach)を用いた質的研究。明星大学経営学部非常勤講師、日本生産性本部 経営アカデミー講師。「NRIデータサイエンスラボ公式YouTubeチャンネル」で情報を発信中。

この著者の記事一覧はこちら
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
キャリア・教育の人気記事