10年ほど前にバズワードとなった「ビッグデータ」という言葉は、今や日常語になった。ビジネスでも研究でも、従来は扱うことのなかったような大規模なデータを分析する機会が増えている。入手可能な情報が増えればよいことばかりにも思えるが、実際はそう単純な話ではない。
データ分析においてしばしば問題となるのが、すべての情報が自分の目的にとって必ずしも有用ではないことである。
例えば、あるエコノミストがGDP(国内総生産)を予測したいとする。その際、過去のGDPの変動を知ることは将来の予測に有用だろうし、物価や株価のような経済変数の情報も予測に役立つと考えられる。
しかし、入手可能な経済変数の系列は、公的統計だけを用いるにしてもかなりの数に上り、それらすべてがGDPの予測にとって重要であるとは考えにくい。不要なものを含む多くの変数を用いた場合、少数の変数を用いた予測よりも、むしろ予測の精度が低くなってしまうことが知られている。
「変数選択」50年の歴史
よって、分析に当たって有用な変数を適切に選ぶ必要がある。候補となる変数の中から適切なもののみを選択するという変数選択の問題について、統計学の世界ではおよそ50年の研究の歴史がある。
1970年代初頭に統計数理研究所の赤池弘次博士によって提案された赤池情報量規準(AIC)は代表的な変数選択の手法の1つで、現在もデータを扱う科学の諸分野において広く用いられている。このような手法によって、分析者の勘や経験だけに頼らず、データそのものが持つ情報を基に有用な変数を選択することが可能となる。
ところが、AICも万能ではない。候補となる変数が多すぎると、計算の負荷の問題から、変数選択が実行できなくなってしまうのだ。近年のデータ環境の整備により、多くの変数が入手可能になると、従来の手法では扱うことができない新たな問題が生じたのである。
この記事は会員限定です。登録すると続きをお読み頂けます。
登録は簡単3ステップ
東洋経済のオリジナル記事1,000本以上が読み放題
おすすめ情報をメルマガでお届け