日本人が知らない「ビッグデータ信奉」の限界 データだけでは「因果関係」まで導けない

著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

従来の調査手法の補助としてビッグデータを利用するのではなく、ビッグデータのみを使うようになると、どうなるだろうか。突出した例が「グーグル・インフルトレンド」だ。

2008年、グーグルの研究者グループは、検索に使われた語句をもとに病気の流行を予測できるのではないかと考えた。グーグルでのインフルエンザ関連の検索結果を取り出し、追跡調査をすることにより、インフルエンザの流行をアメリカ疾病予防管理センター(CDC)のデータより早く予測できるという仮説を立てたのである。

研究者グループはこの手法を「ナウキャスト(現在予報)」と銘打ち、理論を行動に移して、その成果を『ネイチャー』誌に発表した。誰の目にも大成功に映った。グーグルの検索データを見れば、CDCから上がってくる情報より2週間も早くインフルエンザの流行を予測できたからだ。

ビッグデータ活用の限界点

ところが、このグーグル・インフルトレンドの予測が狂いだす。2009年の新型インフルエンザ(H1N1)の世界的大流行を見逃したばかりか、2012年から2013年にかけて流行したインフルエンザは、逆に流行していないときまで警報を連発しすぎの過剰予測、つまりハズレに終わってしまった。研究者の推定によれば、2013年までの2年間にグーグル・インフルトレンドが発した予測は、全108週のうち100週が過剰予測だったという。

なぜ失敗したのか。いろいろな原因が考えられるが、インフルエンザの「シーズン」とは関係があってもインフルエンザの実際の流行とは無関係の検索に対して、グーグルのアルゴリズムが大きく反応しまった点は見逃せない。このため、「高校バスケットボール」とか「チキンスープ」(風邪のときに好んで食べられる伝統的なスープ)といった語句の検索が、インフルエンザ警報の引き金になっていた。

『センスメイキング』(書影をクリックすると、アマゾンのサイトにジャンプします)

こうした語句は、インフルエンザの症例との因果関係が皆無で、単なる偶然の一致を相関関係ありとしていた。というのも、ビッグデータは「理由」を重視しないからだ。むしろ理由はわからないけれども「風が吹けば桶屋が儲かる」から相関があるという、経験だけで解決しようという発想なのである。

ビッグデータは人間の偏見を取り除き、演繹思考を取り入れ、帰納的な考え方を切り捨てようとする。十分なデータがあれば、その数自体が何よりの証拠になり、理論など不要というわけだ。

だが、グーグル・インフルトレンドの例からもわかるように、相関関係に何かを語らせ、因果関係を見出すには、突っ込んだ分析が欠かせない。ビッグデータがあるからといって、従来の研究手法への依存をきっぱりやめるわけにはいかないのだ。そもそもビッグデータが何を意味するのかを知ろうと思えば、解釈という行為が必ず必要になる。シリコンバレーの思い込みとは裏腹に、ビッグデータが中立になることなどないのである。

クリスチャン・マスビアウ ReDアソシエーツ創業者、同社ニューヨーク支社 ディレクター

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

Christian Madsbjerg

ReDは人間科学を基盤とした戦略コンサルティング会社として、文化人類学、社会学、歴史学、哲学の専門家を揃えている。マスビアウはコペンハーゲンとロンドンで哲学、政治学を専攻。ロンドン大学で修士号取得。現在、ニューヨークシティ在住。

この著者の記事一覧はこちら
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
キャリア・教育の人気記事