日本人が知らない｢ビッグデータ信奉｣の限界 データだけでは｢因果関係｣まで導けない

1/5 PAGES

2/5 PAGES

3/5 PAGES

4/5 PAGES

5/5 PAGES

従来の調査手法の補助としてビッグデータを利用するのではなく、ビッグデータのみを使うようになると、どうなるだろうか。突出した例が「グーグル・インフルトレンド」だ。

2008年、グーグルの研究者グループは、検索に使われた語句をもとに病気の流行を予測できるのではないかと考えた。グーグルでのインフルエンザ関連の検索結果を取り出し、追跡調査をすることにより、インフルエンザの流行をアメリカ疾病予防管理センター（CDC）のデータより早く予測できるという仮説を立てたのである。

研究者グループはこの手法を「ナウキャスト（現在予報）」と銘打ち、理論を行動に移して、その成果を『ネイチャー』誌に発表した。誰の目にも大成功に映った。グーグルの検索データを見れば、CDCから上がってくる情報より2週間も早くインフルエンザの流行を予測できたからだ。

ビッグデータ活用の限界点

ところが、このグーグル・インフルトレンドの予測が狂いだす。2009年の新型インフルエンザ（H1N1）の世界的大流行を見逃したばかりか、2012年から2013年にかけて流行したインフルエンザは、逆に流行していないときまで警報を連発しすぎの過剰予測、つまりハズレに終わってしまった。研究者の推定によれば、2013年までの2年間にグーグル・インフルトレンドが発した予測は、全108週のうち100週が過剰予測だったという。

なぜ失敗したのか。いろいろな原因が考えられるが、インフルエンザの「シーズン」とは関係があってもインフルエンザの実際の流行とは無関係の検索に対して、グーグルのアルゴリズムが大きく反応しまった点は見逃せない。このため、「高校バスケットボール」とか「チキンスープ」（風邪のときに好んで食べられる伝統的なスープ）といった語句の検索が、インフルエンザ警報の引き金になっていた。

『センスメイキング』（書影をクリックすると、アマゾンのサイトにジャンプします）

こうした語句は、インフルエンザの症例との因果関係が皆無で、単なる偶然の一致を相関関係ありとしていた。というのも、ビッグデータは「理由」を重視しないからだ。むしろ理由はわからないけれども「風が吹けば桶屋が儲かる」から相関があるという、経験だけで解決しようという発想なのである。

ビッグデータは人間の偏見を取り除き、演繹思考を取り入れ、帰納的な考え方を切り捨てようとする。十分なデータがあれば、その数自体が何よりの証拠になり、理論など不要というわけだ。

だが、グーグル・インフルトレンドの例からもわかるように、相関関係に何かを語らせ、因果関係を見出すには、突っ込んだ分析が欠かせない。ビッグデータがあるからといって、従来の研究手法への依存をきっぱりやめるわけにはいかないのだ。そもそもビッグデータが何を意味するのかを知ろうと思えば、解釈という行為が必ず必要になる。シリコンバレーの思い込みとは裏腹に、ビッグデータが中立になることなどないのである。