ノーベル賞で注目「因果推論」登場で起きた大変化 「迷惑メールの振り分け」や「自動翻訳」にも応用
データサイエンスを導入することで、ビジネスを成功に導いた企業の代表が、Google、Amazon、AppleなどのIT企業です。インターネット上のビッグデータを分析する仕組みを整えて、検索やリコメンドの最適化を図り、より多くの売上を獲得しました。また、これらの企業に先んじてマイクロソフト社もデータサイエンスで成功した企業の1つです。
ビル・ゲイツは「マイクロソフトが競争優位にたっているのは“ベイズ・テクノロジー”のおかげ」と言っています。ベイズ・テクノロジーとは、「ベイズ統計」の考え方をビジネスに応用することを指しています。ベイズ統計とは、トーマス・ベイズにより提唱された「ベイズの定理」を基本的な考え方とする統計学で、新しいデータを取り込みながら推定や予測の精度を高めていくという特徴があります。
迷惑メールの判断にも応用
ベイズ統計を応用した事例の代表例としては、迷惑メールの推定があります。
※メールの本文中に「無料」という表記があったら迷惑メールだと判断できるか?
迷惑メールに識別されたメールの中で「無料」という表記が出現する割合:30%
すべてのメールの中で「無料」という表記が出現する割合:10%
感覚的には、無料という言葉が全メールに占める割合と比べて、迷惑メールの場合は、出現割合が高いため影響はありそうだと感じます。しかし、無料という言葉があれば、すべて迷惑メールと判断するのは言い過ぎのように思われます。
過去の経験から、全メールの中で、迷惑メールが占める割合は20%ぐらいだと仮定すると、今回のデータから、以下のベン図が整理されます。わかりやすくするために、全体のメールの数を100通として表記しています。