ノーベル賞で注目「因果推論」登場で起きた大変化 「迷惑メールの振り分け」や「自動翻訳」にも応用
迷惑メールの合計は100通の20%で20通、うち30%で無料表記があるので重なり部分は6通。全メールで無料表記がある割合は10%(10通)で、うち迷惑メールの6通を除いた4通が通常メールで無料表記があります。迷惑メールではなく、かつ、無料表記もないメールは76通です。
迷惑メールのうち無料表記がある割合は30%でしたが、同じデータでも見方を変えると、無料表記があるメールのうち迷惑メールである割合は60%となります。重なりの部分(6通)を、迷惑メール側から評価するか、無料表記あり側から評価するかの違いです。60%であれば、「無料という表記がある場合は、迷惑メールの可能性が高いと」判断しても良さそうです。
「ベイズの定理」とは、このベン図の重なりの部分の関係を数式で表したもので、当たり前のことを言っているだけで難しくはありません。見方を変えるという点が「ベイズの定理」のポイントで、データを解釈する際の誤解を排除することができます。
同じデータを用いても、違う視点でみることで、結果に及ぼす要因を正しく評価できるのがポイントです。
メールソフトなどで実際に行われている迷惑メール判定では、「無料」という言葉だけではなく、「プレゼント」や「キャンペーン」などの他の言葉を含んだ場合や、2つ以上の言葉が含まれる場合など、様々な条件で迷惑メールになる割合を計算し、迷惑メールを別のフォルダに振り分けるなどの判断をしています。
自動翻訳などにも応用
「ベイズの定理」により、正しく要因を評価することができるようになるため、ビジネスにおける活用が進んでいます。迷惑メールのフィルタリング以外にも、記事のカテゴリ分類、自動翻訳、医療分野における検査やワクチン接種の効果測定などの分野で応用されています。
単純な定理ですが、巨大企業の成功を支えたと言わしめるほど大きな影響があるのです。データサイエンスは、データの見方・捉え方を変えるだけでも十分な意味を持ちます。マイクロソフト社はベイズ統計を活用できる人(“ベイジアン”と呼ばれている)を積極的に採用して、他社との差別化を図ったようです。データを多面的、客観的に取り扱うことができるデータサイエンティストが求められているのです。