データ分析始めると必ず悩む「外れ値」の壁克服法 集計したデータはそのまま使ってはいけない

✎ 1〜 ✎ 3 ✎ 4 ✎ 5 ✎ 最新
拡大
縮小

まず、外れ値を削除するべきか否かについて、 筆者はむやみに削除しないほうがよいという考えである。外れ値とは異常値に見えるが異常と言いきる証拠のない数値であり、正常なデータとして有益な情報を持つ可能性があるためである。そのため外れ値自体に関する考察を行った後に対処方法を考えたほうがよい。

イメージしやすいように小売店の売り上げデータの外れ値を想定してみよう。外れ値の定義から考えると、極端に売り上げの低かった日と極端に売り上げの高かった日の金額が外れ値となる。

しかし、これらの外れ値、すなわちめったにないほど売れなかった日・めったにないほどよく売れた日に絞ってその理由を分析することにより、売り上げを大きく左右する要因が見つかるかもしれない。外れ値が生じた原因を考察することにより新たな事実を発見ができることもある。つまり分析目的によっては外れ値を除外してはいけないということだ。

もちろん絶対に削除してはいけないというわけではなく、分析目的に合わせて対処方法を決定するべきである。例えば、機械学習の学習データに外れ値が含まれることでまったく予測が当たらなくなるケースでは、外れ値を削除するべきであろう。また前出のような散布図で大まかなデータ間の関係を知りたいのであれば、外れ値を削除し、相関がないと結論づけたほうがよいだろう。

外れ値と判断した理由を明確に説明できることが大切

大切なのは削除するにせよ削除しないにせよ、なぜそのデータセットを用いたのか明確に説明できることである。もし外れ値を削除するという判断に至ったのであれば、分析結果に外れ値の定義および削除した理由を記載しておくべきである。

また削除した場合としなかった場合、両方の結果を併記しておくのもよいアイデアである。これは特に検定を実施するような分析では必須と考えられる。削除操作によって検定結果が変わることもあるからだ。このような場合、その検定では正確な判断ができないと考えたほうがよい。

最後に外れ値を考慮したデータ分析手順を示す。

① 可視化、最小値・最大値などの要約によってデータ特性を理解する
② 分布をもとに外れ値・異常値のあたりをつける
③ ドメイン知識に基づいて異常値を除外するルールを設定する
④ 外れ値が含まれていそうな場合、外れ値検出を行う
⑤ 外れ値が生じる原因、分析への影響を考察する
⑥ 分析目的上悪影響があると判断した場合は外れ値を除外する
⑦ 分析を行う
⑧ 分析結果および使用したデータセットの定義と使用理由をまとめる

もしかしたら外れ値が含まれているかもしれないと思いながら分析を行うことにより、これまで気づけなかったおかしなデータに気がつけるようになるとともに、データに惑わされる可能性が減るだろう。

福田 洸平 インテージ 先端技術部 アナリスト

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

ふくだ こうへい / Kohei Fukuda

インテージ入社後データ分析を専門とし、消費財ブランドを中心に需要予測や広告効果分解などを担当。顧客分析に従事するほか自社データの品質管理やソリューション開発にも携わる。

この著者の記事一覧はこちら
関連記事
トピックボードAD
キャリア・教育の人気記事
トレンドライブラリーAD
連載一覧
連載一覧はこちら
人気の動画
【田内学×後藤達也】新興国化する日本、プロの「新NISA」観
【田内学×後藤達也】新興国化する日本、プロの「新NISA」観
【田内学×後藤達也】激論!日本を底上げする「金融教育」とは
【田内学×後藤達也】激論!日本を底上げする「金融教育」とは
TSUTAYAも大量閉店、CCCに起きている地殻変動
TSUTAYAも大量閉店、CCCに起きている地殻変動
【田内学×後藤達也】株高の今「怪しい経済情報」ここに注意
【田内学×後藤達也】株高の今「怪しい経済情報」ここに注意
アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
  • シェア
会員記事アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
トレンドウォッチAD
東洋経済education×ICT