まず、外れ値を削除するべきか否かについて、 筆者はむやみに削除しないほうがよいという考えである。外れ値とは異常値に見えるが異常と言いきる証拠のない数値であり、正常なデータとして有益な情報を持つ可能性があるためである。そのため外れ値自体に関する考察を行った後に対処方法を考えたほうがよい。
イメージしやすいように小売店の売り上げデータの外れ値を想定してみよう。外れ値の定義から考えると、極端に売り上げの低かった日と極端に売り上げの高かった日の金額が外れ値となる。
しかし、これらの外れ値、すなわちめったにないほど売れなかった日・めったにないほどよく売れた日に絞ってその理由を分析することにより、売り上げを大きく左右する要因が見つかるかもしれない。外れ値が生じた原因を考察することにより新たな事実を発見ができることもある。つまり分析目的によっては外れ値を除外してはいけないということだ。
もちろん絶対に削除してはいけないというわけではなく、分析目的に合わせて対処方法を決定するべきである。例えば、機械学習の学習データに外れ値が含まれることでまったく予測が当たらなくなるケースでは、外れ値を削除するべきであろう。また前出のような散布図で大まかなデータ間の関係を知りたいのであれば、外れ値を削除し、相関がないと結論づけたほうがよいだろう。
外れ値と判断した理由を明確に説明できることが大切
大切なのは削除するにせよ削除しないにせよ、なぜそのデータセットを用いたのか明確に説明できることである。もし外れ値を削除するという判断に至ったのであれば、分析結果に外れ値の定義および削除した理由を記載しておくべきである。
また削除した場合としなかった場合、両方の結果を併記しておくのもよいアイデアである。これは特に検定を実施するような分析では必須と考えられる。削除操作によって検定結果が変わることもあるからだ。このような場合、その検定では正確な判断ができないと考えたほうがよい。
最後に外れ値を考慮したデータ分析手順を示す。
② 分布をもとに外れ値・異常値のあたりをつける
③ ドメイン知識に基づいて異常値を除外するルールを設定する
④ 外れ値が含まれていそうな場合、外れ値検出を行う
⑤ 外れ値が生じる原因、分析への影響を考察する
⑥ 分析目的上悪影響があると判断した場合は外れ値を除外する
⑦ 分析を行う
⑧ 分析結果および使用したデータセットの定義と使用理由をまとめる
もしかしたら外れ値が含まれているかもしれないと思いながら分析を行うことにより、これまで気づけなかったおかしなデータに気がつけるようになるとともに、データに惑わされる可能性が減るだろう。
記事をマイページに保存
できます。
無料会員登録はこちら
ログインはこちら
印刷ページの表示はログインが必要です。
無料会員登録はこちら
ログインはこちら
無料会員登録はこちら
ログインはこちら