データの中に紛れ込む判断がつきにくい数値
皆さんはデータを分析する際に、データの中身を確認せず入手したデータをすべて使って集計してはいないだろうか。心当たりのある方は、もしかするとデータから誤った判断をしているかもしれない。
集計前に中身を確認し、「外れ値」の有無をチェックすることにより誤った判断を犯しにくくなる。外れ値とは周囲のデータと比較し大きく乖離したデータを意味する。
外れ値自体は、正常な数値なのか、はたまた手違いなどによって得られた異常な数値であるかに関する情報を持っていない。このような使用してよいか悪いかの判断がつきにくい数値がデータの中には紛れ込んでいる。
外れ値の存在を意識してデータを眺めるとさまざまな疑問が生じるだろう。どれが外れ値なのか、外れ値らしき数値を見つけたが、除外してよいのか……。
これらの判断は使用するデータの癖や目的に応じて変わるため難しい。本記事では外れ値と上手に付き合うために、外れ値が与える影響、外れ値の探し方、外れ値の取り扱いについて説明したいと思う。


















無料会員登録はこちら
ログインはこちら