データ分析始めると必ず悩む「外れ値」の壁克服法 集計したデータはそのまま使ってはいけない

✎ 1〜 ✎ 3 ✎ 4 ✎ 5 ✎ 最新
著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小
外れ値の判別方法について解説します(写真:metamorworks/PIxTA)
ビジネスにおけるデータの分析や活用がますます重視される中、ビジネスパーソンが身につけておきたい素養の1つが「統計」です。数式を使った複雑な計算をしなければならないと考えがちですが、必ずしもそんなことはありません。また基本的な考え方を知っておくだけでも、冷静な判断がしやすくなります。そんな「統計」の基礎を身につけるための短期連載第4回は、「外れ値」について解説します。

データの中に紛れ込む判断がつきにくい数値

皆さんはデータを分析する際に、データの中身を確認せず入手したデータをすべて使って集計してはいないだろうか。心当たりのある方は、もしかするとデータから誤った判断をしているかもしれない。

集計前に中身を確認し、「外れ値」の有無をチェックすることにより誤った判断を犯しにくくなる。外れ値とは周囲のデータと比較し大きく乖離したデータを意味する。

外れ値自体は、正常な数値なのか、はたまた手違いなどによって得られた異常な数値であるかに関する情報を持っていない。このような使用してよいか悪いかの判断がつきにくい数値がデータの中には紛れ込んでいる。

外れ値の存在を意識してデータを眺めるとさまざまな疑問が生じるだろう。どれが外れ値なのか、外れ値らしき数値を見つけたが、除外してよいのか……。

これらの判断は使用するデータの癖や目的に応じて変わるため難しい。本記事では外れ値と上手に付き合うために、外れ値が与える影響、外れ値の探し方、外れ値の取り扱いについて説明したいと思う。

次ページなぜ「外れ値」が要注意なのか
関連記事
トピックボードAD
キャリア・教育の人気記事