週刊東洋経済 最新号を読む(5/16号)
東洋経済オンラインとは
キャリア・教育 #確かなリアルが見えてくる 「統計」超入門

データ分析始めると必ず悩む「外れ値」の壁克服法 集計したデータはそのまま使ってはいけない

10分で読める
  • 福田 洸平 インテージ 先端技術部 アナリスト

INDEX

外れ値の判別方法について解説します(写真:metamorworks/PIxTA)
ビジネスにおけるデータの分析や活用がますます重視される中、ビジネスパーソンが身につけておきたい素養の1つが「統計」です。数式を使った複雑な計算をしなければならないと考えがちですが、必ずしもそんなことはありません。また基本的な考え方を知っておくだけでも、冷静な判断がしやすくなります。そんな「統計」の基礎を身につけるための短期連載第4回は、「外れ値」について解説します。

データの中に紛れ込む判断がつきにくい数値

皆さんはデータを分析する際に、データの中身を確認せず入手したデータをすべて使って集計してはいないだろうか。心当たりのある方は、もしかするとデータから誤った判断をしているかもしれない。

集計前に中身を確認し、「外れ値」の有無をチェックすることにより誤った判断を犯しにくくなる。外れ値とは周囲のデータと比較し大きく乖離したデータを意味する。

外れ値自体は、正常な数値なのか、はたまた手違いなどによって得られた異常な数値であるかに関する情報を持っていない。このような使用してよいか悪いかの判断がつきにくい数値がデータの中には紛れ込んでいる。

外れ値の存在を意識してデータを眺めるとさまざまな疑問が生じるだろう。どれが外れ値なのか、外れ値らしき数値を見つけたが、除外してよいのか……。

これらの判断は使用するデータの癖や目的に応じて変わるため難しい。本記事では外れ値と上手に付き合うために、外れ値が与える影響、外れ値の探し方、外れ値の取り扱いについて説明したいと思う。

次ページが続きます:
【なぜ「外れ値」が要注意なのか】

2/5 PAGES
3/5 PAGES
4/5 PAGES
5/5 PAGES

こちらの記事もおすすめ

あなたにおすすめ

キャリア・教育

人気記事 HOT

※過去1週間以内の記事が対象