週刊東洋経済 最新号を読む(5/16号)
東洋経済オンラインとは
キャリア・教育 #確かなリアルが見えてくる 「統計」超入門

データ分析始めると必ず悩む「外れ値」の壁克服法 集計したデータはそのまま使ってはいけない

10分で読める
  • 福田 洸平 インテージ 先端技術部 アナリスト
2/5 PAGES
3/5 PAGES
4/5 PAGES

①データの順位を基に基準を決める

データ分布を基準に決める方法である。基準は第1四分位点および第3四分位点を基に決定する。前述の箱ひげ図で決める方法だ。次の②で紹介する方法と異なり、正規分布以外でも使用可能な方法なため、適応範囲が広く便利な手法である。

②数値の生じる確率を基準に決める

ある数値の起こりやすさに着目し得られる可能性(確率)の低いデータを外れ値として扱う方法である(厳密には、ある数値以上または以下となる確率が正しい)。慣習的にはデータが得られる確率が5%未満や1%未満のものを外れ値として扱うことが多い。

ではどのようにしてデータの得られる確率がわかるのだろう?最も単純な方法はデータが正規分布に従うものと仮定してしまうことだ。分布を正規分布と仮定することにより、平均値と標準偏差(ここではσ[シグマ]とする)を用いて外れ値となる境界を設定することが可能になる。

正規分布を使った外れ値の算出方法

正規分布では、

(平均値-2σ)< x <(平均値+2σ)の範囲に入る数値

は、約95%の確率で生じる。

(平均値-3σ)< x <(平均値+3σ)の範囲に入る数値

は約99.7%の確率で生じる。

データ①(8、11、12、13、13、13、13、13、14、15、18)にあてはめると、平均値13、σは2.3(エクセルではSTDEVP.P関数を使って算出、小数第2位を四捨五入)なので、

8.3< x <17.7の範囲に入る数値は約95%

6.0< x <20.0の範囲に入る数値は約99.7%

(※xの範囲はいずれも小数第2位を四捨五入)

の確率で生じる。前者の場合の外れ値は8、18、後者の場合は外れ値はなしとなる。

ただし、この方法は正規分布とかけ離れた分布のデータには適応できないので注意しよう。

ここまでは外れ値の定義の仕方を説明した。ではその外れ値をどのように扱うべきなのだろうか。この問いはとても難しく正解がない。よってここに記すことはあくまでも分析者としての経験に基づく筆者の考えであることにご留意いただきたい。

次ページが続きます:
【筆者はどう判断している?】

5/5 PAGES

こちらの記事もおすすめ

あなたにおすすめ

キャリア・教育

人気記事 HOT

※過去1週間以内の記事が対象