データ分析始めると必ず悩む｢外れ値｣の壁克服法集計したデータはそのまま使ってはいけない

✎ 1〜 ✎ 3 ✎ 4 ✎ 5 ✎ 最新

福田洸平 : インテージ先端技術部アナリスト

2022/06/04 8:00

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

①データの順位を基に基準を決める

データ分布を基準に決める方法である。基準は第1四分位点および第3四分位点を基に決定する。前述の箱ひげ図で決める方法だ。次の②で紹介する方法と異なり、正規分布以外でも使用可能な方法なため、適応範囲が広く便利な手法である。

②数値の生じる確率を基準に決める

ある数値の起こりやすさに着目し得られる可能性（確率）の低いデータを外れ値として扱う方法である（厳密には、ある数値以上または以下となる確率が正しい）。慣習的にはデータが得られる確率が5%未満や1％未満のものを外れ値として扱うことが多い。

ではどのようにしてデータの得られる確率がわかるのだろう？最も単純な方法はデータが正規分布に従うものと仮定してしまうことだ。分布を正規分布と仮定することにより、平均値と標準偏差（ここではσ[シグマ]とする）を用いて外れ値となる境界を設定することが可能になる。

正規分布を使った外れ値の算出方法

正規分布では、

（平均値－2σ）＜ x ＜（平均値＋2σ）の範囲に入る数値

は、約95%の確率で生じる。

（平均値－3σ）＜ x ＜（平均値＋3σ）の範囲に入る数値

は約99.7%の確率で生じる。

データ①（8、11、12、13、13、13、13、13、14、15、18）にあてはめると、平均値13、σは2.3（エクセルではSTDEVP.P関数を使って算出、小数第2位を四捨五入）なので、

8.3＜ x ＜17.7の範囲に入る数値は約95%

6.0＜ x ＜20.0の範囲に入る数値は約99.7%

（※xの範囲はいずれも小数第2位を四捨五入）

の確率で生じる。前者の場合の外れ値は8、18、後者の場合は外れ値はなしとなる。

ただし、この方法は正規分布とかけ離れた分布のデータには適応できないので注意しよう。

ここまでは外れ値の定義の仕方を説明した。ではその外れ値をどのように扱うべきなのだろうか。この問いはとても難しく正解がない。よってここに記すことはあくまでも分析者としての経験に基づく筆者の考えであることにご留意いただきたい。

→次ページ筆者はどう判断している？

← 1 2 3 4 5 →

特集一覧

REIT－再編前夜か、夜明けか－

2026年総選挙超短期決戦の焦点

アカデミックシフト社会人から大学教授になる方法

CSR企業ランキング 2026年版

特集一覧はこちら

トピックボードAD

有料会員限定記事

【独自】JR東日本子会社で｢労基法違反｣が発覚

新生･京セラをアピール｢アメーバ経営｣の現在地

フジ･メディアVS村上系､まだ続く｢不動産争奪戦｣

混迷のトランプ政権と｢自由保守主義｣再興の行方

大型書店｢2冊までしか売らないルール｣の衝撃

｢3.11｣の復興支援では中越沖地震の教訓が生きた

キャリア・教育の人気記事

トレンドライブラリーAD

連載一覧

連載一覧はこちら

キャリア・教育
アクセスランキング

1時間
24時間
週間
月間
シェア

※過去1ヶ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※週間いいねとシェアの合計(増分)

» 11～30位はこちら

会員記事アクセスランキング

1時間
24時間
週間
月間

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

トレンドウォッチAD

週刊東洋経済の最新号

2026年2月14日号

この号を読む定期購読

バックナンバー一覧はこちら

東洋経済の書籍

新刊
ランキング

※3カ月以内に発刊した書籍の中から話題の書籍を紹介しています。