外れ値を探す第一歩としてデータ特性の把握を行うとよい。特性理解には要約や可視化が便利だ。要約では「最大値」「最小値」を平均値や中央値と比較することにより、外れ値が含まれていそうか判断できる。
ヒストグラムや箱ひげ図を用いて分布を可視化するとデータの正常な範囲にあたりを付けることができる。とくに箱ひげ図はデータの中央値、最大値、最小値を1つの図で表現できるため便利だ。もしデータ間の関係に興味があるのであれば前述した例のように散布図を作成するのもよい。
箱ひげ図の作り方を冒頭のデータ①(8、11、12、13、13、13、13、13、14、15、18)で見ていこう。
まずは四分位点を探す。四分位点とはデータを大きい順に並べ4等分した際に境界にある数値を意味し、小さいほうから順に第1四分位点(データ①では12)、第2四分位点(中央値)、第3四分位点(データ①では14)という。四分位点を基に決定した境界を元に外れ値を表現したグラフが箱ひげ図である。エクセルならQUARTILE.ExC関数を使うと簡単に求められる。
次に、箱ひげ図における外れ値は以下のように定義されている。
①第1四分位点-1.5×(第3四分位点-第1分位点)以下のデータ
②第3四分位点+1.5×(第3四分位点-第1分位点)以上のデータ
計算すると①が9、②が17となるため、8と18が外れ値となる。
入力ミスなどの異常値と外れ値を区別する方法
データ特性を把握したら外れ値を確認し、中でも異常値とわかるものは削除しておくとよい。異常値とは数値の傾向が周りと異なるなど外れている理由が明確にわかる外れ値のことだ。
例えば入力ミスは外れ値ではなく異常値である。体重654kgというデータは小数点忘れの可能性が高い。平成1996年生まれというデータは西暦と和暦の勘違いによって生じたものだろう。ドメイン知識をもとに取りえる数値の範囲を設定することにより異常値を検出できる。
しかしながら実際には異常値と外れ値は区別がつかない場合が多い。そのため、これから説明する外れ値の検出が必要になるのである。
データの概要を理解し、明確にわかる異常値を取り除いたら、実際に外れ値を探していこう。外れ値を探すということはある数値が基準とどの程度乖離していたら外れ値とみなすといった基準を定義することと同義である。本記事では基準の設け方として2つの方法を紹介しよう。
無料会員登録はこちら
ログインはこちら