ビジネスでデータを使っていく際に、「その結果に差があるか?」を問われるシーンは意外に多い。
例えば、あるブランドの認知率調査をしたとき、認知率が関東では60%、関西では57%であったとしよう。この結果をみて、あなたはただちに関東のほうが関西よりも認知率が高いと断言できるだろうか。
確かに数字を単純に比べれば、関東のほうが認知率は高い。しかし、“たった3%”の差である。この差は果たして意味のある差なのだろうか。
統計数字を読んでいく時に、あらかじめよく理解しておかなくてはいけないのは、データには偶然の標本誤差が含まれているということである。
「サンプルサイズ」が大きな影響を与える
統計調査では、母集団(調査で性質を明らかにしたい集団)から一部の人(標本)を抽出してデータを集めることが一般的である。こうした調査は「標本調査」と呼ばれる。母集団全員に対して調査しているわけではない以上、標本から得られた調査結果と、母集団全員による真の値との間には差が生じる。これを「標本誤差」と呼ぶ。
標本調査では、標本の選び方によって結果が変わる。特に標本を何人にするかという「サンプルサイズ」は標本誤差の大小に大きな影響を与える。
例えば、母集団が100人だったとき、そこから2人に対して調査を行う場合と、50人に対して調査を行う場合を想像してほしい。100人中2人にしか聞かないのでは、50人に聞いた時に比べて100人全員とのズレが起きやすいこと、すなわち標本誤差が大きいことがイメージできるかと思う。
無料会員登録はこちら
ログインはこちら