データを「平均値」で見る人が量産される根本理由 理系教育を「しっかり受けていない」大きな弊害
もちろん誰もがデータサイエンスに関する専門的な知識を持つことは不可能です。しかし、専門性のあるデータサイエンティストが分析した結果を理解する能力は求められます。必ずしも深い知識は必要ないのですが、データや数字というだけで苦手意識をもつ人が多いようです。
例えば、ビジネス上の判断で、ある商品の売上実績をみて、さらに生産を拡大すべきかどうかを考える場合を想定しましょう。全国平均の売上は順調に増加しているというだけで判断をしがちですが、エリア別のバラツキなどを考慮することが必要です。
全国平均の売上が増加しているのは首都圏という1つのエリアが売上を大幅に伸ばしているだけであって、他のエリアでは減少しているといったことも考えられます。数学的な表現を使えば「平均値は増加しているが、エリア別の偏差が大きく、中央値は減少している」といえるかもしれません。
データの特徴量を表す指標は平均値だけではなく、標準偏差、中央値、最頻値、誤差、信頼区間など、様々な要素があります。これらの指標を使い分けながらデータの特徴を議論すべきなのですが、このような表現をすることで理解できない(理解しようとしない)人が多いのです。結果として、平均が増加しているというデータだけをみて判断をしてしまう人が多くいます。
「文理別」教育の弊害
この背景にあるのは数学などの理科系の基礎知識を持っていない人が多いことがあげられます。
当然、理系の学部を卒業していればよいというわけではありません。しかし、日本の教育制度の実態を考えると、高校の早い段階から、理系か文系かを選び、大学受験の準備をすることが多いのです。受験科目以外を学ぶ時間は最低限にし、より効率的に受験勉強に励むことを優先しがちです。その結果として、高校卒業の時点で数学の知識を忘れている人も多いのではないでしょうか。
つまり、社会に出る前に理系科目の教育をしっかりと受けている人が少ないことが問題なのです。それが、日本全体でデータサイエンスの思考を遅らせている要因になっていると言えます。データサイエンスの高次元の教育体系が整備されていないこととともに、基礎的な裾野の理解を促進する学習の機会も不足しています。
社会人になった時には、「読み・書き・そろばん」と同じようにデータサイエンスに関する基礎教育を受けていることが当たり前になった時代がこようとしています。裾野が拡大するという意味では、理系人材の不足問題は解決されるかもしれません。