2016年1月31日日曜日

統計の話

 最近、ビッグデータというのが流行です。ITを使って大量のデータを統計処理して、傾向をつかもうといった話です。

 統計処理は大量のデータから本質を見つけ出すのに有効な手法です。ただ、データの取り方によっては間違った結果を与える、ということには注意すべきだと思います。

 例えば、インターネット上での販売履歴から需要がないと思われる商品でも、店頭での販売履歴を含めると需要があるということになるかもしれません。

 データの取り方は統計処理の結果に大きく影響します。さらに言うと、意図的にデータの取り方を操作することで、統計処理の結果を操作することもできます。(例えば、「このデータはノイズだから省いちゃおう」なんて感じです。)

 データの取り方を見ないで、統計処理の結果だけ気にする人が、少なからずいる気がします。ですが、会議室でデータを統計処理しているだけでは間違った本質を見ている可能性があります。間違った結果を出さないために、データを取っている現場に行って、その妥当性を確認するという作業は非常に重要だと思うのです。

数値化の話

 数値化は何かを比較するときに便利な手法です。「暑い」「寒い」と言っただけでは程度があいまいですが、「30度」「0度」と言えば具体的です。
 ですが、なんでも数値化して比較すれば良いかというと、そうはいきません。

 例えば、学力テストの点数で成績の良し悪しの比較はできますが、その点数が学力のすべてではありません。数学のテストだけでは、英語の学力は分かりません。学力のすべてを評価するには、学力のすべてを網羅したテストが必要です。もちろん、それは非現実的なことです。

 要は、正しい「測定」をしないといけないということです。人によって測定値が変わってしまったり、日によって測定値がばらばらというのではダメなんです。

 先日、リスクアセスメントの話で、リスクを数値化するというのをやらされました。「事故Aが起きるリスク」と「事故Bが起きるリスク」を数値化して比較しようという話です。この数値は、その場にいる人の主観で勝手に決められたものです。それでは正しい比較はできません。「このリスクは重要度3にすべきか?それとも4にすべきか?」なんてことを延々議論するのは無意味です。

 ときどき、正しくない測定で得られた数値を使って議論する人がいますが、そうした議論は、土台の数値が信用できないということで、無駄に終わります。そうした失敗をしないために、常に「測定」の妥当性を考えるべきだと思います。

 「まず測定ありき」なんです。