さまざまな業界でデータの改ざんが問題になっていますが、このデータが自然に収集されたデータなのか、適当にでっち上げられたり改ざんされたデータなのかを見破るには、どうすれば良いでしょうか?

(1) データの桁数の分布を調べる
(2) データの先頭の数字を調べる
(3) 平均を上回るデータの個数を調べる

このページをSNSで共有する
答え

(2)


改ざんされたデータの特徴


実験結果などから得られた自然発生的なデータでは、先頭の数字の分布に特徴が表れます。たとえば、その30%は先頭の数字が「1」になります。


これは、「ベンフォードの法則」で証明でき、数値データの捏造(ねつぞう)の検知などに役立ちます。


考え方は、数字は1から始まり、9へと進みます。繰り上がると先頭が「1」の10になります。10から99に進み、繰り上がると、また先頭が「1」の100になります。


こうして、必然的に先頭が1のデータが多くなります。


続いて先頭が2、3のデータが多くなり、先頭が8、9のデータは少なくなるのが自然です。


自然発生するはずの数値データを集計して、先頭が1から9の数値が均等になっていたりしたら、そのデータは人為的に作られたり改ざんされたと推測できます。


ただし、上限があったり、特定の数字に意味を持たせているデータでは、この法則が当てはまりません。あくまで改ざんを見破るヒントですが、参考にしてください。


このページをSNSで共有する
スポンサーリンク

こんな問題、解けますか?

こちらもどうぞ