在“统计宝”的作者奇趣编程的认知中,每个数字出现的概率是均等的,每个数字出现的概率都接近于它的平均数。但是有一条叫做“本福特”定律似乎打破了这种认知,让人觉得似乎很多随机数的东西都能掌握规律了。
“本福特定律”(Benford’s law,简写BL)以物理学家法兰克·本福特名字命名,也叫做“本福特法则”,它指出“越大的数以它为首几位的数出现的概率就越低”。比如说,以1为首的数出现的机率约为总数的三分之一,接近统计学概率论中期望值九分之一的三倍。下面是奇趣编程整理的本福特定律中1-9各个数字出现的概率:
数字1 出现概率30.1%
数字2 出现概率17.6%
数字3 出现概率12.5%
数字4 出现概率9.7%
数字5 出现概率7.9%
数字6 出现概率6.7%
数字7 出现概率5.8%
数字8 出现概率5.1%
数字9 出现概率4.6%
这是怎么回事?统计学概率论被推翻了吗?它是怎么算出来的呢?这个定律是这样解释的:
从1、2、3、4、5、6、7、8、9,现在九个数字的概率是相同的,然后继续数到10,则1出现的概率比2-9这八个数字多了,再数到11、12、13、14、15、16、17、18、19,数字1已经出现很多次了,其它数字只出现2次,仍然是1出现的次数更多。然后继续数到20、21,又是1先出现,再数到31、41、51、61、71、81、91、101…都是1最先出现,所以1先出现的概率远远大于其它数字,时间越是往后概率才会慢慢被拉到平均值。
奇趣编程发现这个定律是被严格证明了的,论文见:Hill, T. P. “A Statistical Derivation of the Significant-Digit Law.” Stat. Sci. 10, 354-363, 1996.。
这个定律有什么用呢?可以检查一堆数据的随机性,如果一堆数据是随机的,它就应该是符合本福特定律的。能用到的场景有检测会计数据是否作假,金融数据是否被操纵,股票市场数据分析等。
使用“统计宝”的各位朋友们想到怎么利用这个“本福特定律”了吗?既然某些数字的概率是不均等的,但某些东西是按概率均等来计算的,这就产生了一个漏洞,你想到怎么利用了吗?
欢迎点击此处联系国内顶级随机数研究专家[奇趣编程]交流探讨。