首页 > 转载 > 正文

今天来谈一下「头文字一」,不是那个「秋名山最速传说」,会用「水沟盖过弯」的「头文字D」,别搞错了喔!

请各位读者数数你口袋里的钱,这个数字的第一位数是多少呢?比如说你身上有一万多、一千多、十块钱、一块钱,这个「第一位数」都是「1」,依此类推。如果对我们板上的读友们做个调查,各位觉得这个数字的「头文字」分别是1、2、3…一直到9 的出现机率应该是多少呢?答案后面再说,先来看一下历史。

科学与工程中经常需要做「对数」的计算,在一百多年前还没有电子计算机的时候,大家要算对数都要去查一本厚厚的「对数表」。对数表有点类似英文字典按字母顺序,是按照数字顺序编排的,例如不管是要查12345 或是0.012345,就是掀翻到「1」的部分(会在对数表的最前面),然后在「1」这一部底下又分为「11」、「12」、「13」…「19」这九个部分,找到「12」那部分后,里面会再分为「121」、「122」、「123」…「129」,依此类推,跟查字典一样,要找「the」的话,先翻到「t」开头,然后在「t」的部分找到「th」,再找「the」。

1881年时,有一位天文学家Simon Newcomb(附带一提,他也是个科幻小说家)在图书馆查对数表时,发现从书的侧面看过去,有一些页面特别黑,表示那几页经常被翻查,所以弄得比较脏,有些页面就比较干净。事实上,「1」的页面最脏,「2」次之,越大的数字越干净。Newcomb觉得有点意外,照直觉来想,来自各个领域的人所查的五花八门的数字,应该没有特别的偏好,会满平均的分布才对,为什么第一位数越小的页面,被翻查的次数就越多呢? 从书页侧面变脏的程度就可以知道哪些部分念得比较认真

Newcomb对这个问题作了一些研究,也发表了一篇论文,提出「第一位数字」的分布公式:P(d) = log(1+1/d),这里的P(d) 是从1 到9 的数字d 出现在第一位数的机率log 是「以10 为底的对数」,不过并没有引起太大的注意。 Benford's law,第一位数字从一到九的机率分布,数字越大出现的机率越小。

这个公式就这样沉睡了大约50年,到了1938年,另外一位天文学家Frank Benford因为一模一样的原因再度发现了这个定律,并且验证了更多的数据,比如说城镇人口、河流灌溉的流域、物质的比热、报纸头版上出现的第一个数字(日期除外)、物理常数…等等,发现都符合这个分布。这次Benford 发表的论文,获得科学界比较大的关注,这个「第一位数字定律」,也因此被命名为Benford’s law,其实说起来,应该要叫做Newcomb’s law 比较合理。

这个定律非常神秘,因为它几乎可以用在来自不同领域,各式各样的数字上。当然有一些数字是不适用的,比如说数字是作为「代码」而不是「计数」之用,例如身份证号码的第一位数只有1(男生)、2(女生)两种可能,当然就不符合Benford’s law。但是例如文章一开始的例子「你身上有多少钱」,或者是「你家门牌号码几号」,这样的数字如果收集得够多,就会符合Benford’s law。

其他像是「财务报表」上面的数字也会符合——这就很有用了,事实上也曾经有利用Benford’s law抓到逃税、作假帐的案例。由于Benford’s law并非「直觉上想当然耳」的分布,而人类心理上作假时,会有「避免极端值」的倾向,因为觉得数字太极端会产生「枪打出头鸟」的结果,所以在窜改数据时,首位数用了太多的4, 5, 6等中间数,违反了「头文字1」的法则,结果就被逮到了,现在有一些会计软体已经内建Benford’s law的检测,这也算是物理学家对社会科学的贡献吧!

当然,如果造假者知道这个定律,就会把假数据修正到符合Benford’s law了吧,所以念物理真的很重要!(这什么结论…)

这个定律也在2009年伊朗的总统大选中登场,由现任总统Mahmūd Ahmadinezhād 赢得连任的这场选举充满了争议,舞弊的指控满天飞,还引发了「绿色革命」的抗争,有高达300万人在德黑兰示威,后来有36人丧生,4000多人被捕。舞弊指控中一个证据就是有一位落选人Karoubi在各个选区的得票数分布,头文字是7的比例异常的高,违反了Benford’s law。最后的结果呢?只证明了科学无法解决政治问题,Mahmūd Ahmadinezhād 还是在国内争议与国际谴责中当到2013年卸任。 2009年伊朗大选,落选人Mehdi Karroubi在各区得票数的首位数字分布M,黑色为Benford's law,灰色为实际分布。(来源:维基百科,CC BY 3.0)。

最近的新闻(是什么新闻不能说,怕被关站)开始有一些关于Benford’s law的报导了,在此帮看不懂的网友们服务一下啰!

猜你喜欢
发表评论

电子邮件地址不会被公开。 必填项已用*标注

评论信息
picture loss