数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 29|回复: 0

颠覆直觉的本福特定律:从万物起源到数据造假,数学让你看透世界本质

[复制链接]
发表于 2025-7-30 00:59 | 显示全部楼层 |阅读模式
颠覆直觉的本福特定律:从万物起源到数据造假,数学让你看透世界本质

6 月 26 日,日本某主营手机应用及游戏软件开发的科技企业,因存在财务造假嫌疑,被证券交易监察委员会立案调查,监察委员会认为该企业“公示文件存在虚假记载”,违反了《金融产品交易法》。

类似这样的大企业财务造假的丑闻屡屡见诸报端。这些企业通过人为修改财务数据,使最终公布的利润数字低于实际,从而达到逃税目的。而且像新闻中提到的这家企业,他们的财务造假行为,据说还得到了某大型审计公司的帮忙。在这种情况下,想要发现财务造假就会极其困难。

即使这样,税务机关还是成功窥破了企业的虚假粉饰,真是了不起。这就不得不提到数学中的“本福特定律”,它的神奇之处往往很违背直觉。

来源 | 《数学思考法:解析直觉与谎言》

作者 | [日]神永正博

译者 | 孙庆媛

01  数学也可以打击不法行为

在复杂的财务报表中,要想识别出会计的不正当操作,不是一件很容易的事情。更何况有的情况下,连会计师事务所这种负责纠正违法会计行为的财务审计机构都可能与企业沆瀣一气,结果导致企业的财务舞弊行为变得更加隐秘,难以被觉察。

针对这种现象,美国经济学家哈尔·范里安(Hal Ronald Varian)给出了解决方法。他在研究中发现,运用数学方法可以有效揭露企业中会计的隐秘造假行为。那么,他到底给出了什么样的灵丹妙药呢?

对于一般的非专业人士来说,阅读企业的财务报表是一件非常令人头疼的事情。财务报表中通常包含了各种财务数据,比如产品和服务价格就可能有几百种,这些基本数据经过加、减、乘、除又形成了如销售收入、成本、费用类、往来款项类等数据。这些数字看起来也是一样的杂乱无章,你我这样的一般人应该根本看不出其中有什么规律可言吧。

但是,哈尔·范里安则明确指出:“这些数字是具有一定规律性的。”这个规律就是在 20 世纪 20 年代被发现的“本福特定律”,也称为“第一数字定律”。

当时,物理学家弗兰克·本福特(Frank Benford)在其研究中发现,人口统计数字、计算机内的文件大小数字,如 161 974、14 739、1980、1 476 820…首位数字是“1”的情形非常多,而 2、3、…、9这些数字排在数据首位的比例是在不断降低的,数字越大出现的频率越低(图 21)。



在范里安教授的研究中,正是把本福特发现的数据首位数字的分布规律,即“本福特定律”应用到了揭露企业财务舞弊的行为上。

范里安教授指出,如果企业的会计数据经过了人为修改,那么本福特定律应该不适用于这些数据。利用这一特点,审计人员和监管机构可以通过统计该财报中数据首位数字的分布比例,并计算其与本福特定律中的比例之间的差值,从而判断企业是否有会计舞弊行为。

不过,先不要激动,冷静下来再观察一下图 21 。有没有觉得哪里不对劲?比如到底为什么“1”排在数据首位的比例会这么多呢?

其他情况也是如此吗?

为了解答这个疑问,我们需要进行一下验证。把整数中所有的 1 位数和 2 位数(也就是 1 ~ 99 )作为一个数据组,我们来分析一下 1 ~ 9 各自作为数据首位有效数字出现的比例,结果以图 22 的形式呈现。



可以看到,在图 22 中,每个数字排在数据首位的比例都是相同的。从 1 到 9,每个数字出现在数据首位的频率都是 11 次。仔细想一想确实也应该如此,如果对于排在首位的有效数字的范围没有任何限制,那么每个数字出现的比例确实是相等的。因此,在这个案例中,显而易见,本福特定律是不成立的。

那么如果我们扩大一下数据组的数据采集范围呢?情况会不会不一样?例如,我们可以统计一下整数 1 ~ 365 的范围内的首位有效数字的分布情况,结果如图 23 所示。可以看到,1 和 2 排在数据首位的概率远远高于其他数字,3 较之略低,但也大大高于 4 ~ 9 出现的概率。



这个分布情况和我们分析 1 ~ 99 的数据组时得出的结论是截然不同的。原因就在于这次测试中,我们其实对首位有效数字的范围进行了限制。在这种情形下,就会出现从某个数字开始概率急剧下降的情况(图 23 中是从数字 4 开始)。

这个结论显然与本福特定律也是不相符的。在本福特定律中,1 ~ 9 出现在首位有效数字的概率应当是逐步平稳下降,而在图 23 中,数字 4 ~ 9 出现的概率是相同的。

从这两个例子看,本福特定律也不是在所有情况下都适用。既然这样,范里安教授为何要选择这个定律来进行研究呢?他的决定似乎有点儿令人费解。

02  股价数字中存在的定律

为了理解范里安教授的研究,我们还需要更多的实际案例来验证。正好我手边有一份股票的收盘价格数据,于是就以此为样本又开始了新一轮的验证分析。如图 24 ,我选取的是 2013 年 5 月 24 日在日本东京证券交易所(简称“东证”)一部和东证二部上市交易的 3700 只股票(包括指数)的收盘价作为数据组,然后统计其中首位有效数字的分布情况,最终绘制了如图 24 的分布图。



分析的结果令人惊异!我这次只不过是恰好手头有这个数据,所以抱着试试看的心态进行了分析。但是看到图 24 ,我都不禁要怀疑自己的眼睛了。在这个图表中,可以很清晰地看到,股票收盘价的首位有效数字中,1 ~ 9 出现的频率随着数值的增大而呈逐渐递减的趋势,非常接近本福特定律下的分布形态。

不过,这个结果还是有可能会受到质疑,不管从图像上看这个分布趋向和本福特定律下的分布有多么相像,但理论上真的和定律相吻合吗?我自己也抱有这样的疑问,所以必须实际验证一下。但问题来了,如何才能验证这个现象是否符合本福特定律呢?有哪些科学合理的方法吗?

答案是进行数字对比。将根据本福特定律预测的首位数字的分布,与实际案例中统计得到的首位数字的分布一一对比,然后从统计学的角度,分析两者的差值是否在可容许的范围内,最终就可以做出判断了。

将根据本福特定律计算得出的首位数字的分布(以下称为“理论值”,计算方法将在下文中详细说明),与实际的股票价格数据中首位数字的分布相对比,就得出了如图 25 的柱状图。



这张图也反映出,两种数据是无限接近的。虽然存在些微的差距,但是这些差值是否大到超出了可容许的范畴呢?要判断这一点,一般可以采用统计学中的“统计检验”的方法。

我马上使用统计检验的方式进行了验证,结果显示“不能否定股价数据中首位有效数字的分布不适用于本福特定律”。

这个结论可能有点儿拗口。一般人可能觉得直接说“适用于定律”不就好了,为什么还要这么麻烦呢?其实这是统计学中的一个原则。统计学本就是用来处理那些局部的、偶然发生的现象的,因此,一般不能直接给出诸如“一定是这样的”等绝对性论调。在这次的检验结果中,虽然使用的措辞较为模糊,但是实质上是肯定了两个数据对比的结果吻合度非常高。

虽然无法做出完全与定律一致的结论,但是这种高度一致的关系已经足够令人感到惊叹。在现实中,我们应该还能够挖掘出其他更多的适用本福特定律的案例。

03  素数中的本福特定律

素数是只能被 1 或者自己整除的整数。素数有无穷多个,100 万以下的数字中有 78 498 个素数。这一次,我们使用这些素数作为一个数据组,同样对首位有效数字的分布进行统计分析,结果如图 26 。



从图 26 中确实可以看到,数字“1”排在首位的频率是最高的,但是 1 ~ 9 每个数字排在首位的频率相差不是很大,而且可以说是更接近于平均分布,而不是本福特定律中的递减趋势。

这个结果是不是意味着本福特定律只是适用于极少数情况的一种规律呢?又或者根本就是本福特教授的一个错觉?

数学家卢克(B. Luque)和拉卡萨(L. Lacasa)在其 2009 年共同发表的论文《素数的首位有效数字的分布》11 中,对此问题进行了研究。他们在论文中提出,可以将本福特定律解释为是一个具有普遍适用性的定律的一种特定情形,而素数的首位数字的分布,就可以用这个更为普遍的本福特定律来说明。

这个说法有点晦涩,换句话说,就是我们可以把本福特定律区分成“一般本福特定律”和“古典本福特定律”两种不同类型。那么,怎样去理解这两个定律的不同之处呢?

卢克和拉卡萨认为,古典本福特定律更接近于一个反比例函数曲线,如图 27 所示。他们在论文中指出了两者之间的对应关系:“首位数字是 1 的概率等于图中坐标 1 到 2 之间的面积;首位数字是 2 的概率,则等于坐标 2 到 3 之间的面积……”通过调整设置,使全部的面积之和恰好等于 100%。



而与此相对,在一般本福特定律中,当反比例函数曲线变为时,上述对应关系同样成立。其中,当 a =1 时,就是古典本福特定律。图 28 形象地说明了两个定律之间的关系。







29 则描述了当 a 的值发生变化时,分布曲线的相应变化。可以看到,当 a 的值逐渐减小时,曲线是逐渐趋于平缓的。图 30 显示了 a = 0.04 时的本福特定律。图中坐标数字对应的长方形的面积,就是该数字作为首位数字的概率。

根据这个理论,卢克和拉卡萨对更大范围的素数的首位数字的分布频率进行了统计。图 31 显示了该统计结果,以图(a)为例,黑色柱状图表示的是 10^8 以内的 5 761 455 个素数的首位数字的分布频率。与之并列的白色柱状图,表示的是一般本福特定律(a = 0.0583)的理论值。很明显,这两个数据具有惊人的一致性。



将素数的范围再进行扩大,也还是能够找到与之对应的一般本福 特 定 律。 图(b)中,素数的范围扩大到了 10^9 ,相对应地,a = 0.0513 时的一般本福特定律与之一致;图(c)中素数的范围是 10^10 ,对应  a = 0.0458 ;图(d)中素数的范围是 10^11 ,对应 a =0.0414 。可以发现,在这四种情况下,a 的值都有略微的差异,但最终与相应的素数首位数字的分布频率都非常吻合。

除了使用图形对比以外,在卢克和拉卡萨的论文中,同样采用了上文中我们在对比股价首位数字分布时使用的统计检验方法,对上述四种情形进行了检验。结果没有任何疑义地显示出了高度一致性。

自范里安教授初次提出可以将本福特定律应用于揭露财务舞弊行为之后,会计学教授马克·尼格里尼(Mark Nigrini)在 20 世纪 90 年代从统计学的角度说明了如何利用本福特定律揭露会计的造假、欺诈和逃税等财务舞弊行为,并因此名扬天下。迄今为止,研究者们已经使用本福特定律进行了许多这方面的实践应用,这些都让人不禁感叹,当初范里安教授真的是独具慧眼!



《数学思考法:解析直觉与谎言》

作者: [日]神永正博

译者:孙庆媛

图灵新知  2015 年 07 月 28 日 10:29  北京

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-8-1 05:04 , Processed in 0.087136 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表