在零假设显著性检验中,p 值是在假设零假设正确的情况下,获得检验结果至少至少与实际观测样本相同极端的样本的概率。学术研究中,研究人员习惯用 p 值衡量实验数据的可靠性。当 p 值小于 0.05 时,意味着仅因偶然性产生的概率小于 5% 时,结果具有统计显著性。但是,古德哈特定律指出当指标变成目标后,就不再是一个好的指标。p 值就有这样的特点,许多研究中的 p 值并不可靠,甚至是被操纵的结果。
本文转载自《拆穿数据胡扯》(中信出版社,2022.3),标题为编者所加。
撰文丨卡尔·伯格斯特龙(Carl T. Bergstrom)(美国华盛顿大学生物系教授)、杰文·韦斯特(Jevin D. West)(美国华盛顿大学信息学院副教授)
很多原因可能导致科学结果无法复现,其中最明显的原因或许就是赤裸裸的欺骗。如果研究人员伪造了数据,我们就不能指望可以复证他们的实验了。欺骗行为会引起公众的广泛关注,如果频频发生,就有可能给人留下一种错误的印象。不过,公然欺骗的行为比较罕见。这也许可以解释为什么只有千分之一的研究无法复证,但不能解释为什么实地取得的实验结果有一半不可复现。那么,我们如何解释复证危机呢?为了回答这个问题,我们不妨绕个弯子,看看一个被称为 p 值的统计量。
p 值操纵
我们经常用 0.05 作为 p 值的临界值(纯粹是因为这是惯例),表示一个结果在统计学上具有显著性。换句话说,当 p<0.05 时,即仅因偶然性产生的概率小于 5 时,结果具有统计显著性。
研究人员更有兴趣阅读那些报告有统计意义的“阳性”结果,而不是无意义的“阴性”结果的文章,因此作者和期刊都强烈希望呈现有意义的结果。为什么研究人员和期刊对阴性结果不感兴趣呢?我们还不完全清楚,但有很多可能的原因,其中一些可能与我们自己的心理有关。对我们大多数人来说,阴性结果有点儿令人厌烦。“这两组人没有区别。”“这种治疗不会改变结果。”“知道 x 不能帮助我们预测 y 。”读到这样的句子,我们会觉得又回到了起点,一无所获。
但是,我们不妨从研究者的角度看一看。假设你刚刚花了几个月的时间,收集了大量数据。你测试了你的主要假设,最终得到了一些看上去有希望但不具有显著性的结果。你知道,就这样保持不变的话,不要说优秀期刊,甚至其他所有期刊都不会发表你的研究成果。但你认为你的假设肯定是成立的,也许只是没有足够的数据支撑。所以你继续收集数据,直到你的 p 值降到 0.05 以下,然后你立即停止收集数据,以免它变回到阈值以上。
或者你可以尝试一些其他的统计测试。由于数据接近显著性, 选择正确的测量方法和测试,也许能让你跨过 p = 0.05 这道关卡。当然,稍加修改,你就找到了一种能给你带来显著结果的方法。
还记得古德哈特定律吗?“指标变成目标后,就不再是一个好的指标。”从某种意义上说,p 值就具有这个特点。因为p 值低于 0.05 对于论文发表来说是必不可少的,所以 p 值不再是衡量统计支持的好指标。如果科学论文是否发表与 p 值无关,那么 p 值仍将是一个有效指标,可以衡量推翻原假设时得到统计支持的程度。但是,由于期刊明显偏好那些 p 值低于 0.05 的论文,因此 p 值已经失去了原先具有的用途。
但是,如何才能知道这个比例呢?我们必须想办法调查所有未发表的实验结果,但这些结果往往被扔进了抽屉里。美国食品药品监督管理局(FDA)的埃里克·特纳找到了一个巧妙的方法来解决这个问题。美国的法律规定,任何研究团队,只要进行临床试验(用人作为实验对象来测试治疗结果的试验),都必须向 FDA 登记报备,提交文件并解释试验是要测试什么,试验将如何进行,以及结果如何测量。一旦试验完成,团队还需要向 FDA 报告试验结果。不过,他们并没有被要求必须在科学期刊上发表研究结果。