九成以上研究者或无法正确理解 p 值

luyuanhong · 发表于 2023-6-27 19:49

九成以上研究者或无法正确理解 p 值

如果统计推断的仪式化操作不被打破，研究者没有良好的统计思维，那么，换掉 p 值，“与时俱进”的新问题还是会不断出现。

撰文 | 许岳培（中国科学院心理研究所，中国科学院行为科学重点实验室）、吕小康（南开大学周恩来政府管理学院社会心理学系，南开大学计算社会科学实验室）、胡传鹏（德国莱布尼茨心理韧性研究中心 Leibniz Institute for Resilience Research）

尽管近年来统计推断领域一直人才与工具迭出，但原假设显著性检验（Null Hypothesis Significance Testing, NHST）仍是 20 世纪后半叶以来最为流行的统计推论模式。一项针对 Science、Nature 和 PNAS 三本顶级杂志的调查表明，在过去的 20 年，出现在三本杂志中的图表仍然高度依赖、且越来越依赖于 p 值（Cristea & Ioannidis, 2018）。但是，如此常用的 p 值在统计学界和科学界其实褒贬不一。原因不外乎两点：1）从统计原理的角度上，p 值能够反映的信息与数据所代表的实际信息存在较大差别；2）从研究者使用的角度上，p 值的构造理念和解读方式本身不容易理解，具有认知上的误导性。如何正确地使用与解读 p 值，遂成为一个“一直在讨论、从未被解决”的问题。

天下苦 p 值久矣？

与 NHST 的流行相伴的，是过于强调统计显著性来区分实验效应是否存在的理念。这可能使得研究者一直纠结于自己研究的 p 值是否小于 0.05 ，从而造成所谓的 p 值操纵（p-hacking）、发表偏见（publication bias）等一系列负面现象。但事实上，相比统计显著性或是 p 值是否小于 0.05 ，对于研究本身而言，还有更为重要的指标，包括但不限于置信区间（Confidence Interval，CI）、统计效力（power）、效应量（effect size）等等。况且，p 值会因研究设计和操作的不同自然而然地存在一定差异，这就意味着在不同的实验中 p 值本就没有可比性。

鉴于以上种种理由，执科学发表之牛耳的自然杂志（Nature）于 2018 年发表了一篇 800 多位科学家联合署名的评论文章，反对滥用统计显著性。在该评论文章中，揭竿而起的科学家们呼吁摈弃掉根据“统计显著” vs “统计不显著”，即所谓的“统计显著性”来得出结论的二分思维（www.nature.com/articles/d41586-019-00857-9）。

Nature 上发表的联名评论：“让统计显著性退休！”

另外，更早一些时候，2016 年美国统计学会（American Statistical Association，ASA）其实也曾就统计检验及 p 值的相关问题发出过官方声明。声明明确指出了 p 值的含义、使用规范及其局限—— p 值不可表示原假设成立的概率；不应仅依靠 p 值得出研究结果；应完整报告 p 值及其实验条件、不应选择性报告 p 值；p 值不可表示研究效应的大小或重要性；p 值本身不可用以评判假设或模型的好坏。

但除了这些和 p 值所依赖的原假设检验原理直接相关的局限外，还有一个可能更为严重的问题——原假设检验和 p 值本身作为一种统计工具“仅有局限、并无过错”，但使用者的滥用和误用，使得原假设检验和 p 值成为了被批判的靶子。这就涉及前面提及的 p 值的第二个问题：在认知层面，p 值本身就容易遭到误解。

无论是 Nature 上 800 名科学家倡导的废弃统计显著性，还是 ASA 呼吁的规范使用 p 值，亦或是其他关于 p 值的热烈讨论（例如：Benjamin 等在 2017 提出的将统计显著的 p 值阈限下调至 .005 ；以 Basic and Applied Social Psychology 等期刊为代表所主张的“罢黜”所有依靠 p 值的研究），其核心议题均是如何正确理解及正确使用 p 值或 CI（置信区间）。

到底如何正确理解 p 值？

2014 年 2 月，ASA 论坛上曾出现过一位美国统计学教授的疑问：

“为什么大学和研究院在教 p<.05 的规则 —— 因为科学界和杂志都在用。”

“那为什么科学界和杂志都在用 p<.05 的规则 —— 大学和研究院在教。”

短短的两句话，道出目前科学界 p 值使用和教育过程的死循环。一方面，杂志编辑和科学界对 p 值的推崇使得基于 p <.05 得出一个“显著”结论成了几乎每一位学生和科研人员的必修课；另一方面，经受了该必修课洗礼的学生理所应该地在论文中一次又一次地使用 p<.05 ，使得科学界和杂志编辑进一步加深了对 p 值的依赖。但是，这样的封闭循环显然并不利于统计推断理念的更新——接二连三的研究已经充分表明一个事实：想要正确理解 p 值并非易事。

早在 1986 年，Oakes (1986) 针对心理系师生的调查就表明，仅有 3% 的受访者对 p 值做出了正确解读。2002 年，Haller 和 Krauss 的调查表明，教授方法学的教师对 p 值的误解率也高达 80% ，心理系学生更是全军覆没，无一能够准确解读 p 值。近十年，又有研究者对心理学研究者进行了关于 p 值解读的调查（Badenes-Ribera, Frias-Navarro, Iotti, Bonilla-Campos, & Longobardi, 2016; Badenes-Ribera, Frías-Navarro, Monterde-i-Bort, & Pascual-Soler, 2015; Lyu, Peng, & Hu, 2018; 胡传鹏等, 2016），但结果均表明：大部分研究者无法正确解读 p 值。大家学习到的似乎只有如何获取 p 值的 “套路” ，而并非蕴含在 p 值背后的深层逻辑和统计学意义。

值得一提的是，一度被认为是 p 值滥用之解药——基于估计的统计指标置信区间 CI ，也没有逃过被套路的命运。2014 年，Psychonomic Bulletin & Review 刊文报告了 562 名心理学研究者和学生对 CI 的理解情况，结果表明，仅有 11 名受访者正确解读了 CI 。几年以来，又有多项研究针对 CI 的解读进行调查（Greenland et al., 2016; Lyu et al., 2018; Morey, Hoekstra, Rouder, & Wagenmakers, 2016），结果也一致表明：大部分研究者无法正确解读 CI 。

对此，德国马克斯-普朗克研究所的吉仁泽（Gerd Gigerenzer）教授将这样的统计操作称为“无脑的统计”（Mindless Statistics）——许多研究者只是学到了统计推断的“套路”，即：建立零假设、依据 p 值接受/拒绝假设、如此循环往复，而没有真正理解统计推断的思维。

现在我们还做“无脑的统计”吗？

距离 1986 年 Oakes 发出的第一份 p 值问卷已经过去了三十余年，研究者及学生们对 p 值和 CI 的解读情况是否有所好转？特别地，向来以基础数学训练功底和统计计算功力为傲的中国研究者，能够濯清涟而不妖地独善其身吗？

答案似乎是否定的。

从 2017 年 9 月到 2018 年 11 月，我们利用 Oakes 等人的针对 p 值和 CI 的问卷再一次重复了该研究。不同的是，这次调查中，我们联系了“知识分子”“科学人”“统计之都”“定量群学”“我爱脑科学网”等多家科学类公众号，将调查的学科规模扩大到了社会科学、医学、理学、工学、农学、经济学、以及数学/统计学等背景的 1479 名受访者，而不是仅限于心理学受访者。所有受访者均系统学习了假设检验的相关课程（如概率论与数理统计、心理与教育统计学、管理统计学等）。

我们使用的问卷中设立了一个采用独立样本 t 检验比较两组均值差异的研究场景，统计结果为 p=.008 ，受访者根据这一 p 值对“你已证实原假设是错的”“你发现了原假设为真的概率”等四句陈述进行正误判断；类似地，CI 部分，我们给出了两组均值差的 95% CI 为 [0.1, 0.4]，并让受访者对“真实均值差/总体均差有 95% 的概率落在 0.1 和 0.4 之间”等四句陈述进行正误判断。（在原问卷中我们还设置了非显著情景，即 p=0.21 ，CI 为 [-0.1, 0.4] 的场景，但研究未发现显著性对解读的影响，具体分析在此不做赘述。问卷题目均来自公开发表的文献，具体参见文末原文。）

本次调查的结果仍与前人的研究保持高度一致：平均而言，有 89% 的受访者错误解读了 p 值，有 93% 的受访者错误解读了 CI ；所有学科背景的受访者，包括数学/统计学背景的大部分研究者、学生均无法完全正确解读 p 值和 CI 。下图展示了不同学位、学科背景、最高学位获得地受访者对 p 值和 CI 解读的错误率。

不同学位、学科背景、最高学位获得地受访者对 p 值和 CI 解读的错误率

更尴尬的是，受访者对自己的回答似乎还挺“有信心”。当自评自己回答的信心程度时，受访者对各道题的平均信心程度均超 3.8 分（五级李克特量表，分数越大越自信），见下图。另外，我们发现最高学位获得地为海外或港澳台的研究者或学生，对 p 值的误解似乎要（统计上显著地）少于最高学位获得地是中国内地的研究者或学生（p 值：84% vs 90% ；CI ：89% vs 93%），尽量两者同样拥有相当高的误解率。

每道题的错误率及信心程度（左图 a 为 p 值，右图 b 为 CI ）

如吉仁泽所言，很大一部分的统计推断工作遵循了这样的仪式化套路：

步骤 1 ：建立零假设；

步骤 2 ：报告 p 值，接受、拒接假设；

步骤 3 ：一遍又一遍地重复步骤 1 和 2 。

这样的套路容易使人们陷于不求甚解而又过于自信的危机中：只知道小于 0.05 的 p 值是好的，只知道远离 0 的 CI 是好的，而不明白 p 值和 CI 到底意味着什么。要打破这样的现状，最好的做法就是学习一套系统完整的统计方法（a set of statistical toolbox），而不是继续延续以往仪式化的统计推断套路传授。另外，对于海外学位获得者的误解率较少，可能的解释是海外媒体对于这个话题的讨论相较国内更为“火热”，从而达到了部分“脱敏”的效果，这可能也从一个侧面反应出我们这类调查的作用所在。

这里要严正申明：“揭发”学界存在的问题，目的是为了让大家充分地了解当前科研者的统计推断之现状，以期研究工作者能够注意到当前的问题，更加重视正确地使用 p 值，而非将其当作一种把数据“升华”为“科学发现”的仪式。我们的研究属于最近正在慢慢兴起的“元研究（meta-science, or science of science）的范围，对研究行为进行研究，以其更合理地进行科学探索。类似的，也有研究者去调查了北美心理学教科书中关于“统计显著性”的解释，在 30 本教科书里，发现有 25 本对这个概念的解释是包含了某些错误的（Cassidy, Dimova, Giguère, Spence, & Stanley, 2019）。

我们衷心地期待，在不久的将来，科学界的统计推断指标不断地走向多元化。但如果这种统计推断的仪式化操作不被打破，研究者没有良好的统计思维，就无法保证在将来是否会出现诸如现在已经开始流行基于贝叶斯因子（Bayesian Factor，BF）的“贝叶斯因子操纵（BF-hacking）”、基于 BF>3.0 的发表偏见等其他“与时俱进”的新问题出现。我们的研究仅是针对 p 值和 CI 进行了调查，也有研究者已经发现，其他常用的统计指标如克隆巴赫 alpha 系数的理解也不容乐观（Hoekstra, Vugteveen, Warrens, & Kruyen, 2019）。那么对于其他尚未进行过调查的统计指标，如效应量、贝叶斯因子，研究者是否也存在很深的误解？这一点目前仍无从得知。事实上，在本次研究中，研究者对 BF 的误解已经初露端倪。例如，有部分研究者声称了解频率学派和贝叶斯学派的区别，但却无法正确回答 p 值是哪一个学派的统计指标。

总之，公开本次调查的结果，目的是让大家真正重视如何正确解读 p 值和 CI 这个问题。对于不少方法学研究者而言，对于 p 值与 CI 的理解似乎是常识。遗憾的是，现实中有很多本来应当是常识的声音，却需要不断的重复才能成为常识。这可能是一个真正需要重视的大众心理学问题，也是一值得科学共同体的反思的问题。

错误解读分析：

对 p 值、CI 错误解读的解析

论文信息：

Lyu, X.-K., Xu, Y., Zhao, X.-F., Zuo, X.-N., & Hu, C.-P. (2020).Beyond psychology: prevalence of p value and confidence interval misinterpretation across different fields.Journal of Pacific Rim Psychology, 14, e6. doi:10.1017/prp.2019.28

链接： https://doi.org/10.1017/prp.2019.28

参考文献

[1] Amrhein, V., Greenland, S., & McShane,B. (2019). Scientists rise up against statistical significance. Nature,567, 305-307. doi:10.1038/d41586-019-00857-9
[2] Badenes-Ribera, L.,Frias-Navarro, D., Iotti, B., Bonilla-Campos, A., & Longobardi, C. (2016).Misconceptions of thep-value among Chilean and Italian AcademicPsychologists.  Frontiers inPsychology, 7, 1247.  doi:10.3389/fpsyg.2016.01247
[3] Badenes-Ribera, L.,Frías-Navarro, D., Monterde-i-Bort, H., & Pascual-Soler, M. (2015). Interpretationof the p value: A national survey study in academic psychologists fromSpain.  Psicothema,27(3), 290-295.  doi:10.7334/psicothema2014.283
[4] Cassidy, S. A.,Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019). FailingGrade: 89% of Introduction-to-Psychology Textbooks That Define or ExplainStatistical Significance Do So Incorrectly.  Advances inMethods and Practices in Psychological Science.  doi:10.1177/2515245919858072
[5] Cristea, I. A.,& Ioannidis, J. P. A. (2018). P values in display items are ubiquitous andalmost invariably significant: A survey of top science journals.  PLoS One, 13(5), e0197440.  doi:10.1371/journal.pone.0197440
[6] Greenland, S.,Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman,D. G. (2016). Statistical tests, P values, confidence intervals, and power: aguide to misinterpretations.  EuropeanJournal of Epidemiology, 31(4), 337-350. doi:10.1007/s10654-016-0149-3
[7] Haller, H., &Krauss, S. (2002). Misinterpretations of significance : A problem studentsshare with their teachers?  Methods ofPsychological Research, 7, 1-20. doi:Retrievedfrom
[8] https://www.metheval.uni-jena.de ... onuebung/haller.pdf
[9] Hoekstra, R.,Vugteveen, J., Warrens, M. J., & Kruyen, P. M. (2019). An empiricalanalysis of alleged misunderstandings of coefficient alpha.  InternationalJournal of Social Research Methodology, 22(4),351-364.  doi:10.1080/13645579.2018.1547523
[10] Lyu, Z., Peng, K.,& Hu, C.-P. (2018). P-Value, Confidence Intervals, and StatisticalInference: A New Dataset of Misinterpretation.  Frontiers inPsychology, 9(868).  doi:10.3389/fpsyg.2018.00868
[11] Morey, R. D.,Hoekstra, R., Rouder, J. N., & Wagenmakers, E.-J. (2016). Continuedmisinterpretation of confidence intervals: response to Miller and Ulrich.  PsychonomicBulletin & Review, 23(1), 131-140.  doi:10.3758/s13423-015-0955-8
[12] 胡传鹏, 王非, 过继成思, 宋梦迪, 隋洁, 彭凯平. (2016). 心理学研究中的可重复性问题:从危机到契机.  心理科学进展, 24(9), 1504-1518.

本文转载自微信公众号“OpenScience”，有修订。

返朴 2023-06-17 08:41 发表于上海

Ysu2008 · 发表于 2023-6-28 22:21

有9成那么高吗？以前只听说过7成5。
这篇文章对 CI 的理解也有问题。

Ysu2008 · 发表于 2023-6-28 22:34

似乎很多专家教授对 CI 的理解都与吴喜之大佬的说法一致，是否受其影响？不得而知。
吴喜之是否是国内目前数理统计学界的大佬，俺这不吃学术饭的一介山野村夫也不得而知。

		自动登录	找回密码
密码			注册

九成以上研究者或无法正确理解 p 值

本帖子中包含更多资源