统计学入门（8）：F 检验

luyuanhong · 发表于 2024-5-8 18:15

统计学入门（8）：F 检验

原创黄宝荣语言科学漫谈 2024-03-01 18:37 上海

01  引言

当我们面对一系列数据时，如何判断这些数据之间是否存在显著差异？如何评估不同处理或条件下的效果是否真正有意义？在统计学中，F 检验（F-test）为我们提供了答案。作为一种重要的统计工具，F 检验帮助我们深入了解数据的内在结构，揭示不同组别之间的差异是否显著。无论是农业研究、医学研究还是社会科学研究中，F 检验都发挥着不可或缺的作用。接下来，让我们一起深入了解这一工具。

02  F-test 的历史

在 1920 年代和 1930 年代，英国统计学家罗纳德·费舍尔（Ronald A. Fisher）提出了并发展了 F 检验，这一检验方法在他的方差分析（ANOVA）研究中起到了至关重要的作用。F 检验之所以被命名为“F”，是为了纪念费舍尔在统计学，特别是方差分析方法上的杰出贡献。

费舍尔在罗斯林农业研究站（Rothamsted Experimental Station，见图 1）工作期间，需要分析农业实验数据。在农业研究中，科学家们需要评估不同农业方法（如不同种类的肥料、播种密度等）对作物产量的影响，并确定这些影响是否具有统计学上的显著差异。由于自然条件和实验误差的存在，这些处理的效果在不同实验中往往表现出变异。因此，单纯地比较平均产量很难准确反映不同处理的实际效果。

图 1 Rothamsted 的试验田

在 F 检验出现之前，科学家和研究人员在比较多个组别的方差时缺乏统一且标准化的方法，难以判断方差之间的差异是否显著。为了解决这个问题，费舍尔引入了方差分析（ANOVA）的概念，并随后提出了 F 检验。方差分析允许研究者将数据的总变异分解为多个组成部分，包括由处理效应引起的变异和由随机误差引起的变异。而F检验则用于评估这些变异中，由处理效应引起的变异是否显著大于由随机误差引起的变异。

通过计算不同处理之间平均产量差异与实验误差（即实验重复之间的差异）的比值，F检验为研究者提供了一种量化方法，以判断这些处理效果是否具有统计学上的显著差异。如果计算出的F值超过某一临界值，则认为不同处理之间的差异显著，即这些处理对作物产量产生了显著影响。

03  计算方法

F 检验的计算方法主要通过比较数据集中的方差来确定不同组之间是否存在显著的方差差异。这个过程可以用于单因素或多因素方差分析（ANOVA），其中单因素 ANOVA 用于分析一个因素对结果变量的影响，而多因素 ANOVA 用于同时分析两个或更多因素的影响。下面，我们来看下单因素 ANOVA 的 F 检验计算方法。

单因素 ANOVA 的 F 检验步骤如下：

1. 计算总平均数（Grand Mean）：首先，计算所有数据点的总平均数，以反映整体的中心趋势。

2. 计算组内平均数：对每个组别计算平均数，以反映各组内的中心趋势。

3. 计算组间方差（SSB，Sum of Squares Between groups）：

其中，是第 i 组的样本数量，是第 i 组的平均值，是总平均数。

4. 计算组内方差（SSW，Sum of Squares Within groups）：

其中，是第 i 组中第 j 个观测值，是第 i 组的平均值。

5. 计算总方差（SST，Sum of Squares Total）：

    SST=SSB+SSW

或直接从每个观测值与总平均数的差异中计算：

6. 计算组间和组内的平均平方误差（Mean Square Between, MSB；Mean Square Within, MSW）：

其中，k 是组的数量，N 是总样本量。

7. 计算 F 值：

F 值衡量组间变异与组内变异的比例。一个较大的 F 值表明组间差异显著大于组内差异，暗示因素对结果变量有显著影响。

8. 确定显著性：

通过查 F 分布表或使用软件，根据 F 值和相应的自由度（df1 = k - 1 ，df2 = N - k），确定 P 值。如果 P 值小于事先设定的显著性水平（如 0.05），则拒绝原假设（假设所有组别均值相等），认为至少有两组之间存在显著差异。

04  案例 1

假设一位教育研究者想要研究不同的教学方法对学生考试成绩的影响。研究者选定了三种教学方法：传统讲授法（A 方法）、协作学习法（B 方法）、以及使用在线资源的自学法（C 方法）。目的是要判断这三种方法在统计学上是否存在显著差异。

图 2 课堂教学

研究设计

研究者随机选择了 90 名学生，平均分配到三种教学方法中，每组 30 人。所有学生在接受特定教学方法训练后，参加同一套标准化考试。研究者收集了每位学生的考试成绩，希望通过F检验来分析数据。

假设设定

原假设（H0）：三种教学方法的学生平均考试成绩没有显著差异。

备择假设（H1）：至少有一种教学方法的学生平均考试成绩与其他方法存在显著差异。

数据收集

收集数据后，假设每组的考试成绩如下（仅为示例，实际数据可能不同）：

A 方法: [82, 78, 90, 85, 88, ...] (总共 30 个成绩)

B 方法: [75, 70, 85, 80, 79, ...] (总共 30 个成绩)

C 方法: [92, 88, 94, 90, 95, ...] (总共 30 个成绩)

数据分析

计算各组平均成绩及总平均成绩。假设传统讲授法、小组讨论法和在线互动学习的学生测试成绩分别为：80±5 分、85±6 分、90±4 分。

计算组间方差（SSB）和组内方差（SSW）。

计算组间和组内的平均平方误差（MSB 和 MSW）。

计算 F 值。

计算示例

假设计算后得到以下结果（请注意，这些数值是为了说明目的而假设的）：

MSB = 120

MSW = 30

则，

结论

将计算得到的 F 值与临界 F 值比较。假设在给定的自由度和显著性水平 α=0.05 下，临界 F 值为 3.10 。因为计算得到的 F 值 4 大于临界 F 值 3.10 ，研究者拒绝原假设，接受备择假设，即至少有一种教学方法的学生平均考试成绩与其他方法存在显著差异。

应用意义

通过 F 检验，研究者得出结论，不同的教学方法对学生的考试成绩有显著影响。这个结果可以帮助教育者和学校评估和选择更有效的教学方法，从而提高学生的学习成绩。

05  案例 2

假设研究人员想要探究不同类型的新闻报道（国际新闻、体育新闻和科技新闻）在情感倾向上是否存在显著差异。为此，他们收集了各类型新闻的样本文章，每种类型各 100 篇，并使用自然语言处理（NLP）技术对每篇文章进行情感分析，得到一个情感得分（范围从 -1 到 1 ，-1 代表极度消极，1 代表极度积极）。

研究的具体步骤如下：

建立假设：

原假设（H0）: 三种类型新闻报道的情感得分平均值无显著差异。

备择假设（H1）: 至少一种类型新闻报道的情感得分平均值与其他类型不同。

收集数据并计算情感得分的平均值：

假设国际新闻、体育新闻和科技新闻的情感得分平均值分别为 0.2 、0.5 和 0.3 。

进行 F 检验：

根据情感得分计算组间和组内方差，再计算 F 值。

判断显著性：

假设得到的 F 值为 3.76 ，对应的 P 值小于 0.05 ，因此拒绝原假设。

结论：

这表明不同类型的新闻报道在情感倾向上存在显著差异。进一步的分析可能揭示，相比于国际新闻和科技新闻，体育新闻通常具有更积极的情感倾向。

06  结语

作为一种经典的统计方法，F 检验具有广泛的应用价值和深远的影响力。在社会科学领域研究不同政策或干预措施的效果，F 检验为我们提供了有力的分析工具。它不仅能帮助我们理解数据的内在结构，还能协助我们做出基于数据的推断。后续我们会介绍更多的统计学知识，敬请关注！

		自动登录	找回密码
密码			注册

统计学入门（8）：F 检验

本帖子中包含更多资源

浏览过的版块