[讨论]事实上从来就没有所谓“固定样本容量”的统计学

Ysu2008 · 发表于 2018-2-3 20:44

以下是我在学习统计学过程中的一点思考，不当之处望诸君斧正。

“序贯分析”这门统计学分支在作假设检验时，事前不预估样本量，每抽一个样本作一次计算，直到算出一个明确结果为止。所谓明确结果，就是要么拒绝H0，要么接受H0。

而普通统计学一般都要事前估计一个样本量，比如50个，抽样全部完成后再进行计算，但事后往往会发现根本不需要这么多样本，前30个样本就已经可以作出拒绝 H0 的结论，后面 20 个纯属多余。

于是有一种观点认为，普通统计学相对于“序贯分析”来说是“固定样本量”的统计学，且很难避免样本浪费。

但我认为这完全是一个误会。

样本量影响的是，如果 H0 为假而拒绝 H0 的概率，即所谓检验的功效，样本量越大这个概率越大而已；这并不是说我们在抽样完成之前无法拒绝 H0 ，我们其实仍有一定概率拒绝 H0 。就是说，样本量并不是得到明确的检验结果必须满足的先决条件。

事实上普通统计学的参数假设检验都可以模仿序贯分析的做法：每抽一个样本作一次计算，如果拒绝 H0 ，检验结束；如果无法拒绝 H0 则继续抽样；事前预估的样本量可以给我们一个停止准则，如果抽满预估样本量仍未拒绝 H0 则接受 H0 ，然后结束检验。

“抽一个样本作一次计算”并不是序贯分析的专利。序贯分析的真正特点在于它从检验之初就把“拒绝域、接受域、继续抽样域”三者之间的两个临界值确定出来，普通统计学只能标出拒绝域的一个临界值，另外两域之间的临界值则是不明确的。序贯分析得出明确结论所需样本量较少，最主要是它采用似然比检验功效较高的原因，“抽一个样本作一次计算”对任何统计学都能起到避免样本浪费的作用。

人们之所以误会普通统计学就是“固定样本量的统计学”，这可能源自于统计学发展早期计算手段比较落后，抽一个样本计算一次，势必导致很多重复计算，在没有计算机的帮助下，这显然是十分繁重的体力劳动，还不如多抽几个样本一次性计算出结果省事。

Ysu2008 · 发表于 2018-2-5 03:03

计算成本高牺牲样本量，计算成本低则牺牲计算量。

coolboy · 发表于 2018-2-5 11:19

有的时候时间也很重要。若一次采样需要1天才能得到结果，那不如同时准备30个样本，一天就完成。要是采一个样本做一次，搞不好要二、三十天才能搞完。

Ysu2008 · 发表于 2018-2-5 20:45

coolboy 发表于 2018-2-5 03:19
有的时候时间也很重要。若一次采样需要1天才能得到结果，那不如同时准备30个样本，一天就完成。要是采一个 ...

啊对，还有时间成本。

		自动登录	找回密码
密码			注册

[讨论]事实上从来就没有所谓“固定样本容量”的统计学

点评