数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 579|回复: 0

数据直觉:至少一条数据偏离均值至少一倍标准差

[复制链接]
发表于 2024-10-13 19:10 | 显示全部楼层 |阅读模式
数据直觉:至少一条数据偏离均值至少一倍标准差

原创 潮汐朝夕 czx 算法题刷刷 2024 年 09 月 01 日 23:52 北京

在上一篇文章《数据直觉:任意数据集都很难有偏离均值多倍标准差的数据》中,我们简要介绍了数据集均值和标准差的性质,并且给出了一个数据直觉,即任意数据集中都很难出现偏离均值多倍标准差的数据。

本文我们围绕标准差,再给出一个数据直觉:即任意数据集中都至少有一条数据会偏离均值至少一倍标准差。由此可以看出,标准差是反映了数据集的很多信息的。

至少一条数据偏离均值至少一倍标准差



前面我们了解到偏离均值多倍标准差的数据非常少,而该定理又说明了至少还是有一部分数据的偏差超过了至少一倍标准差。这两方面的信息说明了数据点是如何在均值附近散布的。

数据集的标准差与总体标准差的估计量

前面我们推导了一些标准差的性质,咱谈的是给定数据集后,反映数据集本身的尺度信息的标准差,根据前面的一些性质的推导,我们知道标准差反映了数据集的很多信息。



在线计算数据集的均值和标准差

均值和标准差还有一个有用的特性是可以在线计算,很多时候我们不是一次性就得到了数据集的所有条目,而是分批获得的,因此我们得到的是按照某一顺序出现的数据,很多时候我们还不能存储这些数字。

这就意味着当我们看到 k 个条目后,就要马上把基于这 k 条数据的均值,标准差记录下来,后续再出现新的数据时,再对增量数据进行更新,于是我们在数据看板上监控到的是一个均值和标准差的变化曲线。



洞察数据集的其它聚合指标

通过前面的讨论,我们知道均值和标准差是洞察数据的关键聚合指标。那么想要通过聚合数据来洞察一个数据集,还有哪些其它可以参考的指标呢,下面罗列了一些常见的指标及其主要性质。

方差



中位数



四分位距



总结

本文我们讨论了关于标准差的另一个数据直觉,即至少一条数据偏离均值至少一倍标准差。此外我们介绍了一些其它的聚合指标,其中中位数和四分位距可以在存在异常值时作为均值和标准差的替代。

通常情况下,汇报均值和标准差是合理的,但如果均值和中位数有明显差异,或者标准差和四分位距有明显差异,那么最好将两套聚合指标同时汇报。

潮汐朝夕 czx

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-1 05:02 , Processed in 0.084481 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表