数据直觉:至少一条数据偏离均值至少一倍标准差

  |  

摘要: 对任意数据集,至少有一条数据偏离均值至少一倍标准差

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


在上一篇文章 数据直觉:任意数据集都很难有偏离均值多倍标准差的数据 中,我们简要介绍了数据集均值和标准差的性质,并且给出了一个数据直觉,即任意数据集中都很难出现偏离均值多倍标准差的数据。

本文我们围绕标准差,再给出一个数据直觉:即任意数据集中都至少有一条数据会偏离均值至少一倍标准差。由此可以看出,标准差是反映了数据集的很多信息的。

至少一条数据偏离均值至少一倍标准差

定理

证明

由标准差的定义,$\mathrm{std}(X) = \sqrt{\frac{1}{N}\sum\limits_{i=1}\limits^{N}(X_{i}-\mathrm{mean(X)})^{2}}$,变形后得:

另一方面,通过放缩法有:

带入后得:

$\Box$

前面我们了解到偏离均值多倍标准差的数据非常少,而该定理又说明了至少还是有一部分数据的偏差超过了至少一倍标准差。这两方面的信息说明了数据点是如何在均值附近散布的。

数据集的标准差与总体标准差的估计量

前面我们推导了一些标准差的性质,咱谈的是给定数据集后,反映数据集本身的尺度信息的标准差,根据前面的一些性质的推导,我们知道标准差反映了数据集的很多信息。

在业务中我们还会遇到一个标准差,是这样定义的:

此处的系数变成了 $\frac{1}{N-1}$,如果将数据集视为一个更大的数据集的一个抽样,用该数据集作为样本去估计总体的标准差时,用 $\frac{1}{N-1}$ 的公式给出额数字会稍好一些,因此 $S$ 称为样本标准差。

关于 $S$ 作为统计量的无偏性的推导,可以参考数理统计中矩估计这一块内容。

在线计算数据集的均值和标准差

均值和标准差还有一个有用的特性是可以在线计算,很多时候我们不是一次性就得到了数据集的所有条目,而是分批获得的,因此我们得到的是按照某一顺序出现的数据,很多时候我们还不能存储这些数字。

这就意味着当我们看到 $k$ 个条目后,就要马上把基于这 $k$ 条数据的均值,标准差记录下来,后续再出现新的数据时,再对增量数据进行更新,于是我们在数据看板上监控到的是一个均值和标准差的变化曲线。

记前 $k$ 条数据的均值为 $\hat{\mu}_{k}$,由和式 $\sum\limits_{i=1}\limits^{k+1}X_{i} = \sum\limits_{i=1}\limits^{k}X_{i} + X_{k+1}$,可以得到 $\hat{\mu}_{k}$ 的以下递推关系:

类似地,在看到 $k$ 个条目后,可以基于这 $k$ 个元素计算标准差 $\hat{\sigma}_{k}$,后续再新看到数据 $x_{k+1}$ 时,可以根据增量数据更新标准差:

洞察数据集的其它聚合指标

通过前面的讨论,我们知道均值和标准差是洞察数据的关键聚合指标。那么想要通过聚合数据来洞察一个数据集,还有哪些其它可以参考的指标呢,下面罗列了一些常见的指标及其主要性质。

方差

将数据条目全都用均值替换的话,会造成的均方误差是多少,这个值就是方差。下面两条性质与标准差类似。

(1) 平移数据不影响方差

(2) 缩放数据会缩放方差,并且缩放倍数是平方级的

上面的性质(2)是方差与标准差的一个重要区别,标准差与原始数据的单位是相同的,而方差是标准差的平方,与原始数据的单位不一样,这会使得我们通过方差来感知数据不如标准差那么直观。

中位数

使用均值的一个比较明显的问题是,它会受到极端值,或者异常值的强烈影响。出现异常值的一个原因是数据条目很少但变化很大,另一个原因是数据记录错误。

一个比较简单的替代均值的方法是中位数。数据集的中位数是指对数据点进行排序后,处于中间位置的点,如果数据集长度为偶数,则取中间两个数的平均值。记为 $\mathrm{median(X)}$。

通过上述定义可以发现,这也是一个估计数据集在数轴上位置的方法,因此也是一个位置参数,回忆均值的性质:平移数据集,均值也会平移;缩放数据集,均值也会缩放。中位数也有类似的性质。

(1) 平移数据集,中位数也平移

(2) 缩放数据集,中位数也缩放

四分位距

异常值在任何一个数据集中都是不受待见的,如果有异常值存在,绘制直方图就会比较困难。

前面我们讨论了,当有异常值的时候,可以用中位数作为未知参数来替代均值。一个自然的问题是尺度参数怎么处理。不幸的是,异常值也会显著影响标准差。

这里介绍一个首异常值影响较小的尺度参数,四分位距。为了定义清楚四分位距,先要定义百分位数和四分位数。

百分位数:第 $k$ 百分位数为使得数据集中 $k\%$ 的数小于等于的值。记为 $\mathrm{percentile(X, k)}$。

四分位数:数据集的第一四分位数为使得数据集中 $25\%$ 的数小于等于的值,即 $\mathrm{percentile(X, 25)}$、第二四分位数为使得数据集中 $50\%$ 的数小于等于的值,即 $\mathrm{percentile(X, 50)}$、第三四分位数为使得数据集中 $75\%$ 的数小于等于的值,即 $\mathrm{percentile(X, 75)}$。

有了百分位数和四分位数,可以定义四分位距,如下:

与标准差类似,四分位距给出了数据集宽度的一个估计,也可以理解为给出了数据偏离均值尺度的估计,并且在存在异常值时表现也很好。

前面我们讨论过,标准差的重要性质是,如果平移数据集,标准差不受影响;缩放数据集,标准差也会缩放,四分位距也具有这样的性质。

(1) 平移数据集,四分位距不受影响

(1) 缩放数据集,四分位距也缩放

对于多数数据集,四分位距倾向于比标准差稍大,不用理论上比较各种估计方法的性能的时候,这种差距在业务中往往没有关系。

总结

本文我们讨论了关于标准差的另一个数据直觉,即至少一条数据偏离均值至少一倍标准差。此外我们介绍了一些其它的聚合指标,其中中位数和四分位距可以在存在异常值时作为均值和标准差的替代。

通常情况下,汇报均值和标准差是合理的,但如果均值和中位数有明显差异,或者标准差和四分位距有明显差异,那么最好将两套聚合指标同时汇报。


Share