两列数据的相关性和独立性的度量

  |  

摘要: 两列数据的相关性和独立性

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


$1 关联度量

给定两个随机变量 X, Y,如何判断这两个随机变量是否相互独立。

首先我们看一下 X 与 Y 的关联性(Association),我们记这个关联性的度量为 $\rho(X, y)$

$\rho(X, Y)$ 需要有一个基本的性质,如下

也就是说如果 X, Y 是独立的随机变量,那么它们的关联性的度量为零。如果连这一条都不满足的话,则这种关联度量没有什么意义。

反过来看,如果两个随机变量 X, Y 的关联度量为 0,是不能推出 X, Y 独立的。

强关联性质

但是有一类关联是可以从两个随机变量 X, Y 的关联度量为 0 退出 X, Y 独立的,这种性质称为强关联性质

我们肯定希望我们的关联度量 $\rho(X, Y)$ 是满足强关联性质的。

除了强关联性质,关联度量还有一些其它性质

鲁棒性

鲁棒性的意思是说,如果数据中有离群值,它会不会影响关联性,即关联性对离群值是否敏感。

计算成本

计算成本就是计算速度是否快。如果计算速度很慢,那么计算成本就很高。

置信区间

关联两有没有一个抽样分布,抽样分布对应的置信区间在做推理或检验的时候是需要的。

基于以上这些性质,我们看一些主流的关联度量。


$2 主流的关联度量

1. Pearson

Person 相关系数不是强关联的,也不具备鲁棒性,但是它计算很快,并且有置信区间。

2. Kendall’s tau

Kendall’s tau 等级相关系数用于反映分类变量相关性的指标。适用于两个分类变量均为有序分类的情况。

Kendall’s tau 不是强关联的,但是它是基于 rank 的,因此对 outlier 就比较稳健。

3. Distance correlation (Dcor)

Distance correlation (Dcor) 距离相关系数,具有强关联性质,但是不具备鲁棒性,计算比较慢。

4. HSIC

希尔伯特-施密特独立性指标(Hilbert-Schmidt independence criterion, HSIC),与互信息一样,可以用来衡量两个变量的独立性。

它是基于 kernel 的一个方法,它具有强关联性质,计算也不是很慢。


Share