频率派和贝叶斯派

  |  

摘要: 频率派和贝叶斯派的区别和联系。

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


在机器学习中,我们把概率引入进来是比较自然的事情,本文我们探讨一下频率派和贝叶斯派的区别和联系。


问题抽象

$X = (x_{1}, x_{2}, …, x_{N})^{T}_{N \times p}$ 为数据,N 个样本,每个样本有 p 个特征。展开如下

假设数据服从概率模型 $p(x|\theta)$,$\theta$ 为参数,如下

假设每个样本 $x_{i}$ 都是 i.i.d. 且服从 $p(x_{i}|\theta)$,于是

频率派

频率派认为参数 $\theta$ 是未知的常量,数据是随机变量,通过数据对参数进行估计,最常用的是最大似然估计

其中

贝叶斯派

贝叶斯派认为参数 $\theta$ 是随机变量,服从某个分布,称为先验分布

通过贝叶斯定理,把参数的先验和后验用似然联系起来。

其中 $P(X|\theta)$ 为似然,$p(\theta)$ 为先验,$P(X)$ 为一个积分,如下

要进行参数估计的话,我们可以引入最大后验概率估计 MAP,它与最大似然概率是类似的

MAP 仅仅是进行参数估计,还不是标准的贝叶斯方法。

标准的贝叶斯方法要求贝叶斯估计,也就是要实打实的求出后验分布 $p(\theta|X)$。

有了后验分布之后,我们就可以引入贝叶斯预测:已知 N 个数据 X,来了一个新数据 $\widetilde{x}$,求 $p(x|X)$

此时 X, $\widetilde{x}$, $\theta$ 的关系如下

这样 X 和 $\widetilde{x}$ 的关系就解构成了 X 与 $\theta$ 的关系和 $\theta$ 与 $\widetilde{x}$ 的关系,于是可以通过边缘概率展开

上面的最后一步推导用到了 x 和 X 满足 i.i.d. 的条件,具体推导如下

我们可以看到贝叶斯预测要求的积分中是需要后验分布 $p(\theta|X)$ 的。

这个积分是要在整个参数空间中积分的,计算非常复杂,因此又引申出很多新的计算方法。

总结

从贝叶斯角度发展出的模型是概率图模型,本质上是求积分,解析解求不出来可以用数值解,例如 MCMC。

从频率派的角度发展出的模型是统计机器学习,本质上是优化问题,要先设计模型(概率/非概率,生成/判别),然后设计 loss 函数,最后设计优化算法。


Share