概率论最基础的内容

字数统计: 2k字 | 阅读时长: 8分

2022-01-07

摘要: 概率率最基础的内容，常见的分布

【对算法，数学，计算机感兴趣的同学，欢迎关注我哈，阅读更多原创文章】
我的网站：潮汐朝夕的生活实验室
我的公众号：算法题刷刷
我的知乎：潮汐朝夕
我的github：FennelDumplings
我的leetcode：FennelDumplings

现实世界的不确定性是普遍存在的，要描述不确定现象的规律，需要用到概率论所提供的理论和方法。

当不能获得总体数据而只有样本数据时，就只能根据样本信息来推断总体数据的特征。

这种推断的信息是不完全的，推断结果具有不确定性，因此推断统计是建立在概率论基础之上的。

本文简要梳理以下概率论中最基础的内容，概率的定义，性质；期望和方差的定义，性质；常见的离散型分布，二项分布，泊松分布；常见的连续型分布，均匀分布，指数分布，正态分布。

主要涉及以下内容：

概率的定义
- 古典定义
- 统计定义
- 主观定义
- 公理化定义
概率的性质
- 加法法则
- 乘法公式
- 条件概率
- 事件独立性
离散型随机变量的概率分布
- 二项分布
- 泊松分布
连续型随机变量的概率分布
- 均匀分布
- 指数分布
- 正态分布
数学期望
- 定义
- 性质
- 常见分布的数学期望
方差
- 定义
- 性质
- 常见分布的方差

1 概率的定义

古典定义

具有以下特征的随机试验模型，称为古典概率模型。

试验的所有可能结果只有有限个，即样本空间中的基本事件只有有限个。
各试验结果出现的可能性相等，即所有基本事件的发生是等可能的。
试验所有可能出现的结果两两互不相容

某一事件A发生的概率为该事件所包含的基本事件个数 m 与样本空间所包含的基本事件个数 n 的比值，记为 P(A)

统计定义

在相同条件下进行 n 次重复试验，如果随机事件 A 发生的次数为 m，m/n 称为随机事件 A 发生的频率。随着 n 逐渐增大，随机事件发生的频率越来越接近某一数值 p，p 称为随机事件 A 的概率。

主观定义

有的随机事件的发生的可能性不能通过等可能事件个数来计算，也不能根据大量重复试验中该事件发生的频率来获得，此时需要应用主观概率。

古典概率和统计概率属于客观概率，它们的确定完全取决于对客观条件进行的理论分析，或者是大量重复试验的结果，不以个人的意志为转移。而主观概率的确定则很灵活，它依赖于个人的主观判断，不同的人对同一事件给出的概率值往往有一定差异。

公理化定义

1933 年，柯尔莫哥洛夫给出概率的公理化定义。

满足以下 3 个性质的事件发生可能性大小的度量为概率的公理化定义。

非负性：对任意随机事件 A，都有 P(A) >= 0
规范性：必然事件的概率为 1，$P(\Omega) = 1$
可列可加性：随机事件 A1, A2, …, An, … 两两互不相容，则

$P(A1 \cup A2 \cup ... \cup An \cup ...) = P(A1) + P(A2) + ... + P(An) + ...$

2 概率的性质

概率的加法法则

两个互斥事件之和的概率等于两个事件概率的和

$P(A\cup B) = P(A) + P(B)$

例如一枚骰子，求掷出奇数或掷出 6 的概率。由于奇数和 6 是互斥的，因此可以将两个概率直接相加。

任意两个随机事件，它们之和的概率为两个事件的概率之和减去两事件相交的概率

$P(A\cup B) = P(A) + P(B) - P(A\cap B)$

条件概率与乘法公式

条件概率

$P(B|A) = \frac{P(AB)}{P(A)}, P(A) > 0$

乘法公式

$P(AB) = P(A)P(B|A) = P(B)P(A|B)$

事件的独立性

A 的发生与否不影响 B 的发生，也就是

$P(B|A) = P(B)$

于是由乘法公式得

$P(AB) = P(A)P(B)$

3 离散型随机变量的概率分布

二项分布

$X ～ B(n, p)$ $P(X=k) = \binom{n}{k}p^{k}q^{n-k}$

Python代码: scipy.stats.binom.pmf

n = 10
p = 0.5
k = np.arange(0, 11) # 有 0 ~ 10 次正面朝上的可能
binomial = scipy.stats.binom.pmf(k, n, p)
print("0~10次正面朝上的概率分别为: {:.6f}".format(binomial))

泊松分布

$X ～ Poi(\lambda)$ $P(X=k) = \frac{\lambda^{k}}{k!}e^{-\lambda}$

Python代码: scipy.stats.poisson.pmf

rate = 2
n = np.arange(0, 11) # 有 0 ~ 10 次发生事故的可能
poisson = scipy.stats.poisson.pmf(n, rate)
print("发生4次事故的概率为: {:.6f}".format(poisson[4]))

4 连续型随机变量的概率分布

均匀分布

$X ～ Uniform(a, b)$ $f(x) = \left\{ \begin{array}{**lr**} \frac{1}{b-a} \quad\quad x \in (a, b) \\ 0 \quad\quad x \notin (a, b) \\ \end{array} \right.$

Python代码: scipy.stats.uniform.pdf(x, loc, scale)

loc 为 a，scale 为 b - a

a = 120
b = 140
k = 134.8
uniform = scipy.stats.uniform.pdf(k, a, b - a)
print("X={}的概率为: {:.6f}".format(k, uniform))

指数分布

$X ～ \epsilon(\lambda)$ $f(x) = \left\{ \begin{array}{**lr**} \lambda e^{-\lambda x} \quad\quad x \geq 0 \\ 0 \quad\quad x < 0 \\ \end{array} \right.$

Python代码: scipy.stats.expon.pdf(x, scale)

scale 是 lambda 的倒数。

1
2
3

x = np.arange(0, 11) # 寿命有 0 ~ 10 年 11 种可能
expon = scipy.stats.expon.pdf(x, scale=1/3)
print("0~10年的概率分别为: {}".format(expon))

正态分布

$X ～ N(\mu, \sigma^{2})$ $f(x) = \frac{1}{\sqrt{2\pi \sigma^{2}}}exp[-\frac{(x - \mu)^{2}}{2\sigma^{2}}]$

标准正态分布的 PDF 如下

$\phi(x) = \frac{1}{\sqrt{2\pi}}exp[-\frac{x^{2}}{2}]$

Python代码: scipy.stats.norm.pdf(x, loc, scale)

loc 为 mu, scale 为 sigma

mu = 40
sigma = 4
k = 50.0
scipy.stats.norm.pdf(k, mu, sigma)

5 期望

定义

$E(X) = \sum\limits_{j}x_{j}p_{j} \\ E(X) = \int_{-\infty}^{\infty}xf(x)dx$

性质

a 是常数, X, Y 是随机变量

$E(a) = a \\ E(aX) = aE(X) \\ E(X+Y) = E(X) + E(Y) \\ E(XY) = E(X)E(Y), if X, Y 独立$

离散分布的数学期望

二项分布

$X ～ B(n, p)$ $E(X) = np$

Python代码: scipy.stats.binom.mean

1	scipy.stats.binom.mean(n, p, loc=0)

泊松分布

$X ～ Poi(\lambda)$ $E(X) = \lambda$

Python代码: scipy.stats.poisson.mean

1 2	scipy.stats.poisson.mean(mu, loc=0) # mu 是 lambda 的值

连续分布的数学期望

均匀分布

$X ～ Uniform(a, b)$ $E(X) = \frac{1}{b - a}$

Python代码: scipy.stats.randint.mean

1	scipy.stats.randint.mean(low, high, loc=1)

指数分布

$X ～ \epsilon(\lambda)$ $E(X) = \frac{1}{\lambda}$

Python代码: scipy.stats.expon.mean

1 2	scipy.stats.expon.mean(loc=0, scale=1) # scale 是 lambda 的倒数

正态分布

$X ～ N(\mu, \sigma^{2})$ $E(X) = \mu$

Python代码: scipy.stats.norm.mean

1 2	scipy.stats.norm.mean(loc=0, scale=1) # loc 是 mu 的值

6 方差

定义

如果 $E(X)$ 存在，且 $[X - E(X)]^{2}$ 也存在，则 X 的方差如下

$var(X) = E[X - E(X)]^{2}$

性质

$var(X) = E(X^{2}) - [E(X)]^{2}$

离散分布的方差

二项分布

$X ～ B(n, p)$ $var(X) = np(1 - p)$

Python代码: scipy.stats.binom.var

1	scipy.stats.binom.var(n, p, loc=0)

泊松分布

$X ～ Poi(\lambda)$ $var(X) = \lambda$

Python代码: scipy.stats.poisson.var

1 2	scipy.stats.poisson.var(mu, loc=0) # mu 是 lambda 的值

连续分布的方差

均匀分布

$X ～ Uniform(a, b)$ $var(X) = \frac{(b - a)^{2}}{12}$

Python代码: scipy.stats.randint.var

1	scipy.stats.randint.var(low, high, loc=1)

指数分布

$X ～ \epsilon(\lambda)$ $var(X) = \frac{1}{\lambda^{2}}$

Python代码: scipy.stats.expon.var

1 2	scipy.stats.expon.var(loc=0, scale=1) # scale 是 lambda 的倒数

正态分布

$X ～ N(\mu, \sigma^{2})$ $var(X) = \sigma^{2}$

Python代码: scipy.stats.norm.var

1 2	scipy.stats.norm.var(loc=0, scale=1) # loc 是 mu 的值