概率论最基础的内容

  |  

摘要: 概率率最基础的内容,常见的分布

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


现实世界的不确定性是普遍存在的,要描述不确定现象的规律,需要用到概率论所提供的理论和方法。

当不能获得总体数据而只有样本数据时,就只能根据样本信息来推断总体数据的特征。

这种推断的信息是不完全的,推断结果具有不确定性,因此推断统计是建立在概率论基础之上的。

本文简要梳理以下概率论中最基础的内容,概率的定义,性质;期望和方差的定义,性质;常见的离散型分布,二项分布,泊松分布;常见的连续型分布,均匀分布,指数分布,正态分布。

主要涉及以下内容:

  • 概率的定义
    • 古典定义
    • 统计定义
    • 主观定义
    • 公理化定义
  • 概率的性质
    • 加法法则
    • 乘法公式
    • 条件概率
    • 事件独立性
  • 离散型随机变量的概率分布
    • 二项分布
    • 泊松分布
  • 连续型随机变量的概率分布
    • 均匀分布
    • 指数分布
    • 正态分布
  • 数学期望
    • 定义
    • 性质
    • 常见分布的数学期望
  • 方差
    • 定义
    • 性质
    • 常见分布的方差

1 概率的定义

古典定义

具有以下特征的随机试验模型,称为古典概率模型。

  1. 试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个。
  2. 各试验结果出现的可能性相等,即所有基本事件的发生是等可能的。
  3. 试验所有可能出现的结果两两互不相容

某一事件A发生的概率为该事件所包含的基本事件个数 m 与样本空间所包含的基本事件个数 n 的比值,记为 P(A)

统计定义

在相同条件下进行 n 次重复试验,如果随机事件 A 发生的次数为 m,m/n 称为随机事件 A 发生的频率。随着 n 逐渐增大,随机事件发生的频率越来越接近某一数值 p,p 称为随机事件 A 的概率。

主观定义

有的随机事件的发生的可能性不能通过等可能事件个数来计算,也不能根据大量重复试验中该事件发生的频率来获得,此时需要应用主观概率。

古典概率和统计概率属于客观概率,它们的确定完全取决于对客观条件进行的理论分析,或者是大量重复试验的结果,不以个人的意志为转移。而主观概率的确定则很灵活,它依赖于个人的主观判断,不同的人对同一事件给出的概率值往往有一定差异。

公理化定义

1933 年,柯尔莫哥洛夫给出概率的公理化定义。

满足以下 3 个性质的事件发生可能性大小的度量为概率的公理化定义。

  • 非负性:对任意随机事件 A,都有 P(A) >= 0
  • 规范性:必然事件的概率为 1,$P(\Omega) = 1$
  • 可列可加性:随机事件 A1, A2, …, An, … 两两互不相容,则

2 概率的性质

概率的加法法则

  • 两个互斥事件之和的概率等于两个事件概率的和

例如一枚骰子,求掷出奇数或掷出 6 的概率。由于奇数和 6 是互斥的,因此可以将两个概率直接相加。

  • 任意两个随机事件,它们之和的概率为两个事件的概率之和减去两事件相交的概率

条件概率与乘法公式

  • 条件概率
  • 乘法公式
  • 事件的独立性

A 的发生与否不影响 B 的发生,也就是

于是由乘法公式得


3 离散型随机变量的概率分布

二项分布

Python代码: scipy.stats.binom.pmf

1
2
3
4
5
n = 10
p = 0.5
k = np.arange(0, 11) # 有 0 ~ 10 次正面朝上的可能
binomial = scipy.stats.binom.pmf(k, n, p)
print("0~10次正面朝上的概率分别为: {:.6f}".format(binomial))

泊松分布

Python代码: scipy.stats.poisson.pmf

1
2
3
4
rate = 2
n = np.arange(0, 11) # 有 0 ~ 10 次发生事故的可能
poisson = scipy.stats.poisson.pmf(n, rate)
print("发生4次事故的概率为: {:.6f}".format(poisson[4]))

4 连续型随机变量的概率分布

均匀分布

Python代码: scipy.stats.uniform.pdf(x, loc, scale)

loc 为 a,scale 为 b - a

1
2
3
4
5
a = 120
b = 140
k = 134.8
uniform = scipy.stats.uniform.pdf(k, a, b - a)
print("X={}的概率为: {:.6f}".format(k, uniform))

指数分布

Python代码: scipy.stats.expon.pdf(x, scale)

scale 是 lambda 的倒数。

1
2
3
x = np.arange(0, 11) # 寿命有 0 ~ 10 年 11 种可能
expon = scipy.stats.expon.pdf(x, scale=1/3)
print("0~10年的概率分别为: {}".format(expon))

正态分布

标准正态分布的 PDF 如下

Python代码: scipy.stats.norm.pdf(x, loc, scale)

loc 为 mu, scale 为 sigma

1
2
3
4
mu = 40
sigma = 4
k = 50.0
scipy.stats.norm.pdf(k, mu, sigma)

5 期望

定义

性质

a 是常数, X, Y 是随机变量

离散分布的数学期望

二项分布

Python代码: scipy.stats.binom.mean

1
scipy.stats.binom.mean(n, p, loc=0)

泊松分布

Python代码: scipy.stats.poisson.mean

1
2
scipy.stats.poisson.mean(mu, loc=0)
# mu 是 lambda 的值

连续分布的数学期望

均匀分布

Python代码: scipy.stats.randint.mean

1
scipy.stats.randint.mean(low, high, loc=1)

指数分布

Python代码: scipy.stats.expon.mean

1
2
scipy.stats.expon.mean(loc=0, scale=1)
# scale 是 lambda 的倒数

正态分布

Python代码: scipy.stats.norm.mean

1
2
scipy.stats.norm.mean(loc=0, scale=1)
# loc 是 mu 的值

6 方差

定义

如果 $E(X)$ 存在,且 $[X - E(X)]^{2}$ 也存在,则 X 的方差如下

性质

离散分布的方差

二项分布

Python代码: scipy.stats.binom.var

1
scipy.stats.binom.var(n, p, loc=0)

泊松分布

Python代码: scipy.stats.poisson.var

1
2
scipy.stats.poisson.var(mu, loc=0)
# mu 是 lambda 的值

连续分布的方差

均匀分布

Python代码: scipy.stats.randint.var

1
scipy.stats.randint.var(low, high, loc=1)

指数分布

Python代码: scipy.stats.expon.var

1
2
scipy.stats.expon.var(loc=0, scale=1)
# scale 是 lambda 的倒数

正态分布

Python代码: scipy.stats.norm.var

1
2
scipy.stats.norm.var(loc=0, scale=1)
# loc 是 mu 的值

Share