一段时间内事件发生次数,泊松分布

  |  

摘要: 泊松分布的推导,涉及到极限、母函数、微元法

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


泊松(1781-1840)

泊松分布是重要的一类离散型分布,若随机变量 $X$ 的取值为 $0, 1, 2, \cdots$,且概率分布为:

则称 $X$ 服从泊松分布,记为 $X \sim P(\lambda)$,这里 $\lambda > 0$ 为常数。

在业务场景中当随机变量 $X$ 表示在一定时间或空间内某个事件出现的次数时,往往考虑将 $X$ 建模为泊松分布。例如泊松分布适合描述在一定时间内某个交通路口的事故个数;某一服务设施在一定时间内到达的人数,机器出现的故障数,等等。当事件以固定的平均瞬时速率(密度) $\lambda$ 随机且独立地出现时,那么这个事件在单位时间(空间)内出现的次数就近似服从泊松分布 $P(\lambda)$。

泊松分布的一些特性如下:

  • 期望:$E(X) = \lambda$
  • 方差:$Var(X) = \lambda$
  • 特征函数:$\psi(X) = \exp{(\lambda(e^{it} - 1))}$

本文我们就从几个不同的角度推导出这个重要的离散型分布,不同的角度会涉及到不同的数学概念。从这个经典分布的推导过程,我们可以了解到很多数学工具的应用,比如分析学中的极限、物理学中的微元法、组合数学中的母函数等,值得推一下。

推导方式1:泊松定理

首先考虑二项分布。记一个事件 A 在一次试验中发生的概率为 $p$,将此试验独立重复 $n$ 次,记 $X$ 为 A 在这 n 次试验中发生的次数,则 $X$ 可以取 $0, 1, 2, \cdots, n$,通过组合数学方法可以得出:

该分布称为二项分布,记为 $X \sim B(n, p)$。

$X \sim B(n, p)$ 有两个关键点,一个是各次试验的条件是稳定的,这保证了 $p$ 在各次试验时保持不变;二是各次试验的独立性,满足这两条的多次试验称为伯努利试验。现实中很多现象近似符合这两个条件,例如工厂每天生产 n 个产品,工程的原材料质量、机器设备、工人操作水平在一段时间内大致保持稳定,且每件产品的合格与否与其它产品是否合格并无显著关联,则每日的废品数 $X$ 就大致服从二项分布。

有了二项分布之后,我们可以进一步考虑,在伯努利试验中,事件 A 出现的次数 $X \sim B(n, p)$,当重复次数 $n$ 很大而概率 $p$ 很小时,$P(X=i)$ 有近似公式,这就是由法国数学家泊松提出的泊松定理,这个近似公式就是泊松分布。定理内容如下:

在独立试验中,事件 A 在试验中出现的概率与试验总数 $n$ 有关,记为 $p_{n}$,$n$ 次试验中,事件 A 出现的次数记为 $X$,$X \sim B(n, p_{n})$。有:

记 $\lambda_{n} = np_{n}$,如果 $\lim\limits_{n\rightarrow\infty}\lambda_{n} = \lambda$,那么有:

泊松定理的证明过程就是从二项分布推出了泊松分布的过程。下面我们以极限和母函数两个角度来证明泊松定理。

证明1:极限

将 $\lim\limits_{n\rightarrow\infty}\lambda_{n} = \lambda$ 代入,有:

证明2:母函数

对于离散型分布,用母函数进行研究是一种方法。对于数列 $c_{0}, c_{1}, \cdots$,母函数的定义为 $G(x) = \sum\limits_{i=0}\limits^{\infty}c_{i}x^{i}$。母函数与数列之间一一对应。

在组合数学中,$c_{i}$ 为计数序列,母函数可以用于研究组合计数的问题。例如伯努利(1654~1705)通过 $(x + x^{2} + x^{3} + x^{4} + x^{5} + x^{6})^{m}$ 中 $x^{n}$ 的系数表示投 m 粒骰子出 n 点有几种方法。

如果 $c_{i}$ 表示离散型随机变量的概率的序列,记为 $P_{i} = P(X=i)$,那么用母函数 $G(x) = \sum\limits_{i=0}\limits^{\infty}P_{i}x^{i}$ 来研究离散型分布是很自然的想法。

对于二项分布 $X \sim B(n, p_{n})$,$P_{i} = \binom{n}{i}p_{n}^{i}(1-p_{n})^{n-i}$,于是:

由二项式定理,得到 $G(x) = (1 - p_{n} + p_{n}x)^{n}$。

于是:

将 $\lambda_{n} = np_{n}$, $\lim\limits_{n\rightarrow\infty}\lambda_{n} = \lambda$ 代入:

而 $e^{\lambda(x-1)}$ 正是泊松分布 $P^{‘}_{i} = \frac{\lambda^{i}}{i!}e^{-\lambda}$ 的母函数,推导如下:

于是 $\lim\limits_{n\rightarrow\infty}G(x) = G^{‘}(x)$,由于母函数与数列一一对应,可以得到待证的泊松定理:

推导方式2:微元法

前面的推导方式是先给出了泊松定理的结论,证明的过程就是从二项分布推出泊松分布的过程。这里我们从泊松分布的产生机制的角度考虑,在不知道结论的情况下,从二项分布推导出泊松分布。

我们经常遇到在随机时刻出现的某种事件,这些在随机时刻相继出现的事件所形成的序列,称为随机事件流

如果事件流具有平稳性、无后效性、稀疏性,称该事件流为泊松事件流(泊松流)。具体含义如下:

  • 平稳性指的是在任意时间区间内,事件发生 k 次的概率只依赖于区间长度,而与区间端点无关。
  • 无后效性表示在不重叠的时间段内,事件的发生是相互独立的。
  • 稀疏性是指如果时间区间充分小,事件出现两次或两次以上的概率可以忽略不计。

对于泊松流,在任意时间间隔 $(0, t)$ 内,事件出现的次数服从参数为 $\lambda t$ 的泊松分布,$\lambda$ 称为泊松流的强度。

设观察的时间区间为 $[0, 1)$,取一个很大的自然数 $n$,把时间段 $[0, 1)$ 分为等长的 $n$ 段:

基于泊松流的三个性质,我们做以下三个假设:

(1) 基于平稳性我们做假设:在每段 $l_{i}$ 内,恰好发生一个事件的概率,近似地与这段时间的长度 $\frac{1}{n}$ 成正比,记为 $\frac{\lambda}{n}$。

(2) 基于无后效性我们做假设:$l_{1}, \cdots, l_{n}$ 各个时间段是否发生事故是独立的。

(3) 基于稀疏性我们做假设:当 $n$ 很大也就是 $\frac{1}{n}$ 很小时,在 $l_{i}$ 这段时间内发生两次或更多事件是不可能的。

把在 $[0, 1)$ 时段内发生的事故数 $X$ 视为 $n$ 个小的时间段 $l_{1}, \cdots, l_{n}$ 内有事故发生的时段数,按前面的三条假设,$X \sim B(n, \frac{\lambda}{n})$,于是:

当 $n \rightarrow \infty$ 时:

因此:

也就是说当 $n \rightarrow \infty$ 时,$P(X=i) = \frac{1}{i!}\lambda^{i}e^{-\lambda}$,这正是泊松分布。

通过上述推导可以知道:若 $X \sim B(n, p)$,n 很大,p 很小,而 $np = \lambda$ 不太大时,X 的分布接近于泊松分布。

总结

本文从二项分布出发,推导出了我们熟知的泊松分布的概率密度函数。推导过程涉及到的数学知识包括极限、母函数、微元法等,并不高深,但都是非常经典的工具和思想。


Share