二项分布与泊松分布[原创chuna2.787528.xyz/helesheng]

一、伯努利试验与二项分布

伯努利试验是指n次重复一个相互独立的实验，实验只有两种结果：$A和\bar A $ （其中$P(A)=p ，P(\bar A）= 1-p = q$)

雅各布·伯努利

n重伯努利试验发生的次数为k的概率为：

\[P(X = k) = C^k_n p^k q^{n-k}\tag{1} \]

其中k为不大于n的非负整数。由于这个概率公式和二项式定理展开结果相同，因此被称为二项分布。
下图所示的是n=100次伯努利试验，成功率p=0.1时，成功次数的概率分布图：

图1

可以看到，二项分布的最大值出现在$k=np$的地方。
另外，利用二项式展开定理很容易可以证明：

\[\sum_{k=0}^{n} P(X = k) = \sum_{k=0}^{n} C^k_n p^k q^{n-k} = (p+q)^n = 1 \]

二项分布的期望和方差：
期望值： $E(X)=np$
方差： $D(X)=np(1-p)$
标准差： $σ=\sqrt{np(1-p)}$

二、泊松定理和泊松分布

当n较大，且概率p值较小（事件稀有）时，（1）式会快速的收敛到一个容易计算的式子：

\[\lim_{n \to \infty}P(X = k) = \lim_{n \to \infty} C^k_n p^k q^{n-k} = \frac{\lambda ^ k e^{-\lambda}}{k!}\tag{2} \]

其中：

\[\color{red} \lambda = np \tag{3} \]

(2)式收敛很快，只要n>10就可以非常准确。
（2）式对二项分布的毕竟被称为泊松（Poisson）定理，（3）式定义的$\color{red}\lambda$是泊松分布的唯一参数。后面还可以看到，泊松分布还有数字特征非常容易计算的优势。

西莫恩·泊松注意：使用泊松分布的前提有两个： 1. n较大 2. 概率p值较小二者缺一不可，例如抛硬币实验（p=0.5），用泊松分布来近似替代二项分布就不合适——即使抛的次数很多。

另外，定义符合（2）式分布的关系叫泊松分布。从下图所示的泊松分布图中可以发现它和二项分布差别确实不大。

图2 泊松分布的期望和方差都等于参数 $\lambda$：

期望值：$ E(X)=λ$

方差：$ D(X)=λ$

标准差：$ σ=\sqrt{λ}$

三、引入时间后的泊松分布

泊松分布的定义本来是进行n次不相关的伯努利试验，发生k次单次概率为p的事件A的概率。
如果将不相关的伯努利试验定义为在一个时间片t内发生事件A的概率（所有时间内发生事件的概率不变），而实验总时长为$n \times t$。

举例说明与时间相关的泊松分布问题：
假设一个地区年平均降雨天数为31，求该地区年降雨天数的概率分布。
解：把每天是否降雨看成一次伯努利试验，那么单日降雨的概率为

\[P(A)=\frac{31}{365}=0.085=p \tag{4} \]

伯努利试验的次数n显然为365。$\lambda = np = 31$则降雨天数的分布函数为：

\[\begin{align*} P(X=k) &=\frac{\lambda ^ k e^{-\lambda}}{k!}\\ &=\frac{31 ^ k e^{-31}}{k!}\\ \end{align*} \]

其分布图如下所示：

图3 当然，上式中时间片t的长度很自然的使用1天，当然也可以使用1小时（或1星期等其他值），但（4）式中的概率p不会变。但$\lambda$将变为： $$ \lambda = n \times p = (365\cdot 24) \times p (\color{red}{p为1小时内发生事件A的概率} ) $$ 此时泊松分布的问题将转换为：假设一个地区一年内的降雨概率为0.085（即$\frac{31}{365}$），求该地区年降雨小时数的概率分布。也就是说，当我们定义的时间片长度$ \Delta T $不确定时，$\lambda $将不一样，造成计算的混淆。

为解决这个问题，转换一下(3)式定义$\lambda$的思路，将$\lambda$定义为单位时间$\Delta T$内A事件发生的次数（A发生的速率），所有实验的时长定义为t个单位时间$\Delta T$。则（2）式给出的概率分布式中的$\lambda$将变为$\lambda t$，（2）式改写为：

\[P(X=k) = \frac{(\lambda t)^ k e^{-\lambda t}}{k!}\tag{5} \]

如果要套用（5）式解决一个通信问题，$\lambda$就是单位时间$\Delta T$内发生通信的概率，取$\Delta T$为1秒，$\lambda$就是每秒通信的数据量（数据率），而t就是要考察的时间片了多少秒（t可以小于1）。（5）式计算的结果是在t秒内通信数据量为k的概率。
泊松分布在通信中最常见的应用是用于估算，在通信速率为$\lambda$的条件下，时长t内，有发生通信事件的概率为：

\[P(t时长内发生过通信) = 1 - e^{-\lambda t} （即全概率1，减去发生0次通信的概率） \]

最后，(5)式给出的泊松分布的期望和方差也应做相应调整：

期望值： $E(X)=λt$
方差： $D(X)=λt$
标准差： $σ=\sqrt{λt}$

posted @ 2025-12-29 10:37 helesheng 阅读(51) 评论(0) 收藏举报

刷新页面返回顶部

一个电子爱好者的工作记录

二项分布与泊松分布[原创chuna2.787528.xyz/helesheng]

一、伯努利试验与二项分布

二、泊松定理和泊松分布

三、引入时间后的泊松分布

公告