二项分布与泊松分布[原创chuna2.787528.xyz/helesheng]

一、伯努利试验与二项分布

伯努利试验是指n次重复一个相互独立的实验,实验只有两种结果:$A和\bar A $ (其中\(P(A)=p ,P(\bar A)= 1-p = q\))

雅各布·伯努利

n重伯努利试验发生的次数为k的概率为:

\[P(X = k) = C^k_n p^k q^{n-k}\tag{1} \]

其中k为不大于n的非负整数。由于这个概率公式和二项式定理展开结果相同,因此被称为二项分布。
下图所示的是n=100次伯努利试验,成功率p=0.1时,成功次数的概率分布图:

图1

可以看到,二项分布的最大值出现在\(k=np\)的地方。
另外,利用二项式展开定理很容易可以证明:

\[\sum_{k=0}^{n} P(X = k) = \sum_{k=0}^{n} C^k_n p^k q^{n-k} = (p+q)^n = 1 \]

二项分布的期望和方差:
期望值: \(E(X)=np\)
方差: \(D(X)=np(1-p)\)
标准差: \(σ=\sqrt{np(1-p)}\)

二、泊松定理和泊松分布

当n较大,且概率p值较小(事件稀有)时,(1)式会快速的收敛到一个容易计算的式子:

\[\lim_{n \to \infty}P(X = k) = \lim_{n \to \infty} C^k_n p^k q^{n-k} = \frac{\lambda ^ k e^{-\lambda}}{k!}\tag{2} \]

其中:

\[\color{red} \lambda = np \tag{3} \]

(2)式收敛很快,只要n>10就可以非常准确。
(2)式对二项分布的毕竟被称为泊松(Poisson)定理,(3)式定义的\(\color{red}\lambda\)是泊松分布的唯一参数。后面还可以看到,泊松分布还有数字特征非常容易计算的优势。

西莫恩·泊松
注意:使用泊松分布的前提有两个: 1. n较大 2. 概率p值较小 二者缺一不可,例如抛硬币实验(p=0.5),用泊松分布来近似替代二项分布就不合适——即使抛的次数很多。

另外,定义符合(2)式分布的关系叫泊松分布。从下图所示的泊松分布图中可以发现它和二项分布差别确实不大。

图2
泊松分布的期望和方差都等于参数 $\lambda$:

期望值:$ E(X)=λ$

方差:$ D(X)=λ$

标准差:$ σ=\sqrt{λ}$

三、引入时间后的泊松分布

泊松分布的定义本来是进行n次不相关的伯努利试验,发生k次单次概率为p的事件A的概率。
如果将不相关的伯努利试验定义为在一个时间片t内发生事件A的概率(所有时间内发生事件的概率不变),而实验总时长为\(n \times t\)

举例说明与时间相关的泊松分布问题:
假设一个地区年平均降雨天数为31,求该地区年降雨天数的概率分布。
解:把每天是否降雨看成一次伯努利试验,那么单日降雨的概率为

\[P(A)=\frac{31}{365}=0.085=p \tag{4} \]

伯努利试验的次数n显然为365。\(\lambda = np = 31\)则降雨天数的分布函数为:

\[\begin{align*} P(X=k) &=\frac{\lambda ^ k e^{-\lambda}}{k!}\\ &=\frac{31 ^ k e^{-31}}{k!}\\ \end{align*} \]

其分布图如下所示:

图3
当然,上式中时间片t的长度很自然的使用1天,当然也可以使用1小时(或1星期等其他值),但(4)式中的概率p不会变。但$\lambda$将变为: $$ \lambda = n \times p = (365\cdot 24) \times p (\color{red}{p为1小时内发生事件A的概率} ) $$ 此时泊松分布的问题将转换为: 假设一个地区一年内的降雨概率为0.085(即$\frac{31}{365}$),求该地区年降雨小时数的概率分布。 也就是说,当我们定义的时间片长度$ \Delta T $不确定时,$\lambda $将不一样,造成计算的混淆。

为解决这个问题,转换一下(3)式定义\(\lambda\)的思路,将\(\lambda\)定义为单位时间\(\Delta T\)内A事件发生的次数(A发生的速率),所有实验的时长定义为t个单位时间\(\Delta T\)。则(2)式给出的概率分布式中的\(\lambda\)将变为\(\lambda t\),(2)式改写为:

\[P(X=k) = \frac{(\lambda t)^ k e^{-\lambda t}}{k!}\tag{5} \]

如果要套用(5)式解决一个通信问题,\(\lambda\)就是单位时间\(\Delta T\)内发生通信的概率,取\(\Delta T\)为1秒,\(\lambda\)就是每秒通信的数据量(数据率),而t就是要考察的时间片了多少秒(t可以小于1)。(5)式计算的结果是在t秒内通信数据量为k的概率。
泊松分布在通信中最常见的应用是用于估算,在通信速率为\(\lambda\)的条件下,时长t内,有发生通信事件的概率为:

\[P(t时长内发生过通信) = 1 - e^{-\lambda t} (即全概率1,减去发生0次通信的概率) \]

最后,(5)式给出的泊松分布的期望和方差也应做相应调整:

期望值: \(E(X)=λt\)
方差: \(D(X)=λt\)
标准差: \(σ=\sqrt{λt}\)

posted @ 2025-12-29 10:37  helesheng  阅读(51)  评论(0)    收藏  举报