随机性中的秩序:6种常见数据概率分布

360影视 欧美动漫 2025-05-18 23:01 2

摘要:概率分布可以理解为是一个描述可能结果的“地图”,告诉你某个结果发生的可能性有多大,帮你看清楚在一堆可能性中哪些结果更常见,哪些结果比较少见。

概率分布可以理解为是一个描述可能结果的“地图”,告诉你某个结果发生的可能性有多大,帮你看清楚在一堆可能性中哪些结果更常见,哪些结果比较少见。

举个例子:你平时点的外卖,通常会在30分钟左右送到,偶尔也会更快或更慢。假设我们画出你历史上点过的外卖的送达时间概率分布图。图中显示:大多数的送达时间集中在平均值附近(约30分钟),极少数时候还会远早于或远超预期时间。(比如极端天气、或是小哥在途中见义勇为…)

图中展示的就是一个典型的正态分布。概率分布告诉我们,在一系列结果的可能性中,哪些结果更常见,哪些结果更少见。

这就是概率分布的概念——展示某种事件出现的可能性大小。

理解概率分布可以帮助我们在各种随机事件中找到规律,在不确定性中做出更好的预估和决策。比如在统计分析时根据数据分布选择适当的假设检验方法、在金融和保险市场通过了解数据的分布来评估和管理风险等等。

接下来我们一起看看几种日常生活中最常见的概率分布。

01

正态分布 (Normal Distribution)

这种对称的钟形曲线应该很眼熟了,它的特点是中间最高,两边逐渐降低。这就是我们身边最为常见的正态分布也称高斯分布)。

正态分布代表了一种普遍的规律:大多数事物都集中在一个平均值附近,越偏离这个中心的极端事件越相对稀少。比如人群的身高、体重、智商等特征往往接近正态分布。

英国著名的统计学家高尔顿设计了钉板实验来形象地展示正态分布:

想象一个木板上有很多小钉子,从顶部放下的小球会随机向左或向右移动,最终落在底部的容器里。随着小球数量增多,大多数小球会落在中间的容器里,少数会落到两边,形成一个“钟形曲线”,即正态分布。

这表明,虽然每个小球的路径是随机的,但结果并不完全无序。因为左右移动的概率相等,大多数小球最终会集中在中间位置。正态分布展示了这种现象—— 大多数结果集中在平均值附近,极端情况较少出现。

这大概也是自然的平衡状态的一种反映:万事万物趋于中庸。

为了更好地理解各种概率分布,我们经常使用图表来直观地展示概率密度函数(PDF,通常用来展示续数的分布)或概率质量函数(PMF,通常展示离散数据的分布)来观察不同分布的特性,比如数据集中在什么位置以及数据的分散程度。

正态分布的概率密度函数(PDF)由以下公式给出:

其中,μ是平均值(mean), σ是标准差(standard deviation)。

曲线的形状完全由均值μ和标准差σ控制。(以下展示了不同均值和方差的分布曲线)

68-95-99.7规则

在正态分布中:

68%的数据落在平均值加减一个标准差(μ±σ)范围内;

95%的数据落在平均值加减两个标准差(μ±2σ)范围内;

99.7%的数据落在平均值加减三个标准差(μ±3σ)范围内

在生产流程中,68-95-99.7规则经常用来判断流程稳定性。

如果某个部件的目标值偏离了平均值超过三个标准差,说明生产过程出了问题。举个例子,假设我们在生产线上罐装饮料,每罐饮料的目标容量是500ml,实际生产过程中存在一定微小误差。假设这些容量的误差服从正态分布:均值为500ml,标准差为5ml。

也就是说,当我们随机抽取一罐饮料,有68%的概率这罐饮料的容量会在500±5ml(495ml到505ml)之间。

通过采样和分析,如果大部分产品的容量都落在95%范围内(490ml到510ml),说明生产过程是稳定和可控的反之如果有较多产品超出这个范围,就需要重新校准设备或调整流程。

心极限定理(Central Limit Theorem)

中心极限定理是一条重要的统计学原则:当我们从总体中随机抽取多个独立且相同下的样本,这些样本平均值的分布会趋近于正态分布。

也就是说,不管原始数据的分布如何,随着样本数量的积累,最终都会趋向于一种有序和可预测性听起来是不是有点像“无论过程多么混乱,最后总会归于平静”的人生哲学)

比如赌彩公司的盈利机制就利用了中心极限定理,保证即使彩票中奖分布是离散的或不规则的,累加起来的总奖金分布却是平滑的正态分布,让彩票公司能够在面对小概率事件(如头奖爆发),整体上依然能够维持盈利。

02

伯努利分布(Bernoulli Distribution)

伯努利分布(Bernoulli Distribution)描述只有两个可能结果的随机试验。

抛硬币就是一个典型的伯努利试验,它的结果服从伯努利分布:每次抛掷硬币时,结果只有两种可能——正面或反面。伯努利分布也是所有二项分布的基础。

伯努利分布的数学表达:

其中p是成功的概率(0 ≤ p ≤ 1)。

伯努利分布在许多实际问题中都有应用,尤其是在那些可以简化为“成功-失败”的二元结果场景中:比如在生产线上检测产品质量,每个产品要么合格(成功)要么不合格(失败),每次检测就是一次伯努利试验。

03

二项分布(Binomial Distribution)

如前面所说,每次抛硬币都是独立的伯努利实验。那么二项分布就可以理解为反复抛硬币,可以看作是多次伯努利试验的结果。

二项分布(Binomial Distribution)是描述 n次独立相同的伯努利试验中成功次数的分布。

二项分布的概率质量函数(PMF)可以用来计算在n次试验中成功k次的概率,数学表达式为:

二项分布的参数包括实验次数 n和每次实验成功的概率p

举个例子,我们可以用伯努利分布描述用户是否点击广告的情况。某业务投放了一次广告给某个用户,用户的点击行为可以看作是一个伯努利试验(要么点击,要么不点击),该用户的点击行为服从伯努利分布,那么在n次广告的投放中(或是n个用户的点击事件),这些点击次数服从二项分布。

又比如某工厂每天生产100个产品,每个产品有5%的概率是次品,二项分布可以描述每天出现次品的数量分布;篮球运动员在一次训练中进行20次投篮,每次投中的概率为0.8,二项分布可以描述他投中次数的分布情况。

04

泊松分布(Poisson Distribution)

假设你注意到每天早高峰去咖啡店的顾客数量是随机的,有时候会突然来一大群人,有时候则没人光顾。

你开始好奇,在8点到9点这一小时内有25位顾客到达的概率是多少?这时泊松分布就能很好地回答这个问题。

泊松分布用于描述“在一定时间内发生了多少次事件”,特别适用于分析那些发生时间随机且独立的事件比如每小时有多少辆车通过某个路口。

泊松分布在现实中有广泛的应用,尤其是那些涉及随机事件发生次数的场景,比如:

电话客服中心的呼叫量如果某个客服中心平均每小时接到5个电话,那么在某个小时内接到k个电话的概率可以用泊松分布来估算;

交通事故的发生次数可以用泊松分布来预测下个月某路段可能发生的事故次数;

罕见事件的发生假设一家医院每天平均接收3个急诊病例,那么也可以用泊松分布来计算某天接收到2个或4个急诊病例的概率。

泊松分布的概率质量函数(PMF)定义如下:

其中X是随机变量,表示事件发生的次数。λ 是单位时间内事件发生的平均次数(即平均到达率)

随着λ值的增加,事件发生的次数的分布会向右移动,且分布的峰值也逐渐变宽。这意味着事件发生的次数增多且有更大的分散性。例如,当λ=9时,事件发生次数从0到10都有较大的概率,并且分布曲线的尾部比较长。

泊松分布广泛应用在资源配置优化方面的问题比如呼叫中心在不同时间段接到的电话数量可能会有很大波动。管理者可以根据泊松分布的概率预测判断在高峰期可能出现的电话需求来合理安排接线员的数量。

05

指数分布(ExponentialDistribution)

在统计学中,指数分布是一种重要的概率分布,用于描述时间间隔或事件间隔的概率。例如,假设你在某个公交车站等待公交车,公交车到达的时间间隔可以用指数分布来描述。指数分布广泛应用在生物学、工程学、物理学和金融学等领域。

回忆前面讲的泊松分布 ——

泊松分布描述的是在一个固定时间段内某个事件发生的次数。它关注的是事件的频率指数分布描述的是两个事件之间的时间间隔。它关注的是事件的间隔时间

简单来说,泊松分布是用来解决“在给定时间内,事件发生了多少次”的问题。比如在1周内接到多少次诈骗电话?在1年内,某个路段上发生了多少次交通事故?

指数分布则用来解决“两个连续事件之间的时间间隔有多长”的问题。比如两个电话呼叫之间的时间间隔是多少?两次交通事故之间的时间间隔有多长?

概率密度函数(PDF):

其中参数λ 代表着平均发生率。

指数分布经常用于运筹优化。比如通过使用排队论中的指数分布模型,银行可以分析客户到达的情况以及平均等待时长,了解系统负载情况从而调整服务资源。

06

帕累托分布(Pareto Distribution)

举个例子,我日常80%的时间都在穿衣柜中20%的那几件衣服… 这其实就是我们熟知的帕累托原则!(28原则)

28原则是指在很多现象中,少数重要的因素(约20%)往往贡献了大多数的结果(约80%)。这个概念最先意大利经济学家维尔弗雷多·帕累托(Vilfredo Pareto)提出。他发现,80%的财富掌握在20%的人手中,引出了帕累托分布。

帕累托分布28原则提供了数学基础和理论支持。

帕累托分布还具有长尾效应也就是说虽然大多数的事件或结果集中在“头部”(比如热门商品或常见事件),但还有一个很长的“尾部”,包含了大量的低频事件或小众商品。这些小众的部分虽然单个来看不太显眼,但总覆盖面也相当可观。

帕累托分布的概率密度函数(PDF):

其中:x是随机变量,表示某一资源的大小(如财富、收入)Xm是最小可能值(通常大于0);α是形状参数,决定分布的形状。

帕累托分布的期望值和方差取决于形状参数α的值。

帕累托分布帮助我们在分析和预测不均衡分布现象时更加准确,从而优化资源分配和业务决策。

以上就是6个数据分析中常见的概率分布。

数学家皮埃尔-西蒙·拉普拉斯说过:“概率论是常识的延伸。”看似随机的现象背后都有着一定的模式。概率分布的作用正是体现现实世界的运行规律,让我们能更理性地面对不确定性。

参考文献

[1]Towards Data Science. “Waiting Line Models.” , 2024, https://towardsdatascience.com/waiting-line-models-d65ac918b26c.

[2]Padilla, José. “Dice, Dragons and Getting Closer to Normal Distribution: The Centra Limit Theorem.” , Minitab, 27 June 2020. https://blog.minitab.com/dice-dragons-and-getting-closer-to-normal-distribution

[3]Durrett, Richard. . Cambridge University Press, 2019.

[4]Weisstein, Eric W. “Normal Distribution.” .

[5]Wikipedia Contributors. “Binomial Distribution.” . Available at: https://en.wikipedia.org/wiki/Binomial_distribution

来源:中科院物理所一点号

相关推荐