正态分布太好用了,以至于人们开始滥用它,甚至引发全球金融危机

360影视 欧美动漫 2025-03-19 06:50 4

摘要:我们总是喜欢寻找规律,追求秩序,渴望事物可以被简单归类、精确计算。科学发展到今天,统计学更是让人产生了一种错觉:数据有序、世界可测、未来可控。但事实呢?多数人都错得离谱。

我们总是喜欢寻找规律,追求秩序,渴望事物可以被简单归类、精确计算。科学发展到今天,统计学更是让人产生了一种错觉:数据有序、世界可测、未来可控。但事实呢?多数人都错得离谱。

统计学教材的第一页,几乎都会写着它的名字:正态分布(Normal Distribution)。

为什么?因为它简单。只要两个参数——均值μ、标准差σ,就能描述一切。这条钟形曲线,描述了人的身高、考试成绩、误差分布,甚至还和爱因斯坦的布朗运动理论挂上了钩。数学上,它优雅得可怕,概率积分的计算令人着迷,甚至还能让π这种圆的常数莫名其妙地出现在概率公式里。

再加上中央极限定理的助攻,只要数据量足够大,哪怕一开始根本不是正态分布,取了多个样本的均值之后,神奇的钟形曲线就又出现了。这种数学上的“普适性”使得它成为科学界、工业界、金融界最常见的概率分布模型。

但问题也出在这里。正态分布太好用了,以至于人们开始滥用它,甚至在完全不合适的场合强行套用,导致无数错误决策,甚至引发全球金融危机。

如果世界真是由无数独立、微小的因素构成的,正态分布的确是合理的。但现实并非如此。自然界中,很多变量并不遵守正态分布。人类社会的运行,商业竞争、财富分配、战争冲突——它们根本不符合钟形曲线的逻辑。

意大利经济学家帕累托早在上世纪初就发现,社会财富的分布呈现明显的不均衡:20%的人掌握80%的财富。这就是著名的“二八法则”。

这并非偶然,而是符合幂律分布的特征。幂律分布的最大特点,就是“头重尾长”。也就是说,大部分现象集中在小范围内,而极端情况出现的概率远比正态分布预测的高得多。互联网流量、城市人口、股票市场波动,甚至自然灾害的破坏力——无一例外。

根本原因是,这个世界是高度关联的。

正态分布的适用条件是独立性,即每个因素互不影响。但现实世界,特别是人类社会,不可能独立。信息传播、市场竞争、社交网络、经济活动,全都高度相关,一个人的决策往往会影响另一个人的行为。

一旦变量之间存在反馈机制,哪怕一开始是随机的,最终也会演变成幂律分布。

最典型的例子就是互联网流量分布。一个新网站刚上线时,访问量可能接近随机。但一旦某个网站获得了更多用户,就更容易被推荐,进一步吸引更多人关注。这种“马太效应”导致极少数网站吸引了大部分流量,而绝大多数网站的访问量少得可怜。

金融市场也是如此。传统经济学假设市场是理性的,股价波动符合正态分布。但实际上,大量研究表明,市场的涨跌幅更符合幂律分布。这也意味着,市场崩盘的可能性远远高于传统金融模型的预测。

2008年次贷危机前,很多金融模型假设股市跌幅不会超过某个“标准差”,认为极端事件是几乎不可能发生的。结果雷曼兄弟破产,美股崩盘,全球经济进入衰退。幂律分布的“重尾效应”一次次地让市场猝不及防。

为何正态分布能在科学界一统江湖?因为它符合人类的思维习惯。我们喜欢平均值,认为它能代表“典型情况”。但在幂律分布的世界里,平均值毫无意义。

举个极端的例子:如果让全球最富有的十个人和普通人一起统计平均财富,结果会显示“每个人都有几百亿美元”。这显然是荒谬的。

同样,计算一个国家的“平均工资”,往往会得出一个远高于大多数人实际收入的数值。因为少数人的超高收入拉高了均值,而大部分人根本没分享到这种财富。

更致命的是,正态分布给人一种“世界是稳定的”错觉。如果变量服从正态分布,那意味着极端事件的概率极低。例如,在正态分布中,5个标准差之外的事件几乎不可能发生。但现实世界呢?金融市场崩盘、超级火山爆发、黑天鹅事件,这些极端情况并不罕见。

2001年“911”袭击、2008年金融危机、2020年新冠疫情,每一次全球性冲击事件,都是金融模型预测不到的。因为这些模型依赖的正态分布根本不适用于现实世界。

现实世界的概率分布,比数学教科书复杂得多。有些数据看起来像正态分布,但仔细分析,其实是对数正态分布。也就是说,数据的对数值才符合正态分布,而原始数据是偏态的。

有些数据是泊松分布,比如排队系统、地震发生次数。有些数据符合幂律分布,比如股市波动、财富分布。还有很多数据分布根本不属于任何一种经典统计模型,而是混合分布、多重幂律、分形结构。简单归类、粗暴建模,在数学上可能成立,在现实世界中却可能是灾难。

科学追求的是简洁的理论,但世界往往是不规则的。正态分布之所以流行,不仅是因为数学的优雅,更是因为人的懒惰。它简单、易用,可以让人快速得出结论。但科学并不等于简单,统计模型如果不能准确描述现实,那它再优雅也只是自欺欺人。

来源:老胡科学

相关推荐