正态分布为什么常见?

作者: 阮一峰

日期: 2017年8月 2日

珠峰培训

统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。

以前,我认为中间状态是事物的常态,过高和过低都属于少数,这导致了正态分布的普遍性。最近,读到了 John D. Cook 的文章,才知道我的这种想法是错的。

正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。

"多个独立统计量的和的平均值,符合正态分布。"

上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)

许多事物都受到多种因素的影响,这导致了正态分布的常见。

读到这里,读者可能马上就会提出一个问题:正态分布是对称的(高个子与矮个子的比例相同),但是很多真实世界的分布是不对称的。

比如,财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍),远远超出穷人的贫穷程度(平均值的十分之一就是赤贫了),即财富分布曲线有右侧的长尾。相比来说,身高的差异就小得多,最高和最矮的人与平均身高的差距,都在30%多。

这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?

原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。一个人是否能够挣大钱,由多种因素决定:

  • 家庭
  • 教育
  • 运气
  • 工作
  • ...

这些因素都不是独立的,会彼此加强。如果出生在上层家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会,反之亦然。也就是说,这不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。

统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution),即x的对数值log(x)满足正态分布。

这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现长尾。

参考链接

(完)

一灯学堂

优达学城

留言(26条)

"原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。" -- 难怪富人越富,穷人越穷。

本文中所说的那种对称的正态分布应该是标准正态分布

正态分布好像是高中的内容吧,都忘记完了!

看统计书没明白,咋看你博客一下就懂了?

感谢阮老师,简单易懂!不过要是能再深入讲一下中心极限定理就好了。

———————————————————
有个小miss:

与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,为000)

这里应该是“宽度为90000”?

谢谢指出,已经更正。

引用PeterParker的发言:

本文中所说的那种对称的正态分布应该是标准正态分布

不……正太分布就是以μ为对称轴对称的,标准是指的μ为0, σ为1

正态分布为什么常见?真正原因是中心极限定理

这种说法只是把「正太分布」的解释转化为「中心极限定理」吧,实际上「为什么会有中心极限定理」还是没有解释。
我还是觉得你之前的想法是对的,至少是一种中心极限定理的解释。

对的,所以说,判断社会或者某平台是否真的公平竞争的标准,看最后的结果是否符合正态分布。

嘿嘿,还要加一句,为什么各个因素相互影响最后结果不是加法而是乘法呢?
因为,正反馈,各个因素构成循环,在多次循环之后表现出的结果是倍数,其实是累加过程,也就是积分嘛。

引用PeterParker的发言:

本文中所说的那种对称的正态分布应该是标准正态分布

均值为0,标准差为1的才是标准正太分布。正太分布都是对称的,不对称的是偏态分布

讲的不错,点个赞

正态分布里有自然对数的底,以及圆周率。这些数学常数很有可能是宇宙的框架的基础之一。

对数正太分布是否可以再通俗点呢,看图我没看大明白,可能对数我忘光了哈哈,不过还是感谢阮大其他讲的非常通俗易懂

第二个参考链接与第一个雷同了。

引用szpzs的发言:

"原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。" -- 难怪富人越富,穷人越穷。

这个只是结果,并不是原因

正反馈打破正态分布

正太分布以前看不太懂,今天在你这看懂了,很直观。

男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。

-------------------------------------------------------------

这句话显然是错误,统计学家全是骗子、弱智。

比如男女身高。某时刻1000个人,假如这1000个人符合正太分布;考察下一时刻,多了一个人,1001个人,这1001个人的身高也符合正太分布吗?显然不是。

基因的遗传结果的统计学概率大概都是这样。

引用业余草的发言:

正态分布好像是高中的内容吧,都忘记完了!

不知道阁下的年龄 我是2007年上的大学,记得正态分布是概率论里面讲的吧? 记错了的话讲指正。

引用王晓东的发言:


不知道阁下的年龄
我是2007年上的大学,记得正态分布是概率论里面讲的吧?
记错了的话讲指正。


江苏的话高中就学了

问个问题,为什么男女一起的身高不符合正态分布呢?性别不也是一个影响因素吗?

其实也可以从最大熵的角度去理解。在二阶矩一定的情况下,正态分布的熵是最大的,由于自然界有熵增的规律,正态分布自然也就常见了

中心极限定理不是说 不管样本个体本身是什么分布 相同数量的样本均值呈现分布最终接近于正态分布。 主要不是指的是sampling distribution of sampling mean嘛?跟文章里讲的中心极限定理的定义貌似是两件事情?谁来解释一下

您讲的真好

我要发表看法

«-必填

«-必填,不公开

«-我信任你,不会填写广告链接