很有意思的“正态分布”解释

2024-05-04 01:42

1. 很有意思的“正态分布”解释

 想要了解更多数据分析的内容,可以看作者主页   https://www.zhihu.com/column/houzi 
   假设你老妈挺操心你单身狗的生活,怕你孤独而死。为了给你寻找优质的相亲对象,就把你的照片放到了相亲网站上。   艾玛,这可好一下子吸引来200多个人留言,要与你“私定终身”。
   老妈可谓是王母娘娘下凡,为了提高筛选效率,于是乎就建了一个微信群,让所有人报一下自己准确的身高。
   幸亏老妈当年干过些简单的数据统计工作。她以5厘米为单位,数一数每一段5厘米各有多少人。接着用身高为横轴,人数为纵轴,画了下面这张图。
    仔细看这张图,你和老妈发现一个惊人的秘密:这张图形状是中间高,两边低,长得像一只倒扣的钟。 
                                           实际上人的身高就是符合正态分布的。   2017年我国18岁及以上成年男性平均身高167.1cm。   那么根据身高是正态分布,我们就可以快速的知道大部分男性的身高是集中在平均值,有小部分人的身高要么比平均值身高略高,要么略低。
   神奇的地方在于,不管是人的身高,手臂长度,肺活量,还是他们的考试成绩,都符合正态分布。
                                           这要从发明这个东东的人说起。
   维多利亚时期的学者Francis Galton对数据分布很着迷,他制造了一台可以产生“数据分布”的装置。他发现这种形状适用于用于很多数据,他将其命名为“正态分布”(The Normal Distribution)。
    正态的英文单词是“normal”,意思是“常见的,典型的”, 主要是因为这种分布能恰当代表多种多样的数据类型。
                                                                                    1)员工绩效 
   大部分员工的业绩,都是一般的,做得特别好的非常少,做得特别差的也不多见。这就是为什么绩效管理领域,会用“活力曲线”来考核业绩。
    什么是“活力曲线”呢? 
   员工流失率太高显然不好。据计算,招聘的过程花费,大概是这名员工年薪的50%。过高的员工流失率,意味着失控的招聘成本。离职的业绩损失,大概是这名员工年薪的30%-400%。过高的员工流失率,更意味着巨大的业绩损失。
   员工流失率太低也不好。极低的员工流失率,通常来自对低绩效的容忍。允许绩效差的员工留在团队,损失的不仅是工资,而是本应获得的业绩。另外,绩效差的员工通常更不愿离开,因为他可能找不到另一份工作。为了安全,他会想办法挤走绩效好的人,你的团队会越来越没有战斗力。
   通用电气前CEO杰克·韦尔奇认为,大家很容易认识到员工流失率太高的问题,却很难认识到流失率太低的危害,所以,他提出了著名的“末位淘汰制”(也叫“活力曲线”),他把员工分为:
   这个制度,被认为是给通用电气带来无限活力的法宝之一。
   所以,以后上班别偷懒,小心被老板裁掉。害怕吧?
                                            2)产品质量 
   大部分产品的质量,都是平庸的,真正的好产品非常少,但烂到骨子里的产品也不多见。这就是为什么质量管理领域,会用6个标准差来排除掉不合格的产品。
    3)快速找到停车位 
   根据《华尔街日报》的报道,美国人甚至连在购物商场停车都呈现出正态分布,正对着商场入口的地方停车数量最多,也就是正态曲线的“峰值”,在入口左右两侧的停车数量逐渐变少,即曲线两端下滑的“尾巴”。
   你知道这个规律后,下次停车直接选择上次入口两端车少的地方进入,找到停车位的概率就很多了。
    4)智商 
                                           大部分人的智商是正常的,只有少数像爱伊斯坦老爷子这样的才会智商发飙。
    5)预测数据的位置 
   正态分布的一个神奇的地方:可以大概估算出数据的位置。
   我们先从一个例子开始。
   假如你选对了个人商业模式,成功开了一家公司,员工有几百早上做地铁去公司上班。
   你公司可以看做下面图中的中间位置。有的人坐3站地铁可以到公司,有的人坐2站可以到公司,还有很多人住的比较近,坐1站地铁就到公司了。这里的几站地就是表示你离公司还有多远的距离。
                                           上面这个图其实就是下面的正态分布图
                                           中间的那条线代表平均值(例子中公司的位置)。
   标准差是表示数据的波动大小。   1个标准差表示距离平均值1个标准差的位置(例子中距离公司1站地),同样的,   2个标准差,3个表示距离平均值2个标准差的位置,   3个标准表示距离平均值3个标准差的位置。
    知道这3个标准差于平均值的距离,有什么用呢? 
   这个用处可大了去了。
   正态分布的“美”,好比迈克尔·乔丹在球场上的力量、灵巧和优雅,它来自于一个事实,那就是我们通过上面这个图就能够清楚地知道:
    有68.2%数值位于平均值1个标准差的范围之内 
    有95.4%的数值位于2个标准差的范围以内 
    还有99.7%的数值位于3个标准差的范围以内 
   这听上去似乎挺傻的,但事实上这就是统计学的基础之一。
   这也是正态分布最厉害的“杀手锏”,正是这个特点才有了统计概率里的武器 中心极限定理 。
   一个典型的例子就是,每一次SAT考试(被称为美国高考)都是经过精心设计,以得到一个平均分为500分、标准差为100的成绩的正态分布。
   这样就会保证公平性,让大部分人可以通过考试,而少部分人通不过考试。
    我们回到一开始提出的问题: 
   正态分布是商业界最常见的一种分布。
    当影响结果(或者成功)的因素特别多,没有哪个因素可以完全左右结果时,这个结果通常就呈现正态分布。 
   很多事物,都可以用正态分布曲线表示,或者辅助思考,比如,科技创新接受度,基本上就符合正态分布……
                                           人群中的个体若是按能力划分的话,分布大致应该符合正态分布曲线的样子:
                                           其中有一个“鸿沟”,是想说明有很多人能力增长到一定程度,就会遇到无法跨越的鸿沟。
    你去公司上班打工的商业模式,也是符合正态分布的。 
    即大部分是处于中间平均位置的,既不能大富大贵,也不会穷到沦落街头。而成为公司高管是少数人可以做到的事情。因为你的 “边际成本”不为零。 
   什么叫“边际成本”?
   边际成本,它指的是企业生产产品时,每多生产一个,需要额外产生的成本。
   你可以简单理解为,边际成本就是:
    你做一件事,每多一份产出,需要多付出的代价。 
   所以去公司上班并不是一个边际成本为零的收入。你每多赚一块钱的工资收入,你就得多付出相应的劳动。工资收入不仅边际成本不为零,很多时候,它的边际成本是增加的。
   边际成本增加的意思就是,你得没日没夜的加班,你得牺牲很多和家人朋友相处的时间,你才可能实现工资收入的增长,比如拿到年终奖。
   我们常说企业要转型,传统企业要升级,要增加高新科技企业的数量。升级和转型的根本,其实就是要把成本结构从递增,改成更有效率的递减,甚至接近于零。
    “边际成本”越高的行业,越是分散市场,符合正态分布:赚大钱的人少,亏大钱的也少,大部分人都趋向赚取平均利润。 
    回到一开始提出的问题上来:为什么你很努力的上班,却还是当不了公司高管? 
   答案就很简单了,因为你选择的上班领工资是正态分布的个人商业模式, 大部分 人不可能成为高管。
    所以,你选择的上班领工资是正态分布的个人商业模式,大部分人不可能成为高管。 
   注意,我这里说的是“大部分”,意外着是从总体的角度来看问题。
   如果你说身边的某某就是高管,不好意思,你是从特殊样本来看问题。

很有意思的“正态分布”解释

2. 正态分布的定义

正态分布的定义是什么呢

3. 正态分布的含义

百科名片正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:则其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。 normal distribution
  一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。 服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低 ,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
  正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。
  生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
  正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。
   正态分布概率密度函数解析式 
   附:这种分布的概率密度函数为:(如右图)
   正态分布 1.正态分布 
  若已知的密度函数(频率曲线)为正态函数(曲线)则称已知曲线服从正态分布,记号 ~ 。其中μ、σ2 是两个不确定常数,是正态分布的参数,不同的μ、不同的σ2对应不同的正态分布。
  正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。
  2.正态分布的特征
  服从正态分布的变量的频数分布由μ、σ完全决定。
  (1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以X=μ为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。
  (2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。 也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
   标准正态分布 1.标准正态分布是一种特殊的正态分布,标准正态分布的μ和σ2为0和1,通常用ξ(或Z)表示服从标准正态分布的变量,记为 Z~N(0,1)。
  2.标准化变换:此变换有特性:若原分布服从正态分布 ,则Z=(x-μ)/σ ~ N(0,1) 就服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。
  3. 标准正态分布表
  标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例 。 
   正态曲线下面积分布 1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同 范围内正态曲线下的面积可用公式计算。 
  2.几个重要的面积比例
  轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
   正态分布的应用 某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
  1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。
  2. 制定参考值范围
  (1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
  (2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。
  3. 质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。
  4. 正态分布是许多统计方法的理论基础。 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
   研究过程 正态分布的概念和特征一、正态分布的概念
  由一般分布的频数表资料所绘制的直方图,图(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。 
   为了应用方便,常对正态分布变量X作变量变换。
   
   该变换使原来的正态分布转化为标准正态分布 (standard normal distribution),亦称u分布。u被称为标准正态变量或标准正态离差(standard normal deviate)。
  二、正态分布的特征:
  1.正态曲线(normal curve)在横轴上方均数处最高。
  2.正态分布以均数为中心,左右对称。
  3.正态分布有两个参数,即均数μ和标准差σ。μ是位置参数,当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。通常用N~(μ,σ2)表示均数为μ,方差为σ2的正态分布。用N(0,1)表示标准正态分布。
  4.正态曲线下面积的分布有一定规律。 
  实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。
  查附表1应注意:①表中曲线下面积为-∞到u的左侧累计面积;②当已知μ、σ和X时先按式u=(X-μ)/σ求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数X1和标准差S分别代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,∞)的面积相等,④曲线下横轴上的总面积为100%或1。
   
   图2 正态曲线与标准正态曲线的面积分布
  第二节 正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。
  1.估计正态分布资料的频数分布
  例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
  本例,μ、σ未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表3。
  表3 100名18岁男大学生身高的实际分布与理论分布
分布 
  x+-s身高范围(cm)实际分布
  人数实际分布
  百分数(%)理论分布(%)X+-1s168.69~176.716767.0068.27X +-1.96s164.84~180.569595.0095.00X+-2.58s162.35~183.059999.0099.00  2.制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有: 
  (1)正态分布法:适用于正态或近似正态分布的资料。
  双侧界值:X+-u(u)^S单侧上界:X+u(u)^S,或单侧下界:X-u(u)^S
  (2)对数正态分布法:适用于对数正态分布资料。
  双侧界值:lg-1[X(lgx)+-u(u)S(lgx)];单侧上界:lg-1[X(lgx)+u(u)S(lgx)],或单侧下界:lg-1[X(lgx)-u(u)S(lgx)]。
  常用u值可根据要求由表4查出。
  (3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
  双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。
  表4常用u值表
参考值范围(%)单侧双侧800.8421.282901.2821.645951.6451.960992.3262.576  3.正态分布是许多统计方法的理论基础:如t分布、F分布、x2分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。

正态分布的含义

4. 正态分布是什么意思

正态分布是一种概率分布。
正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。
服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低 ,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。
μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。

正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。
生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。
从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

5. 请用通俗易懂的语言给我解释一下何为“正态分布”?

若已知的密度函数(频率曲线)为正态函数(曲线)则称已知曲线服从正态分布,记号 ~ 。其中μ、σ2 是两个不确定常数,是正态分布的参数,不同的 、不同的 对应不同的正态分布。
  正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。
  2.正态分布的特征
  服从正态分布的变量的频数分布由 、 完全决定。
  (1) 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于 。
  (2) 描述正态分布资料数据分布的离散程度, 越大,数据分布越分散, 越小,数据分布越集中。 也称为是正态分布的形状参数, 越大,曲线越扁平,反之, 越小,曲线越瘦高。

请用通俗易懂的语言给我解释一下何为“正态分布”?

6. 正态分布的含义

正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:则其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
请参照百度百科,上面有详细的介绍,就不一一转帖了。

7. 正态分布是什么意思

数学是一门非常重要的学科,涉及到各个领域,而在数学领域,经常能听到一个专业名词“正态分布”,那么正态分布是什么意思呢?
  
  1、 正态分布,也称“常态分布”,又名高斯分布,最早由棣莫弗在求二项分布的渐近公式中得到。
 
  2、 C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
 
  3、 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
 
  4、 若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ= 0,σ= 1时的正态分布是标准正态分布。
 
 以上就是关于正态分布是什么意思的全部介绍了。

正态分布是什么意思

8. 正态分布什么意思?


最新文章
热门文章
推荐阅读