我所理解的统计学思维模型与思维模型的应用

2024-05-06 19:42

1. 我所理解的统计学思维模型与思维模型的应用

本文为《经验的疆界》的读书整理和思考,该书是我最喜欢的一类书,一位年近花甲的作者,穷尽毕生功力无私的倾注与书中,看完十分过瘾。隐隐约约也察觉到,作者在论述组织和个人通过经验进行学习的问题背后,隐藏着一个底层思维模型,即统计学的思维模型(包括与思维模型的应用),于是尝试从中抽象提炼,重构成为自己的一个思维模型。
  
 《经验的疆界》的论述很奇特,我能感觉到译者小心翼翼的用词,不敢改一字,怕影响到文章原意。且大量的篇幅单纯的论证从经验中学习的不足和问题,会让读者一度心生无力感。这种无力感起源于柏拉图的洞穴寓言时的对世界真相、事实无法刻画和描述的无力感。我们一直在努力尝试去刻画和描述,我们证明了天不方地不圆,结果发现练人类的空间和时间概念都是虚假的。也来自于努力向通过历史、过去经验学习,试图变得更好,但是太多次历史上证明人类确实很少能够从历史吸取教训。so,我们改如何面对这些无力感。
  
 作者后面也只是隐晦的安慰一下,说虽然大多数对经验的诠释只在小部分领域有效果,大部分的诠释存在偏差、过渡解读,是“在创造没有实际用途的知识”,它表现了人类存在比较突出的一面 -- 对自由求知的渴望,对人类的意图进行合理化,即对人类存在合理化,用有趣的方式对人类的存在赋予意义,我们使用自身的自负和傲慢,为自己赋予价值。
  
 我看见一个巨大的事实摆放在眼前,大到我们可能对它视而不见--即人类正式依赖这种有缺陷的视角,充满漏洞的各种理论,满纸荒唐的记录,低效而又无序的社会,生存至今。 有缺陷的视角带来自负,给予我们勇敢,面对困难可以用于面对;充满漏洞的理论让我们获得心安,面对未知带来恐惧的间隙时,可以停下仰望星空想象一个美好的通话;记下满纸荒唐的同时,书写了我们共信仰故事使得文明得以延续;低效而又无序的社会,让创新和不同理念得以生存,从而提供了容错空间,避免突然全部覆灭。 或许这些都不对,但这是我们无法摆脱的原罪,但这是一直是我们的一直赖以生存手段和工具。所以,认知到它的缺陷,审慎的使用它,逐步的优化它,这才是我们应该选择的方向。
  
 以下是一些声明:
  
 任何新事物、新事件、新故事、新框架,均是一种越轨,不符合常规。新事物均是偏离神智或者偏离社会规范的产物,即存活的新事物和被淘汰的新事物有很多相同的共同点即创新和愚蠢同源,成功和失败同源,天才和蠢才同源
  
 这意味现存的事物不一定是最优的,有可能是局部最优,有可能只是小概率事件但影响很大
  
 假设会发生事件,可能会发生的历史,是补齐数据的总要手段
  
 历史事件有很多是小概率事件,但是影响却很深远。导致无法历史样本无法准确抽样,而样本的优劣导致无法评估从历史中汲取智慧的好坏
  
 很多变量是不可控
   变量之间可能存在多重交互作用或者多重共线关系
   变量两两互为因果
   有的变量存在时滞变异
   变量关系的函数形式有很多是未知的
  
 基本上无法还原事件或历史全貌
  
 定义清楚问题,定义目标损失函数,选择合适的样本,观察提取选择特征,选择适合的算法,反复调整参数权重,反复进行模拟验证,评估每次模型结果与目标的差距,逐步缩小,寻找到最佳的模型
  
 对于个人和组织来说思维框架模型训练的难点在于,对事物描述精准度和对未来预测准确的权衡。
  
 如果选择对事物描述的精准度高,那就意味着一种风险,即你得到的经验、结论、故事、框架,可能无法在其他场景使用,同时因为只能适用于特殊场景,往往无法引发听众共鸣,这样的模型通常传播范围狭窄,生命周期短
  
 提高预测的准确度,则意味着模型的可解释性差,因为丧失了原本数据和特征的支持。如果预测准确率过高,就会显得模型假大空,因为用来预测任何事情都对,失去了具体实际价值
  
 模型的常见创造方式是把熟悉的要素连接在一起而创造出来的新的模型框架,这样的框架具有熟悉性和灵活性,这让模型得以更容易传播和长久存在,同时也为新经验或新框架制造了障碍。新事物几乎体验不了,因为新事物往往是用旧框架编码成新的模型的,这样就很难从中挖掘新启示,就像用旧瓶装新酒就很难品出新滋味一样。新事物的呈现形式让人不能从中挖掘新启示。就像太阳底下无新事一样,故事和模型之中无新启示。用熟悉的主题建构故事和模型,有助于从经验中理解并吸收启示,但也会抑制新主题和新诠释。能够长久存在的新事物主要是那些可以轻易整合进老故事和老模型的新事物,而老故事和老模型往往排斥极端异常的新事物
  
 最大可理解复杂性本身是听众智慧以及故事讲述技术和模型建造技术的函数,所以随听众的不同而变化,随故事讲述技术和模型建造技术的不同而变化,还随时间而变化。为了更好的传播,需要适配个人或组织的最大可理解复杂性,诠释者需要在描述历史的准确度和模型的预测性之间权衡,往往会选择牺牲对事实描述的准确度,增加模型预测的成功率
  
 智慧的评价标准:
  
 从经验中学习具有循环性(circularity),人类渴望从历史经验中学习,但是历史经验封装在人类发明的框架之中。人类从自己的发明中学习。循环性并不排除从经验中学习可以增长智慧,但是会增加混淆的可能性,而且会加强对与已有信念不一致的信息的抵触.
   能力受练习的影响,练习率受所做选择的影响。组织与环境共同演化。行动者的欲望影响行动,行动也影响行动者的欲望。历史是一系列样本,经验的展开方式,影响着选项的抽样率,进而影响着抽样误差。
  
 预测效率随着使用频率,以及内部关联的元素越多,加载效率,运行开销,预测效率便越高。这就是学习效应,学习效应既可以正向激励,也可以负向激励,所以要留意每次使用模型是否降低了损失(缩短了和期望目标的误差)。
  
 信号清晰、噪音低、样本大的领域可以有效促进改进
   以下领域随着学习优化可以有效改进:建立和维护长期关系(合作伙伴、上级/下属、供应商、竞争者),培养技术技能(疏通水管、修理手表)艺术技能(探亲、绘画)。
  
 为了确保模型更容易形成共识,确保对模型本身/模型预测结果的解释能力。重点在于凸显智慧,说服他人,以及对思维模型、框架、经验保留可解释权,话语权。而不是预测的准确性
  
 预测的结果往往是模糊的,可解释性差,大多数只能得出模糊的标签。贴标签与其说是进行解释,不如说是承认缺乏理解,或者说是放上一个占位符,留待进一步研究。在心理学中,“人格”经常被人用作标签贴在一些理解不了的东西上,也就是不能解释的变异上。在社会学和人类学故事中,“文化”也起着类似的作用,就像政治学中的“权力”、经济学中的“效用”、进化生物学中的“突变”一样。在大众故事中,“人性”有着类似的作用。这样的标签,在让故事灵活地拟合经验的同时,还让故事显得很有真实感。有了这样的标签,就比较容易创作具有事后解释力,但没有什么预测力,也没有什么指导作用的故事。
  
 随着模型的熟练度上升,便会形成依赖,对于不匹配该模型的事物,将会遭到排除。这就是为什么在某个领域专业性越高,便约容易被专业视角、知识所局限。
  
 进化生物学中的经典例子是,有性繁殖产生基因结合体。组织研究中的经典例子是,规则、程序或框架从一个地方传播到另外一个地方,与那个地方已有的规则、程序或框架互相结合。遗传学、语言学、文学理论、烹饪学、化学、神经网络学也在寻找结合理论,得到了一些不是定论但有启发性的结果。但还没有找到结合法则演化的规则
  
 新事物是十分常见的,不合常规的行为和实务一直在源源不断地出现。因为大多数的想法、事物、模型和新想法使用的大多数元素相同,无法区分开来。大多数新想法通过适应过程被迅速而明智地消灭掉了,除非经过很长一段时间的考验
  
 具体的原因:
  
 随便观察一下人类生活就会发现,现有的各种适应机制远远称不上完美。现代社会秩序是十分有效的社会控制系统,但是总会遇到与之对抗的越轨行动者,而并非所有越轨行动者都会被关进监狱或者精神病院。市场机制,特别是金融市场机制,是高效的适应机制,但也有低效的成分。博彩业繁荣昌盛,说明人类有能力做出让财富积累前景变暗的投资选择。便可以得出结论适应过程是低效的。
  
 这个假设解释了两个问题:为什么在某公司带来成功的做法被搬到其他公司后并不一定能带来成功?另外一个问题是,为什么组织管理者倾向于既不关注已知之物又不关注有证据显示即将出现的新事物
  
 相对于环境变化速度而言,适应过程是比较缓慢的,不能具体指出适应过程允许环境以多快速度变化
  
 如:如经济、历史、哲学、心理、社会学等领域模型多模型和多框架之间相互校验。相互补充判断,参考查理芒的100个思维模型,每几年深入学习一个领域
  
 也可以尽量在模型之上,进一步提炼模型,形成更高阶模型,通过牺牲了模型对具体事物描述的准确性,和模型预测的准确性,来提升模型的覆盖范围,增强了对新事物的观察能力,和使用低阶模型产生的屏蔽/窄线现象。在世俗生活中的高阶模型常被称之为:智慧
  
 整个过程就是搭乘现象,当模型足够复杂,和低阶模型使用的元素高度相同时,这也就是这样多的民间智慧,似是而非但是却生命力顽强的原因。因为它和真正有效的低阶模型元素混淆在一起,延续了生命。
  
 这也就解释了为啥,PDCA、禅、各类生命周期等框架理论,在真正执行的时候需要结合使用场景,灵活变通。因为高阶模型缺乏低阶模型运行的知识和细节,在没有低阶模型和相关场景知识和信息时,是无法给出靠谱的预测。
  
 所以高阶模型,会让人心安,甚至让人沉迷。因为其通过一个笼统的框架,囊括了新事物(即偏离正常组织和社会基准的事物),为新事物的出现寻找了合理性,给与存在的价值和意义,减少了新事物出现带来的不安。
  
 越是高阶的模型,其目的更倾向于解释过去,而非预测。其重点在于是确保对模型更容易形成共识,确保对模型本身/模型预测结果的解释能力。而不是预测的准确性。so,应当谨慎判断高阶模型是否真正有效。
  
 但其确实提供了更高的视角看待问题,所以,同时保持高阶(普世价值观、智慧、原则、通用原则、物理原理)、中阶(某领域方法论)、底阶模型(具体技能)共存,发现不同层级模型之间的共同元素,共同迭代优化。比如:我就发现本文,底层是核心模型是统计学思维,但在派生出对经验诠释经验的一个框架,同时历史也符合这框架,顺便垫付了我的历史观,还对新事物/故事/框架的创造和产生和传播有很多有价值的诠释。这些模型和框架在脑中相互共存,相互共鸣或矛盾。共鸣,相互得到验证;矛盾意味着错误,或者模型的使用边界未界定清楚,无论那种结果,都会有收益。
  
 比如世界观、价值观、人生观等就是超参数,可以简化模型训练的复杂度,提升预测效率。对于组织来说,就是组织愿景、价值观、文化等等,这也就是企业花费很多时间进行这方面建设的原因,因为设定好超参数就会容易得出相同的结论。
  
 很多时候成功,成功只是简单的对成功的复制,或者对某些关键因素的应用(如:只是科技进突破),并不需要一个强大和复杂的理论模型去诠释,例如:宗教、成功学会将自己理论混淆在现在模型中,搭乘这些关键因素来证明自己的理论的正确性。如:通过量子理论来解释佛学等等。应当对这些观点保持警惕。再比如,中国经济高速发展,主要贡献是来自于基本的经济学规律(与世界接轨获得市场,产生大量需求;引入科技,提升生产力;加上人工成本低,社会稳定)

我所理解的统计学思维模型与思维模型的应用

2. 统计思维——通过统计方法解决分析问题

数据分析中总离不开统计学中的相关概念和方法,因而统计思维也是数据分析思维之一。在数据分析中,统计思维就是用统计的相关思维,来解决数据分析的问题。
  
  
  一数知全局 
  
  
 这是16年的政府工作报告的讲话,从讲话中,你能看到什么?
                                          
 16年政府工作报告的这段话中,有两个数据劳动年龄人口平均受教育年限10.23年和10.8年,这两个数据看似差别不大,然而回归到日常生活领域中,却能昭示出很多问题。
  
                                          
 通常来说,一个人在大学以前,如果没有留级或者跳级的情况,一般要经历小学6年,初中和高中各3年的教育时间。因此在接受高等教育前,需要经历12年的基础教育。然而在总理的报告中体现出来的劳动年龄人口平均受教育年限不到11年,不禁让人有这种感觉:应该有大多数人没有读完高中,最多只读完高一,甚至还有很多人只是读完了初中。
  
 按照这个思路去查阅相关数据,诚然如此,05年初中升学率50%,14年初中升学率到56%,也就是说近一半的人,都没有读高中,更不要说接受一年高一的教育了。
                                          
 让我们有这种认识的是来源于这两个10.23年和10.8年的数据,这两个数据的核心在于平均二字。平均值是统计学中最基本和最重要的统计量之一,通过这个统计量就可以从简单的数据中发现相当多的信息。
  
  
  混乱之中求秩序——统计量的作用 
  
 就像一个平均值发现只有一半的人才能读高中一样,统计量往往在一堆庞杂的数据中能够起到管中窥豹的情况。
                                          
 从简单的几个统计量中,就能迅速知最重要的信息。这里常用的统计量除了平均值,还包括中位数,最大最小值,极差以及各种分位数等等。平均值、中位数、分位数可以提现出分布大致情况,最大最小值和极差可以体现出数据的极端情况。
  
  
 总之利用这些统计量,能够快速理清数据的大致情况。能够快速分析多组数据,而不用进一步的去拆分对比,起到化繁为简的作用。同时各种统计量的计算都是标准化的,某些时候进行分析时,可以通过计算相关统计量的关系对数据进行标准化处理,从而起到统一量纲的作用。
  
  平均值——大概就是这样大 
  
 平均值是最基本和最重要的统计量,其提现了一组数据的大致大小。当拿到两组数据时候,有时往往通过对比平均值就能说明两组数据之间存在的差异。
                                          
 就如表格中的数据,简单的看过去不能够明显发现两组数据之间差别,A组中既有高于B组所有数据的数,也有低于B组所有数据的数,谁大谁小完全不能简单的说明。然而当计算两组的平均值后,可以知道A组的平均值是23,而B组的平均值是29,整体上说B组的数据是要大于A组的。
  
  
 对于平均值而言,通常有算术平均值和加权平均值,当然还有更复杂的几何平均值得情况,相对来说算术平均值和加权平均值较常用。对算术平均值而言,就是所有数据相加之后然后除以数值的数量。而加权平均值,就是每个数据值乘以其权重后再将每个乘积相加,其中所有的权重都为1。从两个平均值的定义就可以发现,算术平均值其实是一种特殊的加权平均值,在算术平均值中,每个数值的权重都是相等的,如果有N个数字,那么权重就都是N分之一。
                                          
 平均值除了对比不同组别的数据大小差异外,还能够对比拆分后的对象与总体的关系。当总体拆分后,拆分出来的数值相加之和往往是总体的数值,任何对象的数值不论如何都比总体的数值小,因而不具备可比性。不过,当计算出总体的平均值后,就可能比较各个对象数值和平均值间差异,哪些对象位于平均值水平,哪些远低于或者远高于平均值。
  
                                          
 例子中共有14个省份,这些省的GDP的平均值是2.46万亿,从图中可以看出,只有4个省的GDP大于其平均值,其余10个省都低于平均值,从图中也能看到各省的GDP呈现出分呈现分布不均的特性,江苏GDP达到了平均值得2倍以上,而山西GDP只有平均值的一半。
  
  
  中位数——一半对一半 
  
 平均值可以知道大致的大小,尤其是在对比可以起到作用。然而平均值并不能完全地揭示出问题所在,就比如说近几年各种“被平均”的问题,让平均值只能起到片面的作用。例如我我们一群普通人和马云、王健林从平均收入一万元经过十年到达了平均收入一个亿,人人都知道马云和王健林的收入远远高于一群普通人,甚至比普通人的总和加起来还多几个零,因此这种情况下,平均值就有存在局限性。在知道了平均的基础上,又知道分布的话,有能够从数据中获取更全面的信息。
                                          
 分布是指数据的散布情况,其中常用的统计量是分位数,其中中位数是最典型的分位数了。顾名思义中位数正好是中间的数,当一组N个数值从小打到排列后,如果N为奇数,中位数就是N/2+1的位置的数值,如果N为偶数,中位数是N/2和N/2+1位置数值的平均值。
  
  
 通过排列可以知道,当这组数据排除中位数以后,有50%的大于中位数,有50%的小于中位数。
  
 当平均值和中位数相结合的时候,能够同时考察一组数据的大致分布和大致大小,可以快速、简便地看出数据中是否存在分布不均的情况。
                                          
 正如表中工资数的例子,所有人的平均值是38万,而中位数是员工工资10万,平均值远大于中位数,说明分布不均,呈现出“被平均”的状态,即在数据中有大量的小数值数据以及少量的大数值数据。
  
  
 平均值,能够知道数据的大致大小,然而却存在大小值分布不明确的情况,加上中位数以后,就能够知道数据分布上的差异了。
  
  四分位数——从分布到偏差 
  
 从平均值到中位数,能够知道数据的大致大小和大致分布。尽管可以知道大致分布,以及最大值和最小值,去还不知道大多数对象集中哪个区间上面。这个时候,四分位数就能够起到聚焦分布和排除偏差的作用。
  
 四分位数,顾名思义,就是把一组数据分成四等分的统计量。而四分位数,并不是一个数,而是三个分位点,正好能够从大到小把一组数据划分为四份。
                                          
 在四分数中,包含三个数,分别是75分位数,50分位数,25分位数。50分位数就是中位数,有50%的数比其大,有50%的数比其小。75分位数与50分位数相似,正好是其大于75%的数,并小于25%的数。而25分位数就与75分位数相反,其大于25%的数,而小于75%的数。因此,可以这样来理解75分位数和25分位数:75分位数是[50分位数,最大值]区间上面的中位数,而25分位数是[最小值,50分位数]区间上面的中位数。同时,25分位数和75分位数之间,正好构成一个区间,这个区间上面集中了一组数据中50%的对象,因此可以理解为,在这组数据中,有50%都集中在[25分位数,75%分位数]的区间上。
  
  
 箱线图是可以直观体现四分位数的图形,如图可见,在箱线图上分别呈现了上下边界,即最大值和最小值在上下两端,以及75分位数,中位数和25分位数构成了箱体,其中箱体的上边为75分位数,下边为25分位数,而中线是中位数。
  
   
                                          
  
   
    
 
  
 通过这样展示数据,就能够将数据的范围和集中情况提现得特别明显。不同对象,也可以利用在一个指标上的箱线图进行对比。图中就是几个类别在一个变量上的对比,可见B类别的数据相比AC更加集中。
  
  
 类似箱线图的思想,K线图有通过四个数字来体现出分布和趋势,K线图中有四个数字,箱体上有收盘价格和开盘价格,箱体两侧还有周期上最高和最低数据,当收盘高于开盘时,显示为红色,当收盘低于开盘时,显示为绿色。
                                          
 因此与箱线图相比,K线图还体现了变化情况。随着时间变化,多个K线图放在一起时,能够呈现出这一段时间以来的价格波动情况。K线图在金融领域常用,围绕7K线图的各种变化也有专门的书籍和文章进行讨论。
  
  
  百分位数——看待极端 
  
 从均值、中位数再到四分位数,已经基本能够发现对象分布的情况,当然这是一种比较粗略的情况。在对象的数据中,有时还存在一些极端的情况,这些值与中位数和均值有相当大的距离,因此在这种情况下,如何看待这些数据,如何认定这些数据的离散程度,就需要进一步地来探求数据的分布。百分位数就是分析更细节信息的统计量。
                                          
 四分数是在25%,50%和75%这几个点上将一组数据划分为四个区间,当数据的区间从25%划分到10%时,能够从数据中得到更细节的信息。10分位数数,就是以10%的区间相隔,第一个10分位数与最后一个十分位数构成的区间,即[10%,90%]区间,就代表了80%的数据集中的范围,大于上边界和小于下边界的数据已经是不再被作为主流被考虑。
  
  
 当分位点进一步减少到5%的区间时,就有95分位和5分位这两个点,在统计学中,5%通常被考虑为小概率事件,因此大于95分位数或小于5分位数都可以视为基本不会发生的情况。
                                          
 百分位数的其中一个作用就是用于忽略极端,对于大于95分位和小于5分位的数,都可以作为极端被忽略掉,重点分析[5%,95%]区间上的数据。
  
                                          
 此外,百分位数还能够起到重点考察极端的情况,在质量控制的六西格玛体系中,就有[0.25%,99.75%]区间作为质量正常的区间范围,其中99.75%作为质量上限,0.25%作为质量下限,当高于质量上限或低于质量下限的情况发生时,都可以被认为是出现了异常情况,需要重点分析原因。
  
  
  百分位的变体--累计帕累托 
  
 百分位的另外一个典型应用是累计帕累托思想,即80-20法则。这是由意大利统计学家帕累托发现的社会上20%的人占有80%的社会财富现象总结得来,在一组对象中少量的对象具有较大的数值,而这些数值之和就占据了所有数值之和的绝大部分。
  
 往往少量的对象数量上的占比在20%,而数值上的占比为80%。80-20法则在日常的生产生活中常常能够体现出对象在数据上的集中程度,如80%的收入由20%的客户提供,20%的强势品牌占据80%的份额,80%的应收账款集中于20%的客户等等情况。
                                          
 80-20法则在实施上是根据指标数值大小将对象从小到大排列,接着计算每个对象的数值在对应总数值中的占比,然后依次将占比累加起来。下面的条形图和折线图组成的复合图表就是体现了各个客户在销售额贡献程度,其中柱子表示销售额,而折线表示销售额的累计百分比。
  
  
 从图中可以发现,在10个客户前面的4个客户就占据了90%的销售额。
                                          
 此外,80-20法则,还有应用于库存管理中,从ABC物料库存管理的图中可以发现,A类物料不到所有物料中的20%,却占据了近乎80%的资金。
  
                                          
 因此需要进行重点管理,而B类和C类的资金占用情况依次下降,因此对管理的要求也依次下降。
  
  
  从统计到分布 
  
 前面从均值到中位数,从四分位数到百分位数,这些统计量联合起来其实都是在描述一组数据的分布情况,当通过统计量知晓大致的分布以后,就能够知道数据的趋势是什么样子,哪些值属于罕见值,哪些值又是属于常见值,对象数据大致的集中程度如何,主要介于哪些数值之间等等。
  
 一组数据可能呈现出多种分布的情况,在这些分布中,常见的是正态分布和幂率分布。
  
 正态分布是值中位数与平均值是同一个值,各种数值两端的分布情况一致,也就是说越接近平均值的数值越多,而越远离平均值的数值越少。
                                          
 在一张横轴表示数值大小,纵轴表示该值的概率的图形中,正态分布式呈现出一个钟型的样子。数据分析中,正态分布常常用来审视远离中位数的异常数值。聚焦于对象整体的时候,通常考虑剔除异常值,即忽略掉图中的两端。聚焦于异常值本身的时候,通常重视异常值,在六西格玛管理中常常关注在两端出现的异常值发生情况。
  
  
 而幂率分布正好同正态分布分布相异,幂率分布中的数据分布不均,其中有少量的极大值和大量的小值。
                                          
 对于幂率分布的曲线就是纵轴表示数值的大小,横轴表示数值的数量。从幂率分布的图像可以发现,幂率分布有着高耸的头部,同时也带着一条长长的尾巴。数据分布中,幂率分布用来审视大值和小值,当关注大值的时候,其实就是找出重点关注的对象,如前文说道的80-20原则。当关注小值的时候,其实就是体现出了长尾效应,商业上的一个例子就是市场上的一些小众产品,其实加起来的需求比主流产品还要大。
  
  
  统计思维总结 
  
 统计思维是数据分析思维的第二种思维,借助统计思维,能够快速知道一组数据呈现的形式和分布。
  
 当我们看到一组数据时,可以通过查看相关统计量的形式,来了解这组数据的概要,从局部到整体,以点带面地看这组数据的大小,分布以及其他特征。通常的统计量包括了,平均值,最大最小值,中位数、百分位数等等。通常查看数据大致大小可以用平均值。查看大致分布可以用中位数,即一半的数据比这个值大,另外一半的比这个值小。查看离散程度可以用四分位,在中位数的基础上可以知道有多个单位大于其他25%的和大于其他75%的,当然百分位就可以更细了。此外还以将统计量交叉对比,当平均数遇见中位数时,就能够知道离散程度有多大。我有1万,你有1万,马云有500亿,我们三人平均值250亿,当然中位数还是1亿,就是一个典型的例子。
                                          
 统计分析的第一点是依靠统计量一点带面,而第二点就是根据分布预测规律。
  
  
 当我们知道一组数据的分布后,就能知道一些值的出现应该如何看待,当出现特别大的或者特别小的值时,是属于普遍现象还是稀有现象。例如一群成年人的身高通常是正态分布,一个人一米四,另外一个人一米九都是数据特别稀有的。公交车到达的时间通常是幂率分布,即短时间就到的情况很多,长时间到的情况少,当等车太长时,就可以考虑是不是路上出什么事情了,要不要换车。
  
 分布预测规律同时也能用于生产和生活中,如客户贡献的分布就是幂率分布,少量的客户带来极大的贡献,大量的客户带来小而杂的贡献,有的厂商选择去满足大客户,也有的厂商去满足小而杂的贡献客户,这就是利用了幂率分布曲线的长尾效益。
  
 原文转发,功德无量!

3. 简单理解什么是统计思维

英国科幻小说作家H·G·威尔斯的预言:“统计思维总有一天会像读写一样,成为一个有效率公民的必备能力。”
  
 中国当代著名经济学家、教育家马寅初曾说:“学者不能离开统计而究学,实业家不能离开统计而执业,政治家不能离开统计而施政。”
  
 统计,是了解真实存在的一种办法。大到一个国家,小到一个企业甚至个人,都会用到。谁能获得准确的统计信息,就能把握真实的现在,为后续决策提供依据。但是学号统计学并不容易,各种数字、公式、函数、曲线对于大多数人来说都太难了,学了一点统计也不知道能对自己有什么助益。
  
 
  
                                          
 日本人西内启一直想写出一本通俗简单的统计学书籍,帮助普通人了解统计学,掌握统计学基础工具,培养出统计思维。西内启毕业于东京大学生物统计学专业,主要从事xxx的工作,在统计学的实践应用上拥有丰富的经验,他的丰富经验浓缩在《看穿一切的数字统计学》和《统计思维》中。前者更专业更有深度,后者更通俗更有实操性。
  
 统计思维,是在获取数据、从数据中提取信息、论证结论可靠性等过程中表现出来的一种思维模式,对于人类提高认知有巨大的作用。全书为了让读者理解统计思维,主要分为两个大部分,一是书的主体,各种统计方法、概念与实用案例间的关系,二是“数学附录”对各种统计概念、公式的数学讲解。
  
 全书主要讲了几个数学概念:平均、标准差、假设检验、回归分析等。前面还好,后面的难度已经超过了中国高中数学的知识范围,对于一些大学不学高数的人来说,读起来还是挺有难度的。
  
 在大岩俊之在《实用性阅读指南》里说,一本书里对我们真正有价值的内容大约只有20%。如果你的数学基础并不好,那么书里的思维方式可能相对更有用的。
  
  均值和中位数。 在统计学上,均值和中位数都是描述几种趋势的概念。但是均值依赖于分布,往往在正态分布的数据时候有效性最大。而中位数更多的是非参数的概念,中位数是将数据从小到大排列之后,能够将数据分为两半的数。如果一个分布不是近似于正太分布,那么中位数要比均值有效果一些。所以在正确场景下正确的运用这些概念去解释生活中的事物就比较重要。当数据服从一个正态分布的时候,均值等于中位数。
  
 经济中有“二八法则”,世界上百分之80%的财富掌握在20%的人手中,如果仅仅计算个人收入的平均值,很多人的收入都被“平均高”了。如果这时候计算中位数,我们个人收入与中位数比较,大致就可以知道自己的收入在全国是个什么水平。这个技巧也可以用来计算,求职时在在哪一个公司可以预期获得更高的收入。如果A公司平均工资很高有8000,但是中位数只有3000,而B公司人均工资有6000,但中位数有4000,你该怎样抉择呢?
                                          
  统计推断有局限 。在做决定的时候,大多数人都是根据自身的相关经验也就是样本来进行推断。人们常说,每个人都有自身的局限性,换一句话说,人不可能了解事物的总体。那么在用样本进行推断的时候,一定要选择合适的样本,不能以偏概全。
  
 1936年美国大选,《文学文摘》杂志推测阿尔弗雷德•兰登将会获得531张选举人票中的370张。从这个结果来看,击败罗斯福完全无压力。在这个调查中,《文学文摘》一共发放了1000万份问卷,回收了230万份。《文学文摘》的做法没错,大的样本量肯定会提高估计的精度,没毛病。但是结果错了,罗斯福当选。为什么?因为在《文学文摘》杂志的读者中,共和党人所占比例远比美国总人口中的共和党支持者比例要高。换句话说,这个样本完全无法扩大到全美国。那么相应的结论肯定也是站不住脚的了。
  
  统计中允许误差下保证一定概率 。在统计学里面,处处存在随机性问题。它允许有误差,没有误差反令人怀疑其中有假。统计也会对一个问题拍胸脯保证,但它的保证都是基于概率形式的。而且所能保证的概率,不但不是百分之百,而且还附有误差。在统计学中的p值为5%,这本身就没有太多数学根据,而是沿用数学家费希尔的习惯,认为用5%判断p值很方便。当标准差se小于p值时,就这人某种推论或结果是可信的。
  
 统计学有固定的规律,但是在实际应用中,并不一定完全遵守这种规律。有时候守条件闲置,也并不完全遵循双侧5%的检验标准。比如在医学领域,有一些成功率不高的手术,只要一生和患者达成一致,患者仍可能会选择尝试。在商务推广中,也有可能做一些p值较大的高风险决定,决策者可能会选择搏一搏。在这时就要做好“承担风险的准备”。
  
 陈希孺先生在其《数理统计学简史》的序中说道: 统计学不止是一种方法或技术,还含有世界观的成分——它是看待世界上万事万物的一种方法。 我们常讲某事从统计观点看如何如何,指的就是这个意思。但统计思想也有一个发展过程。因此统计思想(或观点)的养成,不单需要学习一些具体的知识,还有能够从发展的眼光,把这些知识连缀成一个有机的、清晰的途径,获得一种历史的厚重感。

简单理解什么是统计思维

4. 什么是统计学思维?

统计思维类似于数学中的数感、符号感,美术中的美感,以及人们对于音乐的乐感、节奏感等,是一种对给定数据及与数据有关的量、表、图的潜意识的反映,面对与数据信息有关的问题时,能本能的从统计的角度进行思考,也就是当遇到有关问题时,能想到去收集数据和分析数据。


介绍
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。
所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。

5. 什么是统计思维?

统计思维类似于数学中的数感、符号感,美术中的美感,以及人们对于音乐的乐感、节奏感等,是一种对给定数据及与数据有关的量、表、图的潜意识的反映,面对与数据信息有关的问题时,能本能的从统计的角度进行思考,也就是当遇到有关问题时,能想到去收集数据和分析数据。

例如,球迷看球赛时,会推测所喜欢的球队是否会赢,如果仅仅根据喜好去作判断,那么就不具备统计观念;如果意识到判断前需要收集一定的数据,如双方队员的技术统计资料、双方队员历次比赛成绩记录等,并且相信这些数据经过适当的整理和分析,有助于了解球队,在此基础上对球队的输赢进行判断,才是比较可靠的,这就说明你具备了一定的统计观念。

什么是统计思维?

6. 什么是统计思维?

统计思维类似于数学中的数感、符号感,美术中的美感,以及人们对于音乐的乐感、节奏感等,是一种对给定数据及与数据有关的量、表、图的潜意识的反映,面对与数据信息有关的问题时,能本能的从统计的角度进行思考,也就是当遇到有关问题时,能想到去收集数据和分析数据.
  例如,球迷看球赛时,会推测所喜欢的球队是否会赢,如果仅仅根据喜好去作判断,那么就不具备统计观念;如果意识到判断前需要收集一定的数据,如双方队员的技术统计资料、双方队员历次比赛成绩记录等,并且相信这些数据经过适当的整理和分析,有助于了解球队,在此基础上对球队的输赢进行判断,才是比较可靠的,这就说明你具备了一定的统计观念.

7. 一个统计学问题

6000w=20个300w即一共有20个人DNA匹配
其中19人无罪,1人有罪
所以说现在就是看这个人是这【19人】之一的概率

一个统计学问题

最新文章
热门文章
推荐阅读