统计学的统计学(第四版)

2024-05-08 04:05

1. 统计学的统计学(第四版)

 字 数:534 千字书 号:112664开 本:16包 装:平装印 次:4-7定价:¥33.00 第1章 导论  1.1 统计及其应用领域  1.2 统计数据的类型  1.3 统计中的几个基本概念  思考与练习  第2章 数据的搜集  2.1 数据的来源  2.2 调查数据  2.3 实验数据  2.4 数据的误差  思考与练习  第3章 数据的图表展示  3.1 数据的预处理  3.2 品质数据的整理与展示  3.3 数值型数据的整理与展示  3.4 合理使用图表  思考与练习  第4章 数据的概括性度量  4.1 集中趋势的度量  4.2 离散程度的度量  4.3 偏态与峰态的度量  思考与练习  第5章 概率与概率分布  5.1 随机事件及其概率  5.2 概率的性质与运算法则  5.3 离散型随机变量及其分布  5.4 连续型随机变量的概率分布  思考与练习  第6章 统计量及其抽样分布  6.1 统计量  6.2 关于分布的几个概念  6.3 由正态分布导出的几个重要分布  6.4 样本均值的分布与中心极限定理  6.5 样本比例的抽样分布  6.6 两个样本平均值之差的分布  6.7 关于样本方差的分布  思考与练习  第7章 参数估计  7.l 参数估计的基本原理  7.2 一个总体参数的区间估计  7.3 两个总体参数的区间估计  7.4 样本量的确定  思考与练习  第8章 假设检验  8.1 假设检验的基本问题  8.2 一个总体参数的检验  8.3 两个总体参数的检验  8.4 检验问题的进一步说明  思考与练习  第9章 列联分析  9.1 分类数据与列联表  9.2 y2检验  9.3 列联表中的相关测量  9.4 列联分析中应注意的问题  思考与练习  第10章 方差分析  10.1 方差分析引论  10.2 单因素方差分析  10.3 双因素方差分析  思考与练习  第11章 一元线性回归  11.1 变量间关系的度量  11.2 一元线性回归  11.3 利用回归方程进行预测  11.4 残差分析  思考与练习  第12章 多元线性回归  12.1 多元线性回归模型  12.2 回归方程的拟合优度  12.3 显著性检验  12.4 多重共线性  12.5 利用回归方程进行预测  12.6 变量选择与逐步回归  思考与练习  第13章 时间序列分析和预测  13.1 时间序列及其分解  13.2 时间序列的描述性分析  13.3 时间序列预测的程序  13.4 平稳序列的预测  13.5 趋势型序列的预测  13.6 复合型序列的分解预测  思考与练习  第14章 指 数  14.1 基本问题  14.2 总指数编制方法  14.3 指数体系  14.4 几种典型的指数  14.5 综合评价指数  思考与练习  附录一 术语表  附录二 用Excel生成概率分布表参考文献 总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的。比如,由若干个企业构成的总体就是有限总体,一批待检验的灯泡也是有限总体。无限总体是指总体所包括的元素是无限的,不可数的。例如,在科学实验中,每一个实验数据可以看做一个总体的一个元素,而实验则可以无限地进行下去,因此由实验数据构成的总体就是一个无限总体。 总体分为有限总体和无限总体主要是为了判别在抽样中每次抽取是否独立。对于无限总体,每次抽取一个单位,并不影响下一次的抽样结果,因此每次抽取可以看做是独立的。对于有限总体,抽取一个单位后,总体元素就会减少一个,前一次的抽样结果往往会影响第二次的抽样结果,因此每次抽取是不独立的。这些因素会影响到抽样推断的结果。

统计学的统计学(第四版)

2. 统计学第3版刘竹林课后习题答案

第一题:

答案:

第二题:

答案:

第三题:

答案:



扩展资料这部分内容主要考察的是统计学的知识点:
通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。
主要内容包括:
(1)研究马克思主义经典作家关于统计问题的立场、观点和方法,探讨社会主义统计立法的理论基础,分析统计法学与其他学科特别是统计学的区别和联系。
(2)研究统计立法的目的和作用,统计法律制度的具体规范,包括统计管理体制、统计调查和统计标准、统计机构和统计员的职责,违反统计法的法律责任等。
(3)对各国统计立法进行比较研究,吸取国外加强统计法制的经验和作法_探讨新时期统计立法和司法中出现的新问题,为健全和完善社会主义统计法律规范体系提供理论依据。

3. 统计学第一章求答案

1、下列分组哪些是按数量标志分组(AB)。  
A、工人按产量分组    
B、职工按工龄分组    
C、学生按健康状况分组    
D、企业按隶属关系分组    
E、科技人员按职称分组    


3、计算平均发展速度的方法有(AE)。    
A、几何平均法    
B、水平法    
C、方程式法或累计法    
D、序时平均法    
E、算术平均法

统计学第一章求答案

4. 第五版 医学统计学 课后题解析

是这个李晓松版的吗?
第一章 绪论 1.举例说明总体和样本的概念。 研究人员通常需要了解和研究某一类个体这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值即变量值的集合通常有无限总体和有限总体之分前者指总体中的个体是无限的如研究药物疗效某病患者就是无限总体后者指总体中的个体是有限的它是指特定时间、空间中有限个研究个体。但是研究整个总体一般并不实际通常能研究的只是它的一部分这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中该地2007年全部正常成年男子的红细胞数就构成一个总体从此总体中随即抽取2000人分别测的其红细胞数组成样本其样本含量为2000人。 2.简述误差的概念。 误差泛指实测值与真实值之差一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差非随机误差中最常见的为系统误差系统误差也叫偏倚是使实际观测值系统的偏离真实值的误差。 3.举例说明参数和统计量的概念。 某项研究通常想知道关于总体的某些数值特征这些数值特征称为参数如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的而参数是他们想知道的。一般情况下这些参数是难以测定的仅能够根据样本估计。显然只有当样本代表了总体时根据样本统计量估计的总体参数才是合理的。 4.简述小概率事件原理。 当某事件发生的概率小于或等于0.05时统计学上习惯称该事件为小概率事件其含义是该事件发生的可能性很小进而认为它在一次抽样中不可能发生这就是所谓的小概率事件原理它是进行统计推断的重要基础。
 第二十一章 医学人口与疾病统计常用指标 1.疾病统计中的观察单位“病例”和“病人”有何区别     疾病统计的观察单位可以是病人也可以是病例。一个人每发生一次疾病就算是一个病例一个病人可以先后数次患同一种疾病也可以同时患数种不同的疾病。 2.发病率、时点患病率、期间患病率有何区别 发病率表示在一定时期内可能发生某病的一定人群中新病例出现的频率其分子是一定期间内的新发病例数。患病率指在某特定时间内总人口中某病新旧病例所占比例适用于病程较长的疾病或发病时间不易轻易明确的疾病的统计研究按观察时间的不同可分为时点患病率和期间患病率。时点患病率用于反映在调查或检查时点一定人群中某病的现患情况包含该病的新、旧病例期间患病率可用于反映在观察期间内一定人群存在或流行某病的频度包括观察期间内的新病例数和现患病例数但资料收集较为困难。 3.年龄别死亡概率与年龄别死亡率有何区别两者间有什么关系 年龄别死亡概率nqx是表示一批人在x到x+n岁之间的死亡概率即同时出生的人群中刚满x岁的尚存者在今后n年内死亡的可能性。因此死亡概率的公式定义为nqx=x岁到x+n岁之间死亡人数/活满x岁的人口数 而年龄别死亡率nmx是表示某年龄别人口在n年内的平均死亡水平其公式定义为nmx=x岁到x+n岁之间死亡人数/x岁到x+n岁之间的平均人口数     可见两者分母不同当年龄分组为1岁时即n=1时qx比mx略小当年龄分组大于1岁时即n〉1时则nqx约比nmx大n倍。死亡率与死亡概率之间可以互相换算现有许多种由nmx推算nqx的方法目前常用的计算死亡概率的公式为nqx=2*n*nmx/2+n*nmx 4.平均寿命与平均死亡年龄有何区别     平均寿命实际上是同时出生的一批人以各年龄组死亡人数作为权数计算出来的平均岁数其大小取决于各年龄组死亡人数的相对水平。用寿命表方法计算的平均寿命的大小仅取决于年龄别死亡率的高低两地的平均寿命可以直接比较。但平均死亡年龄的大小不仅取决于年龄别死亡率的高低也取决于年龄别人口构成。如用甲、乙两地的平均死亡年龄作比较即使两地的年龄组死亡率完全相同若甲地人口中青壮年比重较大而老年人比重较小可导致甲地平均死亡年龄较低。显然这种平均死亡年龄的差别是由于人口年龄构成不同所致并不反映两地人口的平均寿命不同。因此一般情况下两地的平均死亡年龄不能直接比较不能把平均死亡年龄当作平均寿命应用。 5.某地的平均寿命高则老年人口占总人口数的比例一定很高这种说法对吗     这种说法不正确。用寿命表法计算的平均寿命其大小仅取决于年龄别死亡率的高低某地的平均寿命高并不表明老年人口所占的比例高。如果人群的年龄别死亡率降低尤其是婴幼儿组死亡率降低该地人群的平均寿命就会增高

5. 统计学原理 什么是统计学 课后答案

统计学
统计学是一门研究随机现象,以推断为特征的方法论科学,“由部分推及全体”的思想贯穿于统计学的始终。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。 用统计来认识事物的步骤是:研究设计—>抽样调查—>统计推断—>结论。这里,研究设计就是制定调查研究和实验研究的计划,抽样调查是搜集资料的过程,统计推断是分析资料的过程。显然统计的主要功能是推断,而推断的方法是一种不完全归纳法,因为是用部分资料来推断总体。

增加定义:是关于收集、整理、分析和解释统计数据的科学,是一门认识方法论性质的科学,其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识。

统计学是收集、分析、表述和解释数据的科学

统计学原理 什么是统计学 课后答案

6. 我也求一份《统计学》第四版课后习题答案..贾俊平 何晓群 金勇进的..不胜感激。

  第四章练习题答案

  4.1 (1)众数:M0=10; 中位数:中位数位置=n+1/2=5.5,Me=10;平均数:
  (2)QL位置=n/4=2.5, QL=4+7/2=5.5;QU位置=3n/4=7.5,QU=12
  (3)
  (4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。
  4.2 (1)从表中数据可以看出,年龄出现频数最多的是19和23,故有个众数,即M0=19和M0=23。
  将原始数据排序后,计算中位数的位置为:中位数位置= n+1/2=13,第13个位置上的数值为23,所以中位数为Me=23
  (2)QL位置=n/4=6.25, QL==19;QU位置=3n/4=18.75,QU=26.5
  (3)平均数 600/25=24,标准差
  (4)偏态系数SK=1.08,峰态系数K=0.77
  (5)分析:从众数、中位数和平均数来看,网民年龄在23-24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以,偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。
  4.3 (1)茎叶图如下:
  茎	叶	频数
  5
  6
  7	5
  6 7 8
  1 3 4 8 8	1
  3
  5
  (2) 63/9=7,
  (3)由于两种排队方式的平均数不同,所以用离散系数进行比较。
  第一种排队方式:v1=1.97/7.2=0.274;v2=0.714/7=0.102.由于v1>v2,表明第一种排队方式的离散程度大于第二种排队方式。
  (4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。
  4.4 (1) 8223/30=274.1
  中位数位置=n+1/2=15.5,Me=272+273/2=272.5
  (2)QL位置=n/4=7.5, QL==(258+261)/2=259.5;QU位置=3n/4=22.5,QU=(284+291)/2=287.5
  (3)
  4.5 (1)甲企业的平均成本=总成本/总产量=
  乙企业的平均成本=总成本/总产量=
  原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
  4.6 (1)(计算过程中的表略), 51200/120=426.67

  SK=0.203  K=-0.688
  4.7 (1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本上不受样本大小的影响。
  (2)两位调查人员所得到身高的标准差应该差不多相同,因为标准差的大小基本上不受样本大小的影响。
  (3)具有较大样本的调查人员有更大的机会取得最高或最低者,因为样本越大,变化的范围就可能越大。
  4.8 (1)要比较男女学生体重的离散程度应该采用离散系数。女生体重的离散系数为v女=5/50=0.1,男生体重的离散系数为v男=5/60=0.08,所以女生的体重差异大。
  (2)男生: 60×2.2=132(磅),s=5×2.2=11(磅)
  女生: 50×2.2=110(磅),s=5×2.2=11(磅)
  (3)假定体重为对称分布,根据经验法则,在平均数加减1个标准差范围内的数据个数大约为68%。因此,男生中大约有68%的人体重在55kg-65kg之间。
  (4)假定体重为对称分布,根据经验法则,在平均数加减2个标准差范围内的数据个数大约为95%。因此,男生中大约有95%的人体重在40kg-60kg之间。
  4.9 通过计算标准分数来判断:

  该测试者在A项测试中比平均分数高出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准分数高于B项测试,所以,A项测试比较理想。
  4.10 通过标准分数来判断,各天的标准分数如下表:
  日期          周一    周二   周三   周四   周五   周六  周日
  标准分数Z     3      -0.6   -0.2   0.4    -1.8   -2.2   0
  周一和周六两天失去了控制。
  4.11
  (1)应该采用离散系数,因为它消除了不同组数据水平高低的影响。
  (2)成年组身高的离散系数:
  幼儿组身高的离散系数:
  由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
  4.12
  (1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。
  (2)下表给出了各种方法的主要描述统计量。
  方法A	方法B 	方法C
  平均     165.6
  中位数   165
  众数     164
  标准差   2.13
  极差      8
  最小值   162
  最大值   170	平均     128.73
  中位数   129
  众数     128
  标准差   1.75
  极差      7
  最小值   125
  最大值   132	平均     125.53
  中位数   126
  众数     126
  标准差   2.77
  极差      12
  最小值   116
  最大值   128
  从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为: , , 。方法A的离散程度最小,因此,应选择方法A。
  4.13
  (1)用方差或标准差来评价投资的风险。
  (2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。
  (3)从投资风险角度看,应该选择风险较小的商业类股票。当然,选择哪类股票还与投资者的主观判断有很大关系。
  第五章练习题答案
  5.1 (1)平均分数是范围在0-100之间的连续变量,Ω=[0,100]
  (2)已经遇到的绿灯次数是从0开始的任意自然数,Ω=N
  (3)之前生产的产品中可能无次品也可能有任意多个次品,Ω=[10,11,12,13…….]
  5.2 设订日报的集合为A,订晚报的集合为B,至少订一种报的集合为A∪B,同时订两种报的集合为A∩B。
  P(A∩B)=P(A)+ P(B)-P(A∪B)=0.5+0.65-0.85=0.3
  5.3 P(A∪B)=1/3,P(A∩ )=1/9, P(B)= P(A∪B)- P(A∩ )=2/9
  5.4 P(AB)= P(B)P(A∣B)=1/3*1/6=1/18
  P( ∪ )=P( )=1- P(AB)=17/18
  P( )=1- P(B)=2/3
  P(  )=P( )+ P( )- P( ∪ )=7/18
  P( ∣ )= P( )/P( )=7/12
  5.5 设甲发芽为事件A,乙发芽为事件B。
  (1)由于是两批种子,所以两个事件相互独立,所以有:P(AB)= P(B)P(B)=0.56
  (2)P(A∪B)=P(A)+P(B)-P(A∩B)=0.94
  (3)P(A )+ P(B )= P(A)P( )+P(B)P( )=0.38
  5.6 设合格为事件A,合格品中一级品为事件B
  P(AB)= P(A)P(B∣A)=0.96*0.75=0.72
  5.7 设前5000小时未坏为事件A,后5000小时未坏为事件B。
  P(A)=1/3,P(AB)=1/2, P(B∣A)= P(AB)/ P(A)=2/3
  5.8 设职工文化程度小学为事件A,职工文化程度初中为事件B,职工文化程度高中为事件C,职工年龄25岁以下为事件D。
  P(A)=0.1 P(B)=0.5, P(C)=0.4
  P(D∣A)=0.2, P(D∣B)=0.5, P(D∣C)=0.7
  P(A∣D)=
  同理P(B∣D)=5/11, P(C∣D)=28/55
  5.9 设次品为D,由贝叶斯公式有:
  P(A∣D)= =0.249
  同理P(B∣D)=0.112
  5.10 由二项式分布可得:P(x=0)=0.25, P(x=1)=0.5, P(x=2)=0.25
  5.11 (1) P(x=100)=0.001, P(x=10)=0.01, P(x=1)=0.2, P(x=0)=0.789
  (2)E(X)=100*0.001+10*0.01+1*0.2=0.4
  5.13 答对至少四道题包含两种情况,对四道错一道,对五道。
  C54  C65 =1/64
  5.14 由泊松分布的性质有:
  P(X=1)= ,P(X=2)=  ,可得 =2
  P(X=4)=2/3e
  5.15
  所以,当k= -1和k= 时P(x=k)最大。
  5.16 (1)P( >2)= P(x>2)+ P(x<-2)= (0.5)+1- (2.5)=0.6977
  由于N(3,4)关于均值3对称,所以P(x>3)=0.5
  5.17 P(120<x<200)=P(
  ,
  5.18 (1)
  (2)
  第七章 练习题参考答案
  7.1 (1)已知 =5,n=40, =25, =0.05, =1.96
  样本均值的抽样标准差 = =
  (2)估计误差(也称为边际误差)E=  =1.96*0.79=1.55
  7.2(1)已知 =15,n=49, =120, =0.05, =1.96
  (2)样本均值的抽样标准差 = = 2.14
  估计误差E=  =1.96* 4.2
  (3)由于总体标准差已知,所以总体均值 的95%的置信区间为:
  =120 1.96*2.14=120 4.2,即(115.8,124.2)
  7.3(1)已知 =85414,n=100, =104560, =0.05, =1.96
  由于总体标准差已知,所以总体均值 的95%的置信区间为:
  =104560 1.96* 104560 16741.144即(87818.856,121301.144)
  7.4(1)已知n=100, =81,s=12,  =0.1, =1.645
  由于n=100为大样本,所以总体均值 的90%的置信区间为:
  =81 1.645* 81 1.974,即(79.026,82.974)
  (2)已知 =0.05, =1.96
  由于n=100为大样本,所以总体均值 的95%的置信区间为:
  =81 1.96* 81 2.352,即(78.648,83.352)
  (3)已知 =0.01, =2.58
  由于n=100为大样本,所以总体均值 的99%的置信区间为:
  =81 2.58* 81 3.096,即(77.94,84.096)
  7.5(1)已知 =3.5,n=60, =25, =0.05, =1.96
  由于总体标准差已知,所以总体均值 的95%的置信区间为:
  =25 1.96* 25 0.89,即(24.11,25.89)
  (2)已知n=75, =119.6,s=23.89,  =0.02, =2.33
  由于n=75为大样本,所以总体均值 的98%的置信区间为:
  =119.6 2.33* 119.6 6.43,即(113.17,126.03)
  (3)已知 =3.419,s=0.974,n=32, =0.1, =1.645
  由于n=32为大样本,所以总体均值 的90%的置信区间为:
  =3.419 1.645* 3.419 0.283,即(3.136,3.702)
  7.6(1)已知:总体服从正态分布, =500,n=15, =8900, =0.05, =1.96
  由于总体服从正态分布,所以总体均值 的95%的置信区间为:
  =8900 1.96* 8900 253.03,即(8646.97,9153.03)
  (2)已知:总体不服从正态分布, =500,n=35, =8900, =0.05, =1.96
  虽然总体不服从正态分布,但由于n=35为大样本,所以总体均值 的95%的置信区间为:
  =8900 1.96* 8900 165.65,即(8734.35,9065.65)
  (3)已知:总体不服从正态分布, 未知, n=35, =8900,s=500,  =0.1, =1.645
  虽然总体不服从正态分布,但由于n=35为大样本,所以总体均值 的90%的置信区间为:
  =8900 1.645* 8900 139.03,即(8760.97,9039.03)
  (4)已知:总体不服从正态分布, 未知, n=35, =8900,s=500,  =0.01, =2.58
  虽然总体不服从正态分布,但由于n=35为大样本,所以总体均值 的99%的置信区间为:
  =8900 2.58* 8900 218.05,即(8681.95,9118.05)
  7.7 已知:n=36,当 =0.1,0.05,0.01时,相应的 =1.645, =1.96, =2.58
  根据样本数据计算得: =3.32,s=1.61
  由于n=36为大样本,所以平均上网时间的90%置信区间为:
  =3.32 1.645* 3.32 0.44,即(2.88,3.76)
  平均上网时间的95%置信区间为:
  =3.32 1.96* 3.32 0.53,即(2.79,3.85)
  平均上网时间的99%置信区间为:
  =3.32 2.58* 3.32 0.69,即(2.63,4.01)
  7.8 已知:总体服从正态分布,但 未知,n=8为小样本, =0.05, =2.365
  根据样本数据计算得: =10,s=3.46
  总体均值 的95%的置信区间为:
  =10 2.365* 10 2.89,即(7.11,12.89)
  7.9  已知:总体服从正态分布,但 未知,n=16为小样本, =0.05, =2.131
  根据样本数据计算得: =9.375,s=4.113
  从家里到单位平均距离的95%的置信区间为:
  =9.375 2.131* 9.375 2.191,即(7.18,11.57)
  7.10 (1)已知:n=36, =149.5, =0.05, =1.96
  由于n=36为大样本,所以零件平均长度的95%的置信区间为:
  =149.5 1.96* 149.5 0.63,即(148.87,150.13)
  (2)在上面的估计中,使用了统计中的中心极限定理。该定理表明:从均值为 、方差为 的总体中,抽取了容量为n的随机样本,当n充分大时(通常要求 ),样本均值的抽样分布近似服从均值为 ,方差为 的正态分布。
  7.12 (1)已知:总体服从正态分布,但 未知,n=25为小样本, =0.01, =2.797
  根据样本数据计算得: =16.128,s=0.871
  总体均值 的99%的置信区间为:
  =16.128 2.797* 16.128 0.487,即(15.64,16.62)
  7.13  已知:总体服从正态分布,但 未知,n=18为小样本, =0.1, =1.74
  根据样本数据计算得: =13.56,s=7.8
  网络公司员工平均每周加班时间的90%的置信区间为:
  =13.56 1.74* 13.56 3.2,即(10.36,16.76)
  7.14 (1)已知:n=44,p=0.51, =0.01, =2.58
  总体比例 的99%的置信区间为:
  =0.51 2.58 =0.51 0.19,即(0.32,0.7)
  (2)已知:n=300,p=0.82, =0.05, =1.96
  总体比例 的95%的置信区间为:
  =0.82 1.96 =0.82 0.04,即(0.78,0.86)
  (3)已知:n=1150,p=0.48, =0.1,, =1.645
  总体比例 的90%的置信区间为:
  =0.48 1.645 =0.48 0.02,即(0.46,0.5)
  7.15 已知:n=200,p=0.23, 为0.1和0.05时,相应的 =1.645, =1.96
  总体比例 的90%的置信区间为:

7. 统计学第二题

反映多种项目或变量综合变动的相对数是(B )
总指数

统计学第二题

8. 统计学基础2

抽样和抽样分布
  
 区间估计
  
 假设检验
  
 抽样是为了估计总体的参数
                                                                                  
 样本比率:
                                          
 样本均值的抽样分布
                                          
  样本均值的标准差 
                                          
 当 样本 容量占总体 5%以下 时,公式可以简化成:
                                          
  重点: 
  
  1. 如果总体服从正态分布时:任何样本容量下的(x拔)的抽样分布都是正态分布。 
  
  2. a.中心极限定理:从总体中抽取容量为n的简单随机样本,当样本的容量额很大时,样本均值(x拔)的抽样分布近似服从正态概率分布。 
  
  b.其实在大多数的应用中,样本容量大于30时,(x拔)的抽样分布近似服 从正态概率分布
   
  
  样本比率 的抽样分布
                                                                                                                          
 当样本容量占总体5%以下时,公式可以简化成:
                                          
 如果样本容量足够大,并且np>=5和n(1-p)>=5,二项分布可用正态分布近似,(p拔)的抽样分布可用正态分布来近似。
  
  总体均值的区间估计 
  
 对总体均值进行估计时:1.要利用总体标准差σ计算边际误差2.抽样前可通过大量历史数据估计总体标准差。
  
 顾客购物消费额,历史数据σ=20美元,总体服正态分布。抽取n=100名顾客简单随机样本,样本均值=82美元,求样本均值的区间估计
                                          
 差值2个标准差置信度95%以上
                                          
 上侧面积即统计值两侧 单边 的面积
  
  置信系数1-α,对应上侧面积α/2 
  
 置信系数水平越高,边际误差就越大,置信区间越宽
  
  t分布:用样本本身的方差做区间估计时使用! 
  
 依赖于 自由度 ,自由度越大,t分布与标准误差部分差别越小
                                                                                                                          
  自由度:n-1 
  
 样本容量的确定(E为可接受的边界误差):
                                          
 如果 σ未知 ,可通过以下方法确定σ的初始值
  
 1.根据 以前研究 中的数据计算总体标准差的估计值
  
 2.利用实验性研究,选取一个初始样本,以 初始样本的标准差做估计值 
  
 3.对σ进行判断或最优猜测:计算 极差/4为标准差的粗略估计 
  
  总体比率 p的区间估计:
                                          
 样本容量的确定:
                                          
 (p拨)未知,用(p星)表示(p拨)的计划值
                                          
 (p星)的确定:
  
 1、用以前研究中类似的样本的样本比率作为计划值
  
 2、利用实验性的研究,选取一个初始样本,以初始样本的样本比例作为计划值。
  
 3、使用判断或最优猜测作为计划值
  
 4、如果上述均不可,计划值取为0.5,这是因为p(星)=0.5时,p星*(1-p星)取得最大值,同时样本容量也能取的最大值。
  
 尝试性地假设,然后用实际数据验证
  
  1、总体均值的检验 
  
 咖啡质量,需要3磅,σ=0.18,n=36罐,(x拨)=2.92
  
 以均值为3磅,σ=0.18/根号(n)建立正态分布
  
 求出2.92偏离了多少标准差
                                          
 z=-2.67时,p=0.0038,因此在0.01的 显著水平 下有足够的统计证据拒绝H0
  
  显著性水平和置信水平是反的!