统计学第五章参数估计.ppt
《统计学第五章参数估计.ppt》由会员分享,可在线阅读,更多相关《统计学第五章参数估计.ppt(110页珍藏版)》请在三一办公上搜索。
1、1,参数估计,第五章 参 数 估 计,南京财经大学统计系,2,本 章 内 容,第一节 统计推断的基本问题和概念第二节 总体参数的点估计第三节 正态总体均值的区间估计第四节 一般总体均值的大样本区间估计第六节 样本容量的确定,3,第一节 统计推断的基本问题和概念,、统计推断的基本问题一、简单随机抽样和抽样误差 二、统计量及其抽样分布三、参数估计的主要内容,4,统计推断的基本问题,如何根据观测或试验所得到的有限信息对总体作出推断,并同时指出所作的这种推断有多大的可靠性(用概率表示),是统计推断的基本问题。,统计推断通常是从所要研究的对象全体中抽取一部分进行观测或试验以获取信息,对总体作出推断。,由
2、于抽取部分个体观测和试验是随机进行的,依据有限个体的数据对总体作出的推断不可能绝对准确,总是包含误差,总是含有一定程度的不确定性,5,抽样,从总体中抽样有多种方法和技术,常用方法有简单随机抽样,分层抽样、系统抽样和整群抽样,不同的抽样方法得到不同的样本,进而所用的统计推断方法也不尽相同;简单随机抽样是最常用的方法。,6,简单随机抽样,为什么要进行随机抽样?由于种种原因,现实中很多现象不可能进行全面调查。对具有破坏性或消耗性的产品进行质量检验:灯泡,食品质量 对无限总体或总体容量过大的现象进行研究:海洋中的鱼 某些现象即使理论上可以进行全面调查,但为了节省大量的人力、物力、财力和时间,在不影响精
3、度和可靠度的前提下,采用抽样推断可以达到事半功倍的效果。,在进行随机抽样时,根据有无放回分为:重复抽样和不重复抽样,7,重复抽样又叫有放还抽样或重置抽样。它是每抽出一个样本单位后,把结果记录下来,随即将该单位放回到总体中去,使它和其余的单位在下一次抽选中具有同等被抽中的机会。在重复抽样过程中,总体单位数始终保持不变,并且同一个单位有多次被抽中的可能性。,重复抽样,8,不重复抽样又叫无放还抽样或不重置抽样。它是每抽出一个样本单位后,把结果记录下来,该单位就不再放回到总体中去参加以后的抽选。在不重复抽样过程中,总体单位数逐渐减少,并且每个单位至多只有一次被抽中的可能性。,不重复抽样,9,样本只是总
4、体的部分个体,不能完全包含总体的全部信息。不管采用什么推断方法,由样本推断总体时,必定存在差异,这种总体未知参数和相应的基于样本的统计量之间的差异称为抽样误差(sampling error)。抽样误差是抽样推断方法所固有的,只要利用抽样推断方法,抽样误差就一定存在,在参数估计和假设检验等统计推断过程中都伴有抽样误差。,抽样误差,相同的条件下,哪种方式的抽样误差较小?,不重复抽样,10,11,到底是那个误差才可以作为参考呢,事实上哪个也不行,最好能得到一个平均误差,12,抽样平均误差的理论公式,所谓总体成数(或比例)指总体中具有某种特征的个体的数量在总体中所占的比重,用表示;样本成数用p表示。,
5、M是指在固定样本容量下从总体中抽取不同样本的可能数目。,13,抽样误差,理论研究中,在,的条件下,常用标准差,来测度抽样平均误差,M通常难以获取,以上平均误差公式在实际中难以使用,就抽样平均数或成数而言,抽样平均误差就是抽样平均数或成数的标准差。,14,抽样平均数的抽样平均误差,重复抽样:不重复抽样:,理论研究表明在一定条件下样本均值的抽样平均误差公式为,当总体标准差未知时用样本值,N表示总体单位数,n表示样本容量,比较两种情形下的抽样平均误差的大小(公式,直观),样本均值(成数)的抽样平均误差即为样本均值(成数)的标准差,特别注意,显然,15,例题1,总体标准差未知,用样本标准差代替,16,
6、几个基本概念,样本,样本观测值:在一次抽样以后,观测到的一组确定的值或数据 称为该样本的观测值或样本数据,也称作该样本的一个实现;,显然,每次抽样的结果一般是不同的;如果我们记抽样结果为,显然这是一个多维随机变量;我们称之为随机样本,简称样本,样本,样本观测值,17,统计量,统计量:不依赖于任何未知参数的样本的函数或者说统计量仅仅是样本的函数,统计量的观测值:把样本的观测值代入统计量公式计算出的数值;,18,抽样分布,统计量是随机变量,它也有自己的分布密度和分布函数抽样分布;,由样本推断总体的有关特征时依据统计量的抽样分布。-如区间估计,假设检验,由于正态分布在统计学中的应用十分普遍,其样本均
7、值和样本方差在统计学中也起着非常重要的作用,接下来我们给出总体为正态分布的样本均值和样本方差的抽样分布,它们是统计推断的理论依据和基础。,19,一个正态总体(时的抽样分布),20,两个正态总体(时的抽样分布),21,非正态总体样本均值的抽样分布中心极限定理,方差未知用样本,22,总体成数和样本成数,所谓总体成数(或比例)指总体中具有某种特征的个体的数量在总体中所占的比重,用表示。如果总体容量为N,总体中的个体具有某特质(如合格)赋值为“1”,不具有此特质则赋值为“0”,假设总体均值u,为具有该特质的个体数,可见,对这种0-1总体而言,其均值等于成数,如果所有取值仅有0,1两个结果,这样的总体一
8、般称之为0-1总体,23,总体成数和样本成数,易知样本成数 p 就是样本均值;所以总体(样本)成数就是一类特殊总体的总体(样本)均值;易得成数的抽样误差:,总体标准差为:,24,抽样成数的抽样平均误差,重复抽样:不重复抽样:,总体成数未知,用样本成数代替,25,例题2,26,有关样本成数的渐近分布的结论可以作为样本均值的特殊情况得到,27,第二节 总体参数的点估计,一、矩估计二、极大似然估计二、点估计量的优良标准,28,参数估计的主要内容,非参数估计 参数估计 点估计 矩估计 极大似然估计 区间估计(置信区间)双侧置信区间(两个端点)单侧置信区间(一个端点)估计量和估计值,29,参数估计的主要
9、内容,瓶装饮料上所标注的容量:看一下饮料供应商有没有欺骗消费者,对瓶装饮料的含量估计一个区间,只要厂家的声称(或瓶上的标注)未超出我们所估计区间的上限,我们就认为没有欺骗行为-有上限即可,单侧置信区间举例:,30,在研究未知参数的估计值时,并不是根据一组样本的具体观测值来确定一个估计值,而是从总体出发,先根据某原理确定估计量(根据某种特定目的确定的统计量)。,点估计的特点,点估计的优点在于它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。点估计的不足之处,它不能提供误差情况如何、误差程度有多大的这类重要信息。,然后在研究参数一个估计量与参数的真值之间的偏差在统计意义下是大还是小,在统
10、计意义下偏差小的估计量通常被认为是好的。,31,矩估计,矩估计法是英国统计学家K.Pearson提出的。,其基本思想:用样本矩来估计相应的总体矩,从而得到总体分布的参数的估计,这种估计方法称为矩估计,32,一阶原点矩,一阶样本原点矩,矩估计,二阶中心矩,二阶样本中心矩,实际中,更多使用,33,矩估计,矩法估计优点:(1)只要总体的k阶矩存在,就可以用矩估计来估计总体参数;(2)简单、直观,且不必知道总体的分布类型,局限性:(1)如它要求总体的k阶原点矩不存在,否则无法应用;(2)它不考虑总体分布类型,如果总体的分布类型已知,由于它没有充分利用总体分布函数提供的信息,所以得到的结果并不比极大似然
11、估计来的准确。,34,1.无偏性,2.一致性(相合性)(以投币过程中正面出现的比重为例),3.有效性,这里 都是 的无偏估计,点估计优良性的测定,35,第三节 正态总体均值的区间估计,一、单正态总体均值的区间估计二、两正态总体均值之差的区间估计三、正态总体均值的单侧区间估计,36,区间估计,一 点估计是通过相应的估计量计算出一个数值去估计未知参数,而实际中常常用到参数的另一种估计形式:区间估计。,区间估计考虑了估计中可能出现的误差,并将误差以醒目的形式标出来,给以以更大的可信感。,如估计某人身高以很大的可能性在米之间,估计某月消费金额在1000-1400元之间,估计某个人的年龄范围等等。,37
12、,区间估计的概念和基本思想,38,置信区间越小,说明估计的精度越高,即我们对未知参数的了解越多、越具体;置信水平越大,估计可靠性就越大。,一般说来,在样本容量一定的前提下,精度(区间长度)与置信度往往是相互矛盾的;若置信水平增加,则置信区间必然增大,降低了精度;若精度提高,则区间缩小,置信水平必然减小。要同时提高估计的置信水平和精度,就要增加样本容量。,置信区间的构建往往要借助于未知参数点估计或其函数的抽样分布来进行。,39,单正态总体均值的区间估计(方差已知时),即要找到两个端点 使得平均寿命 满足,(一般置信区间构造和相应点估计的分布有关)回忆其样本均值的有关性质:,给定置信水平,我们可以
13、对任何概率值找到对应的区间,的定义,40,单正态总体均值的区间估计(方差已知时),即,所以总体均值 的置信水平为 的(双侧)置信区间,函数normsinv(1-/2)=-normsinv(/2)返回的即为我们所需的,重复抽样时平均数的抽样误差,41,总体方差,,样本容量为,,样本均值,置信水平为,对应函数normsinv(1-0.025)=-normsinv(0.025)=1.96,因此该厂60W灯泡的平均寿命的置信水平为95%的置信区间为,假如该厂声称其灯泡使用寿命平均为1490我们认为还是可信的,如果声称为1500,则认为不可信,42,注意:在构造区间估计时,事实上我们是通过寻找一个随机变
14、量 完成的,在此例中,就是找到了 这个量,我们把它称为是枢轴量,这也是构造区间估计的常用方法,在这个枢轴量中,只含有待估的未知参数而不含其他任何未知参数.,在很多情况下 可以从未知参数 的点估计经过变换获得,对给定的置信水平,利用枢轴量的抽样分布(一般都是常见分布)通过不等式变形即可得到未知参数的区间估计,构造位置参数的置信区间的一般步骤:,43,单正态总体均值的区间估计(方差未知时),当正态总体的方差未知时,如果要构造总体均值的区间估计,此时的 枢轴量就不能选择,因为其中含有未知参数,可考虑用样本标准差代替总体标准差,得到枢轴量,,服从自由度为n-1的t分布,44,t分布函数说明,1;单尾
15、2:双尾,Tdist(x,deg-greedom,tail)=p(|T|x)或p(Tx)p=Tdist(1.75,8,2)=0.118233;p=Tdist(1.75,8,1)=0.059116,非负,45,t分布函数说明,Tinv(0.118233,8)=1.75 tinv(0.05,8)=2.306,概率-分位点,如果求p(T?)=-运用t分布的对称性,Tinv(0.1,8)=1.8595,Tinv(probability,deg-freedom):返回p(|T|x)=probability所对应x(注:只是双侧情形)即Tinv(,m):返回的即为双侧置信区间估计中的所需的分位点,计算,4
16、6,47,对应函数Tinv(0.01,24)=2.7969,类似题目见活页ex-3,48,类似题目见活页ex-2,由于样本量较大,所以采用了正态分位数,49,t分布与标准正态分布的比较,50,教材数据中的ch5例5.6Exel演示,51,Exel演示,Tinv(0.05,31),-Normsinv(0.025),52,正态总体均值的单侧区间估计,根据研究者掌握的关于总体均值的信息,有时只需要或只想要寻求有关总体均值的置信下限(或置信上限),这就涉及到单侧置信区间问题,饮料的容量-消协想根据瓶上的容量标注看一下商家有没有欺骗消费者估计出饮料容量可能的区间,其实只要瓶上的标注容量没有超出区间的上限
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第五 参数估计
链接地址:https://www.31ppt.com/p-6193913.html