《样本及其分布》PPT课件.ppt
《《样本及其分布》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《样本及其分布》PPT课件.ppt(98页珍藏版)》请在三一办公上搜索。
1、中南大学数学公共课程之数理统计,郭孔华中南大学数学科学与计算技术学院,变量函数的分布等。但是对一个实际问题,随机变量的概率分布往往是不知道的,如何确定随机变量的概率分布或数字特征就是数理统计要解决的问题。,在概率论中,我们所研究的随机变量,,它的分布,都是假设已知的,,在这一前提下去研究它的性质、,特点和规律性,,例如求出它的数字特征,,讨论随机,数理统计是一个内容十分丰富的数学分支。,它既有严格的理论,更有极其广泛的应用。而且,随着科技的发展其研究内容还在不断地充实提高。,数理统计的基本概念,从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作
2、.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.,到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.,数理统计学,数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.,数理统计学研究的对象及任务,注:只允许我们对随机现象进行次数不多的观察试验,也就是说,我们获得的只是局部观察资料.,作出精确而可靠的结论.,从总体上来说,数理统计可以分为两大类:,一类是如何科学地安排试验,,此部分内容称
3、为描述统计学如:试验设计、抽样方法。,另一类是研究如何分析所获得的随机数据,,对所研究,的问题进行科学的、合理的估计和推断,,尽可能地为,采取一定的决策提供依据,,这部分的内容称为推断统计学,,如:参数估计、假设,检验等。,我们主要讨论有关推断统计学中几个最基本的,问题。,以获取有效的随机数据。,对随机现象进行观测、试验,以取得有代表性的观测值,对已取得的观测值进行整理、分析,作出推断、决策,从而 找出所研究的对象的规律性,参数估计(第6章),假设检验(第7章),回归分析(第8章),方差分析(第8章),推断 统计学,100个样品进行强度测试,于是面临下列几个问题:,例如 某厂生产一型号的合金材
4、料,,用随机的方法选取,1、估计这批合金材料的强度均值是多少?,(参数的点估计问题),2、强度均值在什么范围内?,(参数的区间估计问题),3、若规定强度均值不小于某个定值为合格,那么这,批材料是否合格?,(参数的假设检验问题),4、这批合金的强度是否服从正态分布?,5、若这批材料是由两种不同工艺生产的,那么不同,的工艺对合金强度有否影响?,若有影响,那一种工艺,生产的强度较好?,(分布检验问题),(方差分析问题),6、若这批合金,由几种原料用不同的比例合成,那么,如何表达这批合金的强度与原料比例之间的关系?,(回归分析问题),我们依次讨论参数的点估计、区间估计、假设检验等内容。,首先我们讨论数
5、理统计中的一些基本概念。,第5章 样本及其分布,在数理统计中,我们所研究的随机变量的分布往往是未知的,通过对随机变量进行多次独立重复的试验和观测,获取数据,利用实际观测数据研究随机变量的分布,对其分布函数、数字特征等进行估计和推断 本章作为数理统计基础,学习总体、样本、统计量与抽样分布等有关概念,以及有关正态总体的重要的抽样分布定理,5.1 简单随机样本,总体容量有限的称为有限总体,总体,一个统计问题总有它明确的研究对象.,1.总体,研究对象的全体称为总体(母体),,总体中每个对象称为个体.,研究某批灯泡的质量,总体,考察国产 轿车的质量,1 总体和样本,不过在统计研究中,人们关心总体仅仅是关
6、心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.,该批灯泡寿命的全体就是总体,灯泡的寿命,每公里的耗油量,所有国产轿车每公里耗油量的全体就是总体,这时,每个个体具有的数量指标的全体就是总体.,称总体中所含个体的数目为总体容量,总体容量无限的称为无限总体.,当个体个数很大时通常把有限总体看作无限总体。,那么,此总体就可用描述其寿命的随机变量 X 或用其分布函数 F(x)表示.,因此在理论上可以把总体与概率分布等同起来.,概率分布是刻划这种集体性质最适当的工具.,统计的任务,是根据从总体中抽取的样本,去推断总体的性质.,由于我们关心的是总体中的个体的某项指标(如人的身高、体重,
7、灯泡的寿命,汽车的耗油量),,从另一方面看:,如研究某批灯泡的寿命时,关心的数量指标就是寿命,所谓总体的性质,无非就是这些指标值集体的性质.,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数 F(x,y)来表示.,总体概念的要旨:总体就是一个概率分布,再如,若研究某地区中学生的营养状况时,关心的数量指标是身高和体重,当X为离散型时,,称X的概率函数(分布列)为,总体概率函数。,当X为连续型时,,称X的概率密度为总体密度函数。,当总体分布为指数分布时,,称为指数分布总体;,当总体分布为正态分布时,,称为正态分布总体或,简称正态总体等等.,例如本市家庭的月收入
8、X是个随机变量,,X服从什么,在数理统计中总体X的分布永远是未知的,,有足够的理由可以认为总体X服从某种类型的分布,,但这个分布的参数还是未知的。,分布事先是不清楚的,,根据资料可确信,即使,但,究竟取什么值还是未知的,,由于总体X的分布是未知的,,因此X的数字特征如,均值、方差等往往也是一个未知的值。,对于这些未知,值可以根据有关数据来推测。,坏性的试验更是不允许对整个总体进行考察.,考察某工厂生产的灯泡寿命,考察某型号手机的质量,考察吸烟和患肺癌的关系,在实际问题中,,要考察整个总体往往是不可能的,,因为它需要耗费太多的资源和太多的时间.,有些破,2、样本与简单样本,样本中所包含的个体数目
9、称为样本容量.,但是,一旦取定一组样本,得到的是 n 个具体的数 x1,x2,xn,按一定规则从总体中抽取若干个体进行观察试验以获得有关总体的信息.,为推断总体分布及各种特征,从国产轿车中抽5辆进行耗油量试验,样本容量为 5,样本是随机变量,抽到哪 5 辆是随机的!,容量为 n 的样本可以看作一 n 维随机变量(X1,X2,Xn).,所抽取的部分个体称为样本.,这一抽取过程称为抽样,称为样本(X1,X2,Xn)的一组观测值,简称样本值.,样本的值域称为样本空间。,它要求抽取的样本X1,X2,Xn 满足下面两点:,它可以用与总体同分布的 n 个相互独立的随机变量 X1,X2,Xn 表示.,2.代
10、表性:Xi(i=1,2,n)与所考察的总体 X 同分布.,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.,最常用的一种抽样方法叫作简单随机抽样,1.独立性:X1,X2,Xn 是相互独立的随机变量;,抽样的目的是为了对总体进行统计推断,,由简单随机抽样得到的样本称为简单随机样本,,今后,说到“X1,Xn 是取自某总体的样本”时,若不特别说明,就指简单随机样本.,则其简单随机样本的联合分布函数为,F(x1,x2,xn)=F(x1)F(x2)F(xn),简单随机样本是应用中最常见的情形,若总体 X 的分布函数为F(x),若总体 X 的概率密度为 f(x),则其简单随机样本的联合概率密度为
11、,求样本(X1,X2,X3)的概率分布.,ex1.设总体 X B(1,p),即 P(X=x)=p x(1-p)1-x,X=0,1.,设 X1,X2,X3 为 X 的一个样本,解,x i=0,1;,i=1,2,3.,(X1,X2,X3)的分布律,P(X1=x1,X2=x2,X3=x3),又 x1+x2+x3=0,1,2,3,P(X1=x1,X2=x2,X3=x3),k=0,1,2,3.,ex2.设总体X服从均值为1/2的指数分布,X1,X2,X3,X4为来自X的样本,求X1,X2,X3,X4的联合概率密度和联合分布函数,解:X的概率密度为,其分布函数为,则X1,X2,X3,X4的联合概率密度为:
12、,比如我们从某班大学生中抽取 10 人测量身高,得到 10 个数.,我们只能观察到随机变量取的值而见不到随机变量.,它们是样本取到的值而不是样本.,3.总体、样本、样本值的关系,总体(理论分布)?,样本,样本值,统计是从手中已有的资料 样本值,去推断总体的情况 总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,,事实上,我们抽样后得到的资料都是具体的、确定的值.,因而可以由样本值去推断总体.,?,是总体的代表,含有总体的信息,分散、复杂,样本是联系二者的桥梁,其中 已知,未知,则称 g(x1,xn)是一个统计量.,一个有效的方法就是构造一些样本的函数,若样
13、本函数 g(x1,xn)中不含任何未知参数,由样本值去推断总体情况,需要对样本值进行“加工”,1.统计量,这种不含任何未知参数、完全由样本决定的量称为统计量,通过样本函数把样本中所含的(某一方面)的信息集中起来.,定义 设X1,X2,Xn 是来自总体 X 的容量为 n 的样本,样本的函数,ex1.设 X1,X 2,X3 是取自正态总体 X(,2)的一个样本,问下列样本函数中哪些是统计量,那些不是?,X1,X2+1,(X1+X2+Xn)/3,Max X1,X2,X3,我们主要研究两种基本的统计量:,样本矩 和 顺序统计量,2 统计量,几个常见的统计量,样本均值,样本方差,反映了总体均值的信息,它
14、反映了总体方差的信息,样本 k 阶原点矩,样本 k 阶中心矩,k=1,2,它反映了总体 k 阶矩的信息,反映了总体 k 阶中心矩的信息,并称他们相应的观测值,样本标准差,它反映了总体标准差的信息,k=1,2,仍分别为:样本均值、样本方差、样本标准差、样本 k 阶原点矩、样本 k 阶中心矩.,10 样本矩,统称为 样 本 矩,统计量的重要性质,设 X1,X2,Xn 是来自总体 X 的容量为 n 的样本,若 X 有期望 EX=和方差 DX=2,则,ex3.,=,(1),E(S 2)?,=2,(2),=2/n;,2 顺序统计量与极差,设,为样本,为样本值,且,当,取值为,时,定义 r.v.,则称统计
15、量,为顺序统计量.,其中,称,为极差,总 体,样 本,统 计 量,描述,作出推断,随机 抽样,我们介绍了数理统计的基本概念.,小结,5.2 抽样分布,统计量的分布称为抽样分布。在使用统计量进行统计推断时常需知道它的分布。当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。本节介绍来自正态总体的几个常用统计量的分布。今后,我们将看到这些分布在数理统计中有重要的应用。,(1)正态分布,则,特别地,则,若,若,(2)伽玛分布(分布),如果连续型随机变量X的密度函数为,为函数,则称X服从参数是,的伽玛分布,记为X(,).,定义,其中,,函数具有以下性质:,设X(,)
16、,可以证明:对于任意整数k,有,从而有:,一、统计学的三大分布,为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即 分布,分布,分布。1、分布设 是来自总体 的样本,则称统计量(1)服从自由度为 的 分布,记为,此处,自由度是指(1)式右端包含独立变量个数,分布的概率密度为,的图形如图51所示。,(2),图51,此结论可推广:设 且相互独立,分布的可加性,(证明略),则,例 设 是总体 的简单随机样本,试确定c和d使得,解:容易求得,并求出n。,并且它们是相互独立的,由2分布的定义知,由此可知,c=1/3,d=1/2,n=2。,若,则有,分布的数学期望和方差,因,故,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 样本及其分布 样本 及其 分布 PPT 课件
链接地址:https://www.31ppt.com/p-5532991.html