抽样分布与统计推断原理.ppt
《抽样分布与统计推断原理.ppt》由会员分享,可在线阅读,更多相关《抽样分布与统计推断原理.ppt(101页珍藏版)》请在三一办公上搜索。
1、第三章 分布与抽样分布,第二节 抽样分布,第一节 概率与概率分布,第三节 统计推断,第一节 概率与概率分布,一 概率,(一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。,概率的统计定义 在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐
2、渐增大时,随机事件A的频率越来越稳定地接近某一数值 p,那么 就 把 p称为随机事件A的概率。这 样 定 义 的 概 率 称 为 统 计 概 率(statistics probability),或者称后验概率(posterior probability),表3-1 抛掷一枚硬币发生正面朝上的试验记录,从表3-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即 P(A)=pm/n(n充分大),(二)概率的性质 1、
3、对于任何事件A,有0P(A)1;2、必然事件的概率为1,即P()=1;3、不可能事件的概率为0,即P()=0。,一个总体是由一个随机变量的所有可能取值来构成的,而样本只是这些所有可能取值的一部分,随机变量中某一个值出现的概率,只是随机变量一个侧面的反映,若要全面了解随机变量则必须知道随机变量的全部值和各个值出现的概率,即随机变量的概率分布,概率和概率分布是生命科学研究中由样本推断总体的理论基础,随机变量的种类很多,每一种随机变量都有其特定的概率分布。,连续型随机变量,离散型随机变量,在一定范围内可连续取值的变量。,在一定范围内只取有限种可能的值的变量。,正态分布,二项分布、泊松分布,二 概率分
4、布,1.正态分布,正态分布(normal distribution)的概念是由德国数学家和天文学家Moivre于1733年首次提出的,由德国数学家Gauss率先将其应用于天文学研究,故正态分布又称为Gauss分布(Gaussian distribution)。,许多生物学领域(如身高、体重、脉搏、血红蛋白、血清总胆固醇等)的随机变量都服从或者近似服从正态分布或通过某种转换后服从正态分布,许多其他类型分布基本上都与正态分布有关,它们的极限就是正态分布。,1.1 正态分布的定义,在日常工作中所遇到的变量大多是连续型随机变量,当这一类随机变量呈线性时,往往服从正态分布,连续型随机变量的概率分布,频数
5、分布表:,下面我们以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。,频数分布图(又称直方图),从频数表及频数分布图上可得知:该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布。所以我们通俗地认为该资料服从正态分布。,频数分布图二,频数分布图三,正态分布图四,和正态分布相对应的曲线称为正态分布密度曲线,简称为正态曲线。,用来描述正态曲线的函数称为正态分布密度函数,总体平均数,2 总体方差,圆周率3.14,总体标准差,任何一个正态分布均由参数和所决定,如果一个随机变量x服从平均数为、方差为2的正态分布,可记为xN(,2)。,e 自然对数的底,2.71828,1.2
6、 正态分布的特点,(1)正态分布曲线以直线x=为对称轴,左右完全对称,(3)正态分布曲线有两个拐点,拐点座标分别为(-,f(-)和(+,f(+),在这两个拐点处曲线改变方向,即曲线在(-,-)和(+,+)区间上是下凹的,在-,+区间内是上凸的,(2)在x=处,f(x)有最大值,(4)正态分布密度曲线的位置由决定(为位置参数),形状由决定(为形状参数),(5)正态分布曲线向两边无限延伸,以x轴为渐进线,分布从-到+,的大小决定了曲线在x轴上的位置,的大小则决定了曲线的胖瘦程度,当恒定时,愈大,则曲线沿x轴愈向右移动,愈小,曲线沿x轴愈向左移动,越大表示数据越分散,曲线越胖,越小表示数据越集中,曲
7、线越瘦,1.3 标准正态分布,正态分布由和所决定,不同的、值就决定了不同的正态分布密度函数,因此在实际计算中很不方便的。需将一般的N(,2)转换为=0,2=1的正态分布。我们称=0,2=1的正态分布为标准正态分布(standard normal distribution),可见,由正态分布密度函数,得到标准正态分布密度函数:,1.4 正态分布的概率计算,根据概率论原理,可知随机变量x在区间(a,b)内取值的概率是一块面积:,面积由,曲线,所围成的曲边梯形所组成:,随机变量x在(-,+)间取值的概率为1,即:,求随机变量x在某一区段内取值的概率就转化成了求由该区段与相应曲线所围成的曲边梯形的面积
8、。,由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,而这些计算在动物科学研究和生产实践中又经常会用到。,最好的解决办法:将正态分布转化为标准正态分布,然后根据标准正态分布表(附表1)直接查出概率值。,(1)标准正态分布的概率计算,附表1列出了在标准正态分布随机变量u在区间(,u内取值的概率:,标准正态分布的概率计算通式,标准正态分布函数表,例1:若u N(0,1),求:,(1),(2),(3),解:,(1),(2),(3),关于标准正态分布,以下几种概率应当熟记:,P(-1u1)=0.6826,P(-2u2)=0.9545,P(-3u3)=0.9973,P(-1.96u1.96)=0
9、.95,P(-2.58u2.58)=0.99,P(u1),u变量在上述区间以外取值的概率,,即两尾概率:,=1-P(-1u1),=1-0.6826=0.3174,P(u2)=1-P(-2u2)=0.0455,P(u3)=1-0.9973=0.0027,P(u1.96)=1-0.95=0.05,P(u2.58)=1-0.99=0.01,(2)正态分布的概率计算,对于服从任意正态分布N(,2)的随机变量,欲求其在某个区间的取值概率,需先将它标准化为标准正态分布N(0,1)的随机变量,然后查表即可。,实质:为了能使正态分布应用起来更方便一些,可以将x作一变换,令:,变换后的正态分布密度函数为:,标准
10、正态分布均具有=0,2=1的特性,如果随机变量u服从标准正态分布,可记为:uN(0,1),u变换,这个变换称为标准化或u变换,由于x是随机变量,因此u也是随机变量,所得到的随机变量U也服从正态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为u分布。可见:,数学期望与方差的运算,随机变量的数学期望就是指它们的理论均数,其统计学意义就是对随机变量进行长期观测所得数据的平均数,因而,数学期望只对长期或大量观测值才有意义,对于个别观测或试验无意义。,例2:设 x N(30,102)试求x 40的概率。,解:,首先将正态分布 转化为标准正态分布,令:,则u服从标准正态分布,故:
11、,例3:设x服从=30.26,2=5.102的正态分布,试求P(21.64x32.98)。,解:令,则u服从标准正态分布,故=P(-1.69u0.53)=(0.53)-(-1.69)=0.6564,关于一般正态分布,经常用到以下几个概率:,P(-x+)=0.6826,P(-2x+2)=0.9545,P(-3x+3)=0.9973,P(-1.96x+1.96)=0.95,P(-2.58x+2.58)=0.99,把随机变量x落在平均数加减不同倍数标准差区间之外的概率称为两尾概率(双侧概率),记作。,对应于两尾概率可以求得随机变量x小于-k或大于+k的概率,称为一尾概率(单侧概率),记作2。,0.3
12、173,0.0455,0.0027,0.05,0.01,/2,附表2:,给出了满足,两尾临界值u,因此,可以根据两尾概率,由附表2查出相应的临界值u。,例4:已知 u N(0,1),试求u:,(1),(2),解:,(1),(2),2.二项分布,二项分布(binomial distribution)是一种最常见的、典型的离散型随机变量的概率分布。,有些试验只有非此即彼两种结果,这种由非此即彼的事件构成的总体,称为二项总体。,结果“此”用变量1表示,,概率为 p,结果“彼”用变量0表示,,概率为 q,对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与A-中之一,在每次试验中出现A的概率是
13、p(0p1),因而出现对立事A-件的概率是1-p=q,则称这一连串重复的独立试验称为n重贝努利试验。,贝努利试验,在n重贝努利试验中,事件A恰好发生m(0mn)次的概率为:,其中:,m0,1,2,n,2.1 二项分布的定义,设随机变量x(概率为P的事件A出现的次数)所有可能取的值为零和正整数:0,1,2,n,且有,其中:,m0,1,2,n,则称随机变量x服从参数为n和p的二项分布,,记为 x B(n,p),只有两种可能结果的属性资料服从二项分布。如:存活、治愈、孵化、性别、阳(阴)性等资料(往往以百分率计算)。,2.2 二项分布的特点,(1)当p值较小且n不大时,分布是偏倚的,随着n的增大,分
14、布逐渐趋于对称,p=0.3,n=5,n=20,n=50,(2)当p值趋于0.5时,分布趋于对称,(3)对于固定的n及p,当m增加时,Pn(m)先随之增加并达到其极大值,以后又下降,(4)二项分布在n较大,且np5,np、nq较接近时,接近正态分布,n时服从正态分布,即二项分布的极限是正态分布,(5)二项分布的平均数为:,方差为:,标准差为:,例4:某奶牛场情期受胎率为0.6,该场对30头发情母牛配种,使24头母牛一次配种受胎的概率为多少?,解:,2.3 二项分布的概率计算,课堂练习:用某种常规药物治疗猪瘟的治愈率为0.7,对20头患猪瘟的肥育猪进行治疗,问20头猪中16头猪治愈的概率是多少?,
15、解:,3.泊松分布,当二项分布中的n,p0时,二项分布趋向于一种新的分布,泊松分布(普哇松分布)(Poissons distribution),当试验次数(或称观测次数)很大,而某事件出现的概率很小,则离散型随机变量x服从于泊松分布。,3.1 泊松分布的定义,若随机变量x(x=m)只取零和正整数值0,1,2,且其概率分布为:,其中:=np,是一个常量,且,则称x服从参数为的泊松分布,,记为x P(),泊松分布主要是用来描述小概率事件发生的概率,单位空间中某些野生动物数,畜群中的畸形个体数,畜群中某些遗传性疾病的患病数,泊松分布不是用来描述几乎不可能发生的事件的概率,山无棱,天地合,南京六月飞雪
16、,(1)泊松分布只有一个参数,=np。,3.2 泊松分布的特点,既是泊松分布的平均值,又是方差2,即:,(2)泊松分布的图形决定于,值愈小分布愈偏倚,随着的增大,分布趋于对称。,当=20时分布接近于正态分布;当=50时,可以认为泊松分布呈正态分布。,3.3 泊松分布的概率计算,例5:某大型猪场因某种疾病死亡的猪数呈泊松分布。已知该场平均每年因这种疾病死亡的猪数为9.5头,问2007年该场因这种疾病死亡的猪数为15头的概率是多少?,解:,根据泊松分布的性质可知:,2007年该场因这种疾病死亡的猪数为15头的概率是2.65%。,第二节 抽样分布,统计学的主要任务就是研究总体和样本的关系:,从样本到
17、总体,从总体到样本,目的就是通过样本来推断总体。,目的就是研究样本统计量的分布及其与原总体的关系,从特殊到一般,,从一般到特殊,,统计推断,抽样分布,抽样分布是统计推断的基础,研究抽样分布的目的就是为了更好地进行统计推断,并能正确地理解统计推断的结论。,1.抽样分布的概念,样本平均数 和样本方差S2是描述样本特征的两个最重要的统计量,总体平均数和总体方差2是描述总体特征的两个最重要的参数,因此,研究总体和样本的关系,实际就是研究:,S2,2,就总体而言,和2都是常量,从总体中随机地抽取若干个体所组成的样本,即使每次抽取的样本容量都相等,每一个样本所得到的样本平均数也不可能都相等,同时也不可能就
18、等于总体平均数,样本统计量将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布,样本统计量的概率分布称为抽样分布(sampling distribution),样本统计量与总体参数之间的差异称为抽样误差(sampling error),从总体中抽取样本的过程称为抽样(sampling),抽样分为复置抽样和不复置抽样两种:,复置抽样指每次抽出一个个体后,这个个体应返回原总体,不复置抽样指每次抽出的个体不返回原总体,对于无限总体,或者样本容量n与总体容量N相比很小时,返回与否都可保证每个个体被抽到的机会相等,复置抽样等同于不复置抽样,对于有限总体,应该采取复置抽样,否则各个体被抽到
19、的机会就不相等,在实际操作中,均为不复置抽样,在理论研究中则以复置抽样为主,2.样本平均数的抽样分布(p47),2.1 样本平均数抽样分布的概念,从总体容量为N的总体中进行抽样,如果每个样本的样本容量均为n,将所有这样的样本都抽出来,并计算出每一个样本的平均数,原来的那个总体,称为原总体,由样本平均数组成的分布称为样本平均数的抽样分布,如果原总体的平均数为,标准差为,那么样本平均数抽样总体:,平均数为:,标准差为:,称为样本平均数抽样总体的标准误差,简称为标准误(standard error),由这些样本平均数组成的新总体,就称为样本平均数抽样总体。,标准误表示平均数抽样误差的大小,反映样本平
20、均数与新总体平均数之间的离散程度。,标准差表示的是原总体中原始数据与原总体平均数的关系,标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样总体平均数的关系,研究总体与样本的关系就转化成了讨论原总体与样本平均数抽样总体的关系:,例6:设有一总体,总体容量为N=3,观测值分别为2、4、6,以样本容量n=2对该总体进行复置抽样,证明:,(1),(2),原总体的总体平均数为:,(1),以样本容量n=2对该总体进行复置抽样,则样本平均数抽样总体为:,样本平均数抽样总体的总体容量为:,样本平均数抽样总体的总体平均数为:,(2),原总体的总体标准差为:,样本平均数抽样总体的总体标准差为:,2.2 样本
21、平均数抽样分布的特点,(1)样本平均数抽样总体的总体平均数与原总体的总体平均数相等,,因此,可用代替,(2)样本平均数抽样总体的方差与原总体的方差的关系为,(3)当随机变量xN(,2)时,样本平均数,当随机变量x不呈正态分布或分布未知时,只要样本容量n不断增大(或足够大),则样本平均数的分布逐渐趋向于正态分布,且平均数为,,方差为,中心极限定理,样本平均值 服从或近似服从正态分布,2.3 与 的关系,(1),(2)表示原总体中各观测值的离散程度,表示样本平均数抽样总体中各样本平均数的离散程度,(3)是总体中各观测值变异程度的度量值,是样本平均数抽样误差的度量值,是用来衡量样本平均数代表总体平均
22、数的代表程度的,(4)称为标准差,用Sd表示,称为标准误,用Se表示,3.标准误的作用,(1)衡量样本平均数间的变异程度,(2)推断总体平均数的可能范围,标准误大,说明样本平均数间的变异程度大,标准误大,用样本平均数来估计总体平均数的效果差,样本平均数的代表性弱,在通常情况下,可以用样本标准误来估计抽样总体标准误,可用样本平均数标准误来估计总体平均数的可能范围,表示原始数据的变异程度的,是用样本平均数来估计总体平均数的可能范围,(3),4.t-分布,4.1 t-分布的定义,设有服从正态分布的随机变量x,正态分布的标准化公式为:,对于总体方差2已知的总体,根据公式可以计算出随机变量x在某一区间内
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 分布 统计 推断 原理

链接地址:https://www.31ppt.com/p-5056491.html