第六章概率分布课件.ppt
第六章 概率分布,第一节 概率的基本概念第二节 正态分布第三节 二项分布第四节 抽样分布,第一节 概率的基本概念,一、什么是概率在心理与教育研究中,大部分现象属于随机现象,随机现象又称随机事件。随机是指在一定条件下可能出现也可能不出现的,表明随机事件出现可能性大小的客观指标就是概率(probability)。概率的定义有两种,即后验概率和先验概率。,(一)后验概率(posterior probability)或统计概率随机事件A的频率当n无限增大时,随机事件A的频率会稳定在一个常数P,这个常数就是随机事件A的概率。,(二)先验概率(prior probability)或古典概率古典概率模型要求满足两个条件: 实验的所有可能结果(基本事件)是有限的; 每一种可能结果出现的可能性相等。,二、概率的基本性质(一)概率的公理系统1任何一个随机事件的概率都是非负的。 0 P(A)12不可能事件的概率等于零。3必然事件的概率等于1。,(二)概率的加法定理互不相容事件:在一次实验或调查中,若事件发生,则事件就一定不发生,这样的两个事件为互不相容事件。加法定理(additive rule):两互不相容事件A、B之和的概率,等于这两个事件概率之和。即,(三)概率的乘法定理独立事件:一个事件的出现对另一个事件的出现不发生影响。相关事件或相依事件:事件A的概率随事件B是否出现而改变,事件B的概率随事件A是否出现而改变。,乘法定理(product rule):两个独立事件同时出现的概率等于这两事件概率的乘积。,【例】从52张扑克牌(去掉大小王牌)中有放回地连续抽两张牌,即抽完第一张后将所抽的牌再放回去,混合好后再抽第二张。(1)第一次抽取红桃K第二次抽取方块K的概率是多少?(2)第一次抽取红桃第二次抽取方块的概率是多少?(3)抽牌两次皆为红色的概率是多少?,【例6-1】一枚硬币掷三次,或三枚硬币各掷一次,问出现两次或两次以上H的概率是多少? 解:投掷硬币可能出现八种结果(HHH、HHT、HTH、THH、TTH、THT、HTT、TTT)。每种结果可能出现的概率,依概率乘法规则计算: 各为 。,设P(A)代表3次H的概率,P(B)代表“HHT”这种结果的概率,P(C)代表“HTH”的概率,P(D)代表“THH”的概率。依据概率加法规则计算:,三、概率分布类型概率分布(probability distribution):对随机变量取值的概率分布情况用数学方法(函数)进行描述,一般用概率分布函数进行描述。概率分布依不同的标准可以分为不同的类型。,(一)离散分布与连续分布离散分布:离散型随机变量的概率分布,即计数数据的概率分布。常用的离散分布有二项分布(binomi distribution)、泊松分布(Poisson distribution)和超几何分布(hypergeometric distribution)等。,连续分布:连续随机变量的概率分布,即测量数据的概率分布。常用的连续分布有正态分布、负指数分布、威布尔分布等。,(二)经验分布与理论分布依分布函数的来源,可将概率分布分为经验分布与理论分布。经验分布(empirical distribution):根据观察或实验所获得的数据而编制的次数分布或相对频率分布。理论分布(theoretical distribution):随机变量概率分布的函数-数学模型;按某种数学模型计算出的总体的次数分布。,随机变量概率分布的性质,由它的特征数来表达。这些特征数主要有期望值(理论平均数)和方差。,(三)基本随机变量分布与抽样分布依概率分布所描述的数据特征,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution)。基本随机变量分布:随机变量各种不同取值情况的概率分布,常用的有二项分布、正态分布。抽样分布:从同一总体内抽取的不同样本的统计量的概率分布。,样本统计量主要有平均数、两平均数之差、方差、标准差、相关系数、回归系数、百分比率(或概率)等。统计量是基本随机变量的函数,故抽样分布也称随机变量函数的分布。,基本随机变量分布与抽样分布是应用于统计学上的理论分布,是统计推论的重要依据,只有对它们真正了解,才能明确各种统计方法的应用条件及注意问题,并对各种具体方法有较为深刻的理解。,第二节 正态分布,正态分布(normal distribution):常态分布、常态分配,是连续随机变量概率分布的一种,在数理统计的理论与实际应用中占有最重要地位的一种理论分布。棣莫弗、拉普拉斯、高斯,一、正态分布特征(一)正态分布曲线函数正态分布曲线函数又称概率密度函数,其一般方程为,分布函数与概率密度函数分布函数F(x)=P(Xx),表示随机变量X的值小于x的概率。 概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域x,那么,随机变量X落在(x, x+x)内的概率约为f(x)x,即P(xXx+x)f(x)x。概率密度f(x)是X落在x处“单位宽度”内的概率。“密度”一词可以由此理解。,(二)正态分布的特征1.正态分布的形式是对称的,其对称轴是经过平均数点的垂线。2.正态分布的中央点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。,3.正态曲线下的面积为1,由于它在平均数处左右对称,故经平均数点的垂线将正态曲线下的面积划分为相等的两部分,各为0.50。,4.正态分布是一簇分布,随随机变量的平均数()、标准差()的大小与单位不同而有不同的分布形态。所有正态分布都可以通过Z分数公式非常容易地转换成标准正态分布(standard normal distribution)。根据Z分数的性质可知,标准正态分布的=0,2=1。,标准正态分布通常写作N(0,1)正态分布。标准正态分布的密度函数:标准正态分布的密度函数及面积(概率)的计算公式:,5.正态分布中各差异量数数值相互间有固定比率。表6-1 正态分布中各种差异量数值的固定比率,6.在正态分布曲线下,标准差与概率(面积)有一定的数量关系。,二、正态分布表的编制与使用(一)正态分布表的编制与结构两种不同的编制方法(1)从Z=开始,表中列出的是某Z分数以下的累积概率;(2)从Z=0开始,计算从Z=0至某一定值之间的概率。,正态分布表的结构一般包括三栏第一栏:Z分数单位;第二栏:密度函数或比率数值(y);第三栏:概率值(p)。,(二)正态分布表的使用1.依据Z分数求概率p,即已知标准分数求面积。求某Z分数值与平均数(Z=0)之间的概率。求某Z分数以上或以下的概率。求两个Z分数之间的概率。,2.从概率p求Z分数,即从面积求标准分数值。已知从平均数开始的概率值求Z值。已知位于正态分布两端的概率值求该概率值分界点的Z值。若已知正态曲线下中央部分的概率,求Z分数是多少。3.已知概率p或Z值,求概率密度y,即正态曲线的高。,三、次数分布是否为正态分布的检验方法(一)皮尔逊偏态量数法正态分布:M=Md=Mo正偏态分布:MMdMo负偏态分布:MMdMo皮尔逊发现,在偏态分布(skewed distribution)中,Md离平均数较近、而距众数较远。,根据平均数与众数或中数的距离,皮尔逊提出了一个偏态量数公式,用来描述分布形态:当SK=0时,分布对称;当SK0时,分布属正偏态;当SK0时,分布属负偏态。,(二)峰度、偏度检验法1.偏度系数(coefficient of skewness)当g1=0时分布是对称的;当g10时,分布为正偏态;当g1200时,这个偏态系数的统计量g1才较可靠。,2.峰度系数(coefficient of kurtosis)当g2=0时,正态分布的峰度;g20时,分布的峰度比正态分布的峰度低阔;g21000时,g2值才比较可靠。,(三)累加次数曲线法因为标准正态分布的形式固定,因此其累加概率与标准差的关系也固定。根据这一点,可将一般分布的累加概率与标准正态分布累加概率相比较。,具体方法制作样本的累加次数分布表,列出累加比率和观测值相应的标准分数。制作样本的累加频率曲线图。纵坐标为次数比率01.00,横坐标为Z分数,一般为3+3。在同一坐标系中,制作累加正态分布概率曲线图。,画好图后,从图上直接比较正态分布概率曲线与样本的累加频率曲线,若两曲线完全重合,说明某样本的分布呈正态;若样本的累加频率曲线偏离正态累积曲线较大,则不符合正态分布。,四、正态分布理论在测验中的应用(一)化等级评定为测量数据将等级评定转化为测量数据,首先要考虑被评定的心理量是否为正态分布。将等级评定转化为测量数据的方法是用各等级中点的Z分数代表该等级分数。,具体步骤根据各等级被评者的数目求各等级的人数比率;求各等级比率值的中间值,作为该等级的中点;求各等级中点以上(或以下)的累加比率;用累加比率查正态表求Z值,该Z分数就是各等级代表性的测量值;求被评者所得评定等级的测量数据的算术平均数,即为每个被评定者的综合评定分数。,【例6-2】表6-2是3位教师对100名学生的学习能力所作等级评定的结果。表6-3是3名学生从3位老师那儿获得的评定等级,试将其转化为Z分数。,表6-2 3名教师对100名学生的评定结果,表6-3 各学生所获得的评定等级,表6-4 化等级评定为Z分数,学生1的平均成绩: (0.94+1.65+1.28)/3=1.29学生2的平均成绩: (1.96+0.84+1.28)/3=1.36学生3的平均成绩: (0.94+00.32)/3=0.42,(二)确定测验题目的难易度原理:假设一个测验中不同难易题目的分布是正态的,即一个测验中通过率较大和较小的题目很少,而通过率居中的题目较多。,确定题目难度分数的具体步骤计算各题目的通过率;用0.5减去通过率,不计正负号,获得正态分布表中的概率值(p);依照p值查正态表中相应的Z值,通过率大于50%的Z值计为负值,通过率小于50%的Z值计为正值;将查表得到的Z分数加上5便得到从010的十进制的难度分数值。,表6-5 难度分数的计算,(三)在能力分组或等级评定时确定人数将6个标准差除以分组的或等级的数目,做到Z分数等距;查正态分布表,从Z求p,即各等级或各组在等距的情况下应有的比率;将比率乘以欲分组的人数,便得到各等级或分组该有的人数。,所计算的各组人数分布,应与总数相等。有时由于从Z查p有误差,使结果不能与总数相符,这时应将居中的那一组做适当的增加或减少,因为这样做,对百分比率的影响甚小。,【例6-3】 要把100人在某一能力上分成5个等级,各等级应该有多少人,才能使等级评定做到等距?,表6-6 能力分为五组时各组人数的分布,(四)测验分数的正态化正态化的步骤当原始分数不服从正态分布时,先将原始分数的频数转化为相对累积频数(百分等级),将它视为正态分布的概率;然后,通过查正态分布表中概率值相对应的Z值,将其转换成Z分数,达到正态化的目的。,正态化是利用改变次数的方法,将原来偏态分布中众数所偏的一边拉长,使之成为正态,这是一种非线性转换。正态化是建立正态标准分数的关键。原始分数正态化的前提条件:研究对象的总体事实上应该是正态分布,否则就会歪曲事实,这是使用各种正态化标准分数所必须注意的。,T分数(T scores)是从Z分数经过转化而来的一种正态化的标准分数,它是McCall (1939)创用的方法。心理与教育测验常用T分数来建立常模。T分数是将标准分数扩大10倍,再加上50。T=10Z+50,T分数计算步骤第一步:将原始分数正态化;第二步:把正态化的Z值代入T值公式加以直线转换。,T分数不仅具备标准分数的所有优点,而且克服了标准分数较难理解的不足。首先,它没有负数。其次,若出现小数时可以四舍五入为整数,而误差不会很大。再次,如果可以从理论上假设某一测验的分数应该是正态分布,只是由于抽样误差等偶然因素导致了原始分数偏态分布,那么运用T分数的方法可迫使其成为正态。,【例】某研究中随机抽取了180名学生的某一能力测验分数,由于这些能力分数不是正态,需要将其正态化。,具体步骤将原始数据整理成次数分布表;计算各分组上限以下的累加次数cf;计算每组中点以下的累加次数,即前一组上限以下累加次数加上该组次数的一半;各组中点以下累加次数除以总数求累积比率;将各组中点以下累加比率视为正态分布的概率,查正态分布表,将p转化为Z分数;将正态化的Z值直线转换为T分数。,表6-7 T分数与正态化的计算,T分数虽不等距,但T分数更接近总体的情况。转换后的T分数的平均数为50,标准差为10,平均数上下各五个标准差,正好包括了T分数从0100。,在使用T分数时,应注意与前面所讲的Z=10Z+50的线性变换形式区别开来。虽然二者都有相同的平均数和标准差,但T分数是经过正态化的分数,而前者是否服从正态分布还不清楚,它们将以原始分数的分布形态为转移。T分数可用于本来应是正态分布而实际呈偏态分布的各种测验的比较,而前者只能用于分布形态相同或相近的各种测验的比较。,第三节 二项分布,二项分布(bionimal distribution)是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。,一、二项试验与二项分布(一)二项试验二项试验:贝努里试验,必须满足以下几个条件:1.任何一次试验恰好有两个结果,成功与失败,或A与 。2.共有n次试验,且n是预先给定的任一正整数。3.每次试验各自独立,各次试验之间无相互影响。4.某种结果出现的概率在任何一次试验中都是固定的。,(二)二项分布二项分布:试验仅有两种不同性质结果的概率分布。也称两个对立事件的概率分布。二项分布同二项定理有着密切的关系:x=0, 1, ,n; n为正整数。,二项展开式的要点:项数:二项展开式中共有n1项。方次:p的方次,从n0为降幂;q的方次从0n为升幂。每项p与q方次之和等于n。系数:各项系数是成功事件次数的组合数。,二项分布的具体定义设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q (q=1p),则对于某事件出现X次(0, 1, 2, n)的概率分布为:,【例6-4】10个硬币掷一次,或1个硬币掷十次。问五次正面向上的概率是多少?五次及五次以上正面向上的概率是多少?,解:(1)根据题意,n=10,p=q=1/2,X=5,(2)五次及五次以上正面向上的概率,二、二项分布的性质(一)二项分布是离散型分布,概率直方图是跃阶式。因为X为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象。1.当p=q时图形是对称的。,【例6-5】已知p=q=1/2,求(p+q)6的值。解:,2.当pq时,直方图呈偏态, pq与pq的偏斜方向相反。如果n很大,即使pq,偏态逐渐降低,最终呈正态分布,二项分布的极限分布为正态分布。当pq且np5,或pq且nq5时,二项分布就可以当做一个正态分布的近似形,二项分布的概率可用正态分布的概率作为近似值。,(二)二项分布的平均数与标准差如果二项分布满足pq,np5,(或pq且nq5)时,二项分布接近正态分布。这时,二项分布的X变量(即成功的次数)具有如下性质:=np, ,即X变量为=np, 的正态分布。,三、二项分布的应用二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题是指在实验或调查中,实验结果可能是由于猜测而造成的。,【例6-6】有10道正误题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜测因素?,解:已知猜对与猜错的概率为p=q=0.5,np=5,此二项分布接近正态分布,故:根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为+1.645=5+1.6451.58=7.6=8,二项分布函数计算结果答对8道题及其以上的总概率,【例6-7】有10道多重选择题,每题有5个答案,其中只有一个是正确的。问答对几道题才能说不是猜测的结果?,解:此题n=10,p=1/5=0.2,q=0.8,np5,故此题不接近正态分布,不能用正态分布计算概率,而应直接用二项分布函数计算猜对各题数的概率:,猜对5题及5题以上的概率为0.03279,不足5%。,第四节 抽样分布,区分三种不同性质的分布:总体分布:总体内个体数值的频数分布。样本分布:样本内个体数值的频数分布。抽样分布:某一样本统计量的概率分布。,抽样分布:样本统计量的分布,是统计推论的重要依据。一、正态分布及渐近正态分布(一)样本平均数的分布1.总体分布为正态,方差(2)已知,样本平均数的分布为正态分布,平均数的分布:从基本随机变量为正态分布的总体中,采用有放回随机抽样方法,每次从这个总体中抽取大小为n的一个样本,计算出它的平均数 ,然后将这些个体放回总体中,再次取n个个体,又可计算出一个 , ,再将n个个体放回去,再抽取n个个体,这样如此反复,可计算出无限多个 ,这无限多个平均数的分布,即为样本平均数的分布。,当总体分布为正态,方差(2)已知,样本平均数的分布为正态分布。设母总体的参数为和2,那么,样本平均数分布的平均数与方差(标准差)与母总体的平均数与方差(或标准差)的关系:,平均数的标准误,标准误某种统计量在抽样分布上的标准差,称为标准误。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。,样本平均数的平均数与母总体的平均数相同,样本平均数的标准误与母总体的标准差成正比,而与样本容量n成反比。样本容量越大,标准误就越小。样本平均数的标准分数:,2.总体分布非正态,但2已知,这时当样本足够大时(n30),其样本平均数的分布为渐近正态分布。,(二)方差及标准差的分布依随机取样的原则,自正态分布的总体中抽取容量为n的样本,当n足够大时(n30),样本方差及标准差的分布,渐趋于正态分布,这时其分布的平均数与标准差与母总体的2和的关系,可近似地表示如下:,二、t分布t分布(t-distribution)是统计分析中应用较多的一种随机变量函数的分布,是格赛特1908年推导出的一种分布,也叫学生分布(Students distribution)。t分布是一种左右对称、峰态比较高狭,分布形状随样本容量n1的变化而变化的一簇分布。,t分布与无关而与其自由度(n1)有关。自由度(degrees of freedom):任何变量中可以自由变化的数目,是t分布密度函数中的参数( ),它代表t分布中独立随机变量的数目,故曰自由度。,(一)t分布的特点1.平均值为0。2.以平均值0左右对称的分布,左侧t为负值,右侧t为正值。3.变量取值在之间。4.当样本容量趋于时,t分布为正态分布,方差为1;当n130时,t分布接近正态分布,方差大于1,随n1的增大而方差渐趋于1;当n130时,t分布与正态分布相差较大,随n1减少,离散程度(方差)越大,分布图的中间变低但尾部变高。,(二)t分布表的使用t分布表由三方面的数值构成,即t值、自由度和显著性水平。双侧概率通常写作t/2,单侧概率写作t。使用情况:一种是已知自由度和概率值查t值,另一种是已知自由度和t值查相应的概率值。,当正态分布的总体方差未知时,如果以样本的方差s2作为总体2的估计值,这样,每取一个样本,便可计算一个s2和s,当样本容量小于30时,样本方差及标准差的分布不是正态分布,而是偏态分布,而 也是偏态分布,此时样本平均数的分布为t分布。,(三)样本平均数的分布1.总体分布为正态,方差(2 )未知时,样本平均数的分布为t分布。,2.当总体分布为非正态而其方差(2 )又未知时,若满足n30这一条件,样本平均数的分布近似为t分布。,三、2分布2分布是统计分析中应用较多的一种抽样分布,是刻画正态变量二次型的一种重要分布。,从一个服从正态分布的总体中,每次随机抽取随机变量X1,X2,Xn,分别将其平方,即可得到 ,这样可抽取无限多个数量为n的随机变量X及X2,可求得无限多个 (n个随机变量的平方和),也可计算其标准分数 及其平方 及n个标准分数平方和 , 那么,这无限多个n个随机变量平方和或标准分数的平方和的分布,即为2分布。,此时,2分布的自由度为n。如果正态总体的平均数未知,若用样本平均数作为的估计值时:此时,2分布的自由度为df=n1。,(一)2分布的特点1. 2分布是一个正偏态分布。n或n1越小, 2分布越偏斜。2分布是一簇分布,正态分布是其极限分布。2. 2值都是正值。3. 2分布具有可加性,即2分布的和也是2分布。 2是一个遵从df=df1+df2+dfk的2分布。,4.如果df2, 2分布的平均数: ,方差 。5. 2分布是连续型分布,但有些离散型的分布也近似2分布。,(二)2分布表2分布表是根据2分布函数计算出来的,2分布曲线下的面积都是1。2分布在统计分析中应用于计数数据的假设检验以及样本方差与总体方差差异是否显著的检验等。,四、F分布F分布是统计分析中常用的一种抽样分布。设有两个正态分布的总体,其平均数与方差分别为: 及 ,从这两个总体中分别随机抽取容量为n1及n2的样本,每个样本都可以计算出2值,这样可得到无限多个 与 ,每个2随机变量各除以对应的自由度df1与df2(df1=n1或n11,df2=n2或n21)之比,称为F比率,这无限多个F的分布称作F分布。,F比率为样本方差各除以其总体方差的比率。如果令 。即从一个总体中抽样,其F比率可写作:,自一个正态总体中随机抽取容量为n1及n2两样本,其方差的比率分布为F分布,分子的自由度为n11,分母的自由度为n21。,(一)F分布的特点1.F分布是一个正偏态分布,它的分布曲线随分子、分母的自由度不同而不同,随df1和df2的增加而渐趋正态分布。2.F值总为正值,因为F为两个方差之比率。3.当分子的自由度为1,分母的自由度为任意值时,F值与分母自由度相同的t值(双侧概率)的平方相等。这说明当组间自由度为1时,F检验与t检验的结果相同。,(二)F分布表分子自由度df1分母自由度df2概率单侧、双侧,