概率与统计初步.ppt
,第十章 概率与统计初步,10.1 随机事件的概率 10.2 随机变量及其应用 10.3 随机变量的数字特征 10.4 区间估计与假设检验10.5 相关分析和一元回归分析,10.1.1 随机事件的概念、关系和运算 必然现象 在一定的条件下,必然会发生的现象例如 向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落我们把这类现象称为必然现象同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热等等也都是必然现象。,10.1 随机事件的概率,不可能现象 在一定条件下,一定不会发生的现象.例如:在标准大气压下纯水在10。C是结冰是不可能的,所以就称为不可能现象。,同样,一物体在变力作用下作匀速直线运动也是不 可能现象。,随机现象:在给定条件下,可能发生,也可能不发生,其结果是无法事先预测的现象 例如:1.抛掷一枚硬币,当硬币落在地面上时,可能是正面(有国徽的一面)朝上,也可能是反面朝上,在硬币落地前我们不能预知究竟哪一面朝上我们把这类现象称为随机现象(或偶然现象)2.自动机床加工制造一个零件,可能是合格品,也可能是不合格品;,3.现象:一个盒子中有10个完全相同的白球,混合后,任意摸一个.现象:一个盒子中有10个球,5个白球5个黑球,混合后,任意摸一个 对于现象,在没有摸之前,我们就可以知道摸出来的为白球;而对于现象在没摸之前我们不能肯定摸到的为什么球,但我们知道只要两种可能,并且摸的结果一定是这两种可能之一.随着摸球次数的增大,发现摸到白球和摸到黑球的机会是等可能的.,统计规律性,每次试验前不能预言出现什么结果 每次试验后出现的结果不止一个 在相同的条件下进行大量观察或试 验时,出现的结果有一定的规律性 称之为统计规律性,对某事物特征进行观察,统称试验.若它有如下特点,则称为随机试验 可在相同的条件下重复进行 试验结果不止一个,但能明确所有的结果 试验前不能确定出现哪种结果,随机试验,我们把试验的结果中发生的现象称为事件,在试验的结果中,可能发生、也可能不发生的事件称为随机事件,简称为事件通常用字母A,B,C,表示随机事件,随机事件,基本事件 实验的不可能再分的结果.每次试验必定发生且只可能发生一个基本事件.,复合事件由若干个基本事件组成的事件,特殊的随机事件:,必然事件 在一定条件下必定发生的 事件,记为,不可能事件在一定条件下一定不发生的事件,记为.,例:某城市共有500辆出租车,其牌照编号从000 11000之间选取,记事件,A=偶然遇到一辆出租车,其牌照号码中含有数字8,B=连续碰见三辆出租车,其牌照号码均含有数字8都 是随机事件,C=该城市中出租车牌照编号为8000为不可能事件.,l引例 例 从一批含有正品,次品的产品中,任取两件设有以下事件:A1=两件中至少有一件是次品 A2=两件中恰有一件是次品 A3=两件全是次品 A4=两件全是正品 A5=两件中至多有一件次品 这些事件间存在着多种关系,如:(1)A1发生,则A4不会发生;(2)A4发生,则A1不会发生;(3)A3与A4不会同时发生;(4)当且仅当A2与A3至少有一个发生时,A1发生;(5)当且仅当A2与A4至少有一个发生时发生,A5发生,A 包含于B,事件 A 发生必导致事件 B 发生,且,1.事件的包含,2.事件的相等,事件 A与事件B 至 少有一个发生,的和事件,A+B发生,3.事件的和(并),A 与B 的和事件,A 与B 的差事件,4.事件的差,A 与B 互相对立,每次试验 A、B中有且只有一个发生,称B 为A的对立事件(或逆事件),记为,5.事件的对立,A 与B互不相容,A、B不可能同时发生,两两互不相容,6.事件的互不相容(互斥),注意:“A 与B 互相对立”与“A 与B 互斥”是不同的概念,若事件A与事件B是相互对立的两个事件,则它们一定互不相容;反之不一定.,事件的关系及运算的概念类似于集合论中集合间的关系与运算的概念,其记号也是相对应的,列表对照说明如下:,例 在1,2,3,10十个数中任选一个,若选取的数为1则记为1,设A=选取的数为偶数,B=选取的数为小于5的偶数,C=选取的数小于5,D=选取的数为奇数,则,交换律 A+B=B+A AB=BA 结合律 A+(B+C)=(A+B)+C;A(BC)=(AB)C 分配律(1)A(B+C)=AB+AC(第一分配律)(2)A+BC=(A+B)(A+C)(第二分配律),对应,定理1 若事件A,B互不相容,则 称为概率的加法公式.证明:设在某一条件下将试验重复进行 n次,即基本事件总数为n.其中事件A包含的基本事件数为 m1,事件B包含的基本事件数为 m2,,加法公式,P(A)=,,P(B)=,由于A与B互不相容,故事件A+B包含的基本事件数为 m1+m2,同样由古典概率的定义有,故概率的加法公式成立.,推论1 若事件 两两互不相容,则推论2 事件A的对立事件 的概率为,定理2 设A,B为任意两事件,则 证明:因为A+B=,并且 与B互不相容,于是 又由于,因此对于三个随机变量,类似地有 P(A1+A2+A3)=P(A1)+P(A2)+P(A3)-P(A1A2)-P(A1A2)-P(A2A3)+P(A1A2A3)我们可划出维恩图说明其意义该结论又称为“多除少补原理”,对于事件的个数,这一原理还可推广到n个的情形,于是有,因此,例:一批产品共50件,其中有5件是次品,从这批产品中任取3件,求其中有次品的概率 解法1 设A=取到的3件产品中有次品;Ai=取到的3件产品中恰有i件次品(i=1,2,3)则,由定理1的推论1得,解法2 设A=取到的3件产品中有次品;,=取到的3件产品中无次品,,则有,频 率,设在 n 次试验中,事件 A 发生了m 次,,则称 为事件 A 发生的 频率,记作 fn(A),其中m为频数,随机事件的概率,做“抛掷硬币”的试验,我们将一枚硬币抛掷5次、50次、500次,各做10遍,得到数据如表1-1所示;其中A=朝上的一面是正面,nA表示事件A发生的频数,表示A发生的频率,抛硬币试验:,频率的性质,实践证明:在大量重复试验中,随机事件的频率具有稳定性也就是说,在不同的试验序列中,当试验次数n充分大时,随机事件A的频率fn(A)常在某个确定的数字附近摆动 在抛硬币的试验中,“正面朝上”这一随机事件A的频率fn(A)稳定在数字0.5的附近类似的例子还可以举出很多.,频率的稳定性,历史上不少著名学者做过抛掷硬币试验,得到的数据如下:,概率的统计定义,在相同条件下重复进行的 n 次试验中,如果事件 A 发生的频率fn(A)稳定在某一数值P的附近摆动,且随n的增大,摆动幅度越来越小,则称P为随机事件A的概率,记作P(A),概率的统计定义也提供了一个近似计算概率的方法:,当试验次数n较大时有:,事件发生的概率,事件发生的频率,即当试验次数n充分大时,就常把事件A的频率作为事件A的概率的“近似值”(或“估值”)比如:合格率,废品率,出生率,升学率,死亡率等等,都是频率,1.0P(A)1;2.P()=1,P()=0.,于是有下列性质,1条件概率的概念,在事件B发生的条件下,事件A发生的概率称为条件概率。记为,10.1.3 几类常见的概率问题,2、条件概率的性质 如果A,B是随机试验的两个随机事件,且P(B)0的,则称在事件B发生的前提下事件A发生的概率为条件概率,记作 P(AB)这个条件概率定义为 P(AB)=,例 两城市都处于长江中下游,根据近一百余年的气象资料记录,知道两城市的雨天所占的比例分别为20%和18%,两城市同时下雨所占的比例为12%,求:已知甲市为雨天时,乙市也为雨天的概率;已知乙市为雨天时,甲市也为雨天的概率.,解,,,则有,.,把事件A发生的前提下事件B发生的条件概率,记作 P(BA),P(BA)=,例 已知一批产品的次品率为5%,正品率中的一级品率为80%从中任取一件,试求它是一级品的概率,解 设A=被取到的一件产品是正品,B=被取到的一件产品是一级品依题意得,=1-0.05=0.95,因为 P(B/A)=0.80,,所以,AB=B于是 P(B)=P(AB)=P(A)P(B/A),乘法公式可以推广到有限个事件的情形,对于事件,一般的有,由条件概率的定义可得:P(AB)=P(B)P(AB)(当P(B)0时)或P(AB)=P(A)P(BA)(当P(A)0时)此二公式称为概率的乘法公式 注:当P(AB)不容易直接求得时,可考虑利用P(A)与P(BA)的乘积或P(B)与P(A|B)的乘积间接求得。,乘法公式,乘法公式可以推广到有限个事件的情形,对于事件,一般的有,例 一批产品的次品率为4,正品中一等品率为75,现从这批产品中任意取一件,试求恰好取到一等品的概率。解:记A取到一等品,B取到次品,取到正品,则 由于 故 于是,如果事件 构成一个完备事件组,并且,则对于任一事件B,有,称为全概公式,二、全概率公式,例 三门火炮向同一目标射击,设三门火炮击中目标的概率分别为0.3,0.6,0.8若有一门火炮击中目标,目标被摧毁的概率为0.2;若两门火炮击中目标,目标被摧毁的概率为0.6;若三门火炮击中目标,目标被摧毁的概率为0.9试求目标被摧毁的概率,解 设事件B=目标被摧毁 显然,A1,A2,A3构成一个完备事件组,由全概公式可得:,依题意知应用全概率公式,得,例 某地区的初中毕业生有70 报考普通高中,20报考中专,10 报考职业高中,录取率分别为90,75,85,试求:随机调查学生,他如愿以尝的概率;若某位学生按志愿录取了,那么他报考高中的概率是多少?,解,事件A=该生被录取,B1=该生报考普通高中,B2=该生报考中专,B3=该生报考职业高中,则有,从而 由全概率公式有,(2)由逆概率公式有,下面要介绍的逆概公式是全概公式的逆问题:若已知“结果”B已经发生了,要求某一种“原因”Aj发生的概率,此公式称为逆概公式(或贝叶斯(Bayes)公式),则对于任一事件B,,三、贝叶斯公式(逆概率公式),证明 由条件概率的定义及乘法公式有由此,可得再将全概率公式代入上式,即得,例 设8支枪中有3支没有经过试射校正,5支经过试射校正一射手用校正过的枪射击时,中靶的概率为0.8,用未校正的枪射击时,中靶的概率为0.3,今从8支枪中任取一支进行射击,结果中靶求所用的这支枪是经过校正过的概率,解,设A1=枪经过试射校正,A2=枪没有经过试射校正,,则A1,A2构成完备事件组,由题意知P(A1)=5/8,P(A2)=3/8,,由全概公式可得:,又由逆概公式得,引例,盒中有3个黑球和2个白球,从中随机抽取3个,考虑取得的白球数。抽取的白球数有三个可能结果:0,1或2,对于不同的抽取次数其结果可能不同。为此,引入一个变量,用表示“抽取的白球数”,该变量的不同取值表达不同的随机事件,如(=0)表示“抽取的3个球中无白球”;(=1)表示“抽取的3个球中有1个白球”;(2)表示“抽取的3个球中至多有2个白球”。,10.2 随机变量及其应用,随机变量的定义,如果一个随机试验的结果可以用一个变量的取值来表示,则称这个变量为随机变量。,通常我们用希腊字母,或大写英文字母X,Y,Z,表示随机变量。,例,抛掷一枚硬币,试验的结果为“出现正面”和“出现反面”,引入变量,,返回,=,1,出现正面,0,出现反面,则为随机变量,,(=0),(=1)便是随机事件。,例,在24小时内,程控电话交换机接转电话的次数是一个随机变量,它可取一切非负整数0,1,2,.同时,随机变量取不同的值就表示不同的随机事件,,例如(=0),(=10),(520)等表示不同的随机事件。,例,在一批灯泡中任意抽取一只,测试其寿命,那么灯泡的寿命(小时)是一个随机变量,显然的一切可能取的值是非负实数值,返回,即R+0,,而(=1200),(5000),(1500)等都是随机事件。,例,用变量表示某品种玉米穗位的高低(单位:厘米)。则P(120130)=0.2表示“玉米穗位在120厘米到130厘米之间”这个事件的概率为0.2。由于,所以,只需知道P(130)与P(120)就可以求出P(120130)了。,返回,由此可知,随机试验的结果可以用变量来表示,但这种“变量”与微积分中的“变量”是有区别的.以例中白球数这个变量为例,它有:取值的随机性,也就是说取哪一个值,在抽样前无法确定;取值的统计规律性,也就是取0,1,2这些值的概率是确定的。,两个特点,随机变量的分类,如“取到次品的个数”,“收到的呼叫数”等.,随机变量,离散型随机变量,连续型随机变量,所有取值可以逐个一一列举,例如,“电视机的寿命”,实际中常遇到的“测量误差”等.,全部可能取值不仅无穷多,而且还不能一一列举,而是充满一个区间.,这两种类型的随机变量因为都是随机变量,自然有很多相同或相似之处;但因其取值方式不同,又有其各自的特点.,学习时请注意它们各自的特点和描述方法.,常见离散型随机变量,若随机变量的所有可能取值是有限个或可列个,则称为离散型随机变量,设离散型随机变量的所有可能取值为,则称该式为的概率分布或分布列,取这些值的概率为,概率分布列也常常列成表格的形式:,分布列的性质,例,对于第一节中的例,求抽取的白球数的分布列。解是离散型随机变量,取值为0,1,2,的分布列为,即,例,已知离散型随机变量的分布列为:,求(1)(-16);(2)(=1)。,解,(1)注意到-16,离散型随机变量的可能取值只有三个,即0,3及6,,所以,P(-16),(2)注意到的可能取值没有,说明事件(=1)是不可能事件,,所以,P(=1)=,(1)两点分布(或01分布),凡试验只有两个结果,常用0 1分布,描述,如产品是否合格、人口性别统,计、系统是否正常、电力消耗是否超标等。,(0 p 1),或,例,1 取得正品时,=0 取得次品时.,100件产品中有95件正品,5件次品,从中任取一件,定义,则有P(=1)=0.95,P(=0)=0.05,即服从两点分布。,(2)二项分布,n 重贝努利 试验中,是事件A 在 n 次试验中发生的次数,P(A)=p,若,则称 服从参数为n,p 的二项分布,记作,01 分布是 n=1 的二项分布,两个性质,容易验证二项分布满足概率分布的:,(1),(2),设某种传染病进入一羊群,已知此种传染病的发病率为,求:在50头已感染的羊群中发病头数的概率分布。,例,解:,把观察一头羊是否发病作为一次试验。,发病的概率,不发病的概率,由于对50头感染羊来说,是否发病这里将它看作相互独立,所以作为50次重复独立试验.设50头羊群中发病的头数为,,则,的分布列为,例 在研究交通事故发生的原因中,酒后驾车引起的交通事故约占整个交通事故的5%现有1000件交通事故,求其中是酒后驾车引起的交通事故次数的概率分布,解,把一次交通事故作为一次试验,酒后驾车引起的交通事故的概率,其他原因引起的交通事故的概率,1000件交通事故可以看作1000次重复独立试验,设1000次交通事故中酒后驾车引起的交通事故次数为,(,k=(0,1,1000),(3)泊松(Poisson)分布,的Poisson 分布。,若随机变量的分布列,泊松(Poisson)定理*,Poisson定理说明若 B(n,p),则当n 较大,p 较小,而 适中,则可以用近似公式,设,则对固定的 k,例,某电话交换机每分钟转接的电话次数服从=4的泊松分布,试求每分钟正好转接6次电话的概率和每分钟转接电话次数不超过3次的概率。,0.4335,每分钟转接电话的次数不超过3次的概率为,每分钟正好转接6次电话的概率为,(k=0,1,2,),p(4),于是,设每分钟转接的电话次数为,由题意,解,(查附表2),每分钟转接电话的次数不超过3次的概率为,例,人寿保险问题 若一年内某类保险者中人的死亡率为0.005,现有10000人参加保险,试求在未来一年内这些人中至少有3人死亡的概率解设未来一年中死亡人数为,则 B(10000,0.005)。由于n=10000较大,p=0.005较小,,故可以用泊松分布近似求解。,(查表),为了使用方便,对于不同的,pk的值可直接查附录中的泊松分布表。,泊松分布是概率论中最重要的离散型随机变量的分布之一,许多稀疏现象,如电话交换机的电话转接次数、放射性物质每分钟分裂的原子数、在一寄生动物的宿主上寄生物的数目等都服从泊松分布。,定义 对于随机变量,若存在一个非负可积 函数 f(x),使得对任意a,b(ab)都有,则称 是 连续型随机变量 f(x)是它的概率密度函数.,常见连续型随机变量,概率密度函数几何意义,从几何意义上看,概率正好是区间 上以概率密度曲线 为顶得曲边梯形面积,由定义容易知道,连续型随机变量取一点a的概率等于零,即P(=a)=0.因此我们有,概率密度函数f(x)的性质,常利用这两个性质检验一个函数能否作为连续性随机变量的密度函数,例设连续型随机变量的概率密度函数为 试确定常数,并求P(-11).,解,所以,(1)均匀分布,若 的概率密度函数为,则称 服从区间(a,b)上的均匀分布或称 服从,参数为 a,b的均匀分布,记作,显然,且,对于 中任一子区间,有,可见,服从均匀分布的随机变量在a,b内任一子区间c,d上取值的概率与该区间长度d-c成正比,而与该子区间在a,b中所处的位置无关.因此,在a,b上概率的分布是“均匀”的,各处取值的可能性一样.,例义乌到杭州的公共汽车每隔15分钟一趟,若一乘客到站的时间是随机的,问其候车时间超过8分钟的概率是多少?解设为候车时间,则在0,15上服从均匀分布,其概率密度函数为 0 x15 其他 于是,(2)指数分布,若 的概率密度函数为,则称 服从 参数为 的指数分布,记作,0 为常数,显然,且,例假设某元件的寿命服从参数=0.0015的指数分布,求它使用1000小时后还没有坏的概率.解设为该元件的寿命,则,(3)正态分布,若随机变量 的概率密度函数为,则称 服从参数为,2 的正态分布,记作 N(,2),为常数,,正态分布图象,f(x)的性质:,图形关于直线 x=对称,即,1.在 x=时,f(x)取得最大值,2.在 x=时,曲线 y=f(x)在对应的 点处有拐点,3.曲线 y=f(x)以 x 轴为渐近线,4.曲线 y=f(x)的图形呈单峰状,f(+x)=f(-x),特别地,当 时,即,称为标准正态分布,它的概率密度函数为,显然,可以证明,不难验证,若,对于,作标准化代换,则有,故,即任意一个正态分布都可以通过标准化代换转化为标准正态分布.,正态分布是概率论中最重要的分布之一.例如,测量的误差、一批产品的质量指标、人体的身高或体重、农作物的单位面积产量、炮弹弹着点的分布、气象中的月平均气温、湿度、降水量等都服从或近似服从正态分布.另外,正态分布又具有许多良好的性质,许多分布可用正态分布来近似,它能描述相互独立的多个微小因素的综合效果,在数理统计中解决实际问题时用得最多的就是正态分布或与正态分布有关.,引例 甲、乙两射手,在同样条件下进行射击。他们命中的环数分别记为、,其概率分布列分别为:,试问如何来评定两个射手的技术优劣?,10.3 随机变量的数字特征,随机变量的数学期望,解,虽然分布列完整地描述了、的统计规律,但对于他们的技术优劣不能直接由分布列看出结果若考虑平均射中的环数则可求得问题的答案,假定他们各射击100次,则,甲平均射中的环数约为,乙平均射中的环数约为,(820+950+1030)=9.1(环),(830+910+1060)=9.3(环),故,从平均射中的环数看,甲的技术优于乙,设离散型随机变量 的分布列是,若级数,的数学期望或平均值(简称期望),记为E 或 E(),绝对收敛,则称其和为随机变量,例,解 由E的定义得,设随机变量的分布列为,求E,例,设随机变量,有分布列,试求 的数学期望.,解 此题显然不必考虑,的绝对收敛性,因为它是有限和,,=(-1)0.1+00.2+10.1+20.3+30.3=1.5,常见离散的随机变量的数学期望,(1)二点分布,设,服从二点分布,其分布列为:,则,=1p+0q=p(q=1-p),(2)二项分布,设 B(n,p),则,特例 若Y B(1,p),则 E(Y)=np 由此可见,当进行n重贝努利试验时,如果每次成功的概率是p,则n次试验成功的平均次数是np,(3)泊松分布,设 服从参数为的泊松分布,其分布列为,则,*(4)几何分布,设 服从几何分布,其分布列为,则,常见离散的随机变量的数学期望,二项分布,np,设连续型函数的随机变量的密度函数为f(x),绝对收敛,则称,为随机变量的数学期望或平均值(简称期望)。,如果,否则称的数学期望不存在。,连续型随机变量的数学期望,例,解,注意 不是所有的连续型随机变量都有数学期望,均匀分布,指数分布,正态分布,(1)E(c)=c;(c为常数),即常量的数学期望常量本身(2)E(k+b)=kE()+b;k,b常数(3)E(+)=E()+E();(4)设,相互独立,则E()=E()E();,注:1.性质(3)和(4)可以推广到有限个随机变量1,2,n 的情况;2.对于“和”,不要求1,2,n相互独立;对于“积”要求1,2,n相互独立。,引例 甲、乙两射手各打了6 发子弹,每发子弹击中的环数分别为:,甲 10,7,9,8,10,6,乙 8,7,10,9,8,8,问哪一个射手的技术较好?,解 首先比较平均环数,随机变量的数学期望,再比较稳定程度,甲:,乙:,乙比甲技术稳定,故乙技术较好.,进一步比较平均偏离平均值的程度,甲,乙,E-E()2,若E-E2 存在,则称其为随机,称,为 的均方差或标准差.,定义,即 D()=E-E2,变量 的方差,记为D 或 D(),D()描述 的取值偏离平均值的平均偏离程度,若 为离散型 随机变量,分布列为,若 为连续型随机变量,概率密度为 f(),计算方差的常用公式:,由数学期望的性质可知,对于连续型随机变量,对于离散型随机变量,常见随机变量的方差,均匀分布,指数分布,正态分布,D(C)=0,D(k)=k2D(),D(k+b)=k2D()(c为常数,k为常数),特别地,若,相互独立,则,10.4.1 区间估计,用点估计法来估计总体的参数十分简单易行,但由于样本的随机性,从一个样本算得估计量的值不一定恰好是所要估计的参数值那么估计量的值与参数之间到底相差多少?另一方面,不同的样本会得到总体的同一参数的不同估计量,如何最后确定总体的参数值呢?因此,我们有必要进一步介绍新的估计方法.这种方法是根据估计量的分布,在满足一定的可信度的条件下,指出被估计的总体的参数的可能取值范围这就是参数的区间估计所要解决的问题,10.4 区间估计与假设检验,则称区间 为的置信度为1的置信区间,设 为一给定的很小的正数,为两个统计量,称为置信度(也称为置信概率或置信系数),若,成立,分别称为是置信区间的上,下限,反映了估计的可信度,越小,越可靠.,置信区间的长度 反映了估计精度,越小,1-越大,估计的可靠度越高,但,确定后,置信区间 的选取方法不唯一,常选最小的一个.,几点说明,越小,估计精度越高.,这时,往往增大,因而估计精度降低通常取=0.05或0.0,正态总体期望的区间估计,(1)总体方差2已知,设总体 为 总体的样本值,于是,故,从而知,由N(0,1)的分布规律知:,因此,对可作如下估计:,以上两式可作为公式使用.,例 某农场试种新品种水稻,已知该新品种水稻亩产量的方差为64.现从该农场的水稻田中随机抽16亩进行实割实测,得到平均亩产量为412.5kg.试以95%的置信度计算该新品种水稻的平均亩产量的置信区间.,解 已知,由于,故,即,即,于是,的置信区间为,()总体的方差未知,对于总体的方差未知的随机变量,当是大样本时 n30时作为大样本而n30时作为小样本较合理),于是有,以上两式也可作为公式使用.,例,假设豫农1号玉米穗位(单位:cm)是一个连续型随机变量,现在观测100珠玉米穗位,测得其平均高度,标准差,试求置信度是0.95时关于总体期望值的置信区间.,解,虽然并没说明总体服从正态分布,但是由于样本容量n=100可以用大样本下一般总体的置信区间公式.,查标准正态分布表可得:,而,故所求的置信区间为:,(单位:cm),说明若已知n较大,就可把看作近似的服从 若 未知,大样本下可用来代替,(3)方差未知的正态总体,小样本下的区间估计,设总体 为 为总体的样本值,其中未知则,服从自由度为n-1的t分布,对于给定的,可查表确定,由故,故置信区间为:,假定初生婴儿的体重服从正态分布,随机抽取12名新生婴儿,测其体重为 3100 2520 3000 3000 3600 31603560 3320 2880 2600 3400 2540,,的置信系数估计新生婴儿的平均体重.(单位:g),解,设新生婴儿体重为由于服从正态分布且方差,未知,,查t分布表,得,又,故的置信区间为,即(,),试以,例,2、正态总体方差 的区间估计,由于,即服从自由度为n-1的分布,对于给定的,,通过查附表可求出a和b,由,得,于是,的置信区间为:,其中 的选取,一般情况下是由:,而定的.,例,已知某种木材横纹抗压力的实验值服从正态分布,对10个试件作横纹抗压力试验得数据如下:,482 493 457 471 510 446 435 418 394 469,试对该木材平均横纹抗压力的方差进行区间估计.,解,查表得,于是,的置信区间为:(566,4408),求正态总体参数置信区间的解题步骤:(1)根据实际问题构造样本的函数,要求仅含待估参数且分布已知;(2)令该函数落在由分位点确定的区间里的概率为给定的置信度1,要求区间按几何对称或概率对称;(3)解不等式得随机的置信区间;(4)由观测值及值查表计算得所求置信区间。,假设检验,若对参数有所了解,但有怀疑猜测需要证实之时,用假设检验的方法来 处理,10.4.2 假设检验,假设检验是指施加于一个或多个总体的概率分布或参数的假设.所作假设可以是正确的,也可以是错误的.,为判断所作的假设(称为原假设,记为)是否正确,从总体中抽取样本,根据样本的取值,按一定原则进行检验,分析由此产生的结果:如果结果合理,我们就肯定原假设;如果导致一个不合理的现象出现,则表明原假设不成立,否定从而与之对立的结论(称为备选假设,记为1)成立,假设检验所以可行,其理论背景为实际推断原理,即“小概率原理”,总体均值,均值差的检验,总体方差,方差比的检验,直接对总体分布进行假设检验,例 根据长期经验和资料的分析,某砖厂生产的砖的抗断强度服从正态分布,方差 21.21,从该厂产品中随机抽取6块,测得抗断强度如下(单位:kg/cm2)32.56 29.66 31.64 30.00 31.87 31.03检验这批砖的平均抗断强度为33.50kg/cm2是否成立(=0.05).,解 这批砖的抗断强度服从正态分布,假设,H0:,备选假设,2,即这批砖的平均抗断强度不是33.50),H1:,则应有,或,检验,=4.4541.96,故概率为0.05的事件发生了.一般地,人们宁可相信把握性较大的事件会发生(概率为0.95),也不愿意相信把握性较小的事件会发生(概率为0.05).,因此,我们拒绝H0,即这批砖的平均抗断强度为33.50kg/cm2不成立.于是,备选假设,H1:,成立,在统计上,通常把发生的概率小于5的事件称为小概率事件.它在一次试验中是几乎不可能发生的事件,这种思想称为小概率原理.例1的检验就是利用了小概率原理.其中临界值,可称为显著性水平,通常取5或1.,利用了小概率原理,可能犯两类错误:,第一类错误,去真错误,存伪错误,第二类错误,正确,正确,假设检验的两类错误,犯第一类错误的概率通常记为 犯第二类错误的概率通常记为,假设检验步骤,根据实际问题所关心的内容,建立H0与H1,在H0为真时,选择合适的统计量V,由H1确,给定显著性水平,其对应的拒绝域,定拒绝域形式,根据样本值计算,并作出相应的判断.,对于以下几种情形,常常使用U检验(1)一个小样本是否来自某参数已知的正态总体;(2)一个大样本是否来自某参数已知的总体;(3)两个大样本间有无显著差异.,一、U检验,0,0,0,0,0,0,U 检验法(2 已知),例 设某次考试的考生成绩(单位:分)服从正态分布N(70,16),从中随机地抽取100名考生的成绩,算得平均成绩为66.5分,若方差不变,问当显著性水平=0.05时,是否可以认为全体考生的平均成绩仍为70分?,解 这是一个大样本(n=10030)是否来自某参数已知的正态总体的问题,因此用U检验.,假设,即全体考生的平均成绩仍为70分,备选假设,则应有,或,检验,=8.751.96,故概率为0.05的事件发生了.,因此拒绝H0,即全体考生的平均成绩仍为70分不成立.,于是,接受备选假设,即不能认为全体考生的平均成绩仍为70分.,例 某校从经常参加体育锻炼的男生中随机地选出50名,测得平均身高174.34厘米;从不经常参加体育锻炼的男生中随机地选50名,测得平均身高难度172.42厘米.假设两种男生的身高都服从正态分布,标准差均为,厘米,问该校参加体育锻炼的男生是否比不常参加,体育锻炼的男生平均身高要高些?,解 这是两个大样本间有无显著差异的问题,因此用U检验.,或,(由于是大样本,故,检验,所以拒绝原假设H0,接受备选假设 H1,又,故该校参加锻炼的男生比不常参加锻炼的男生平均身高要明显地高一些.,对于以下几种情形,常常使用t检验(1)一个小样本是否来自某参数未知的正态总体;(2)两个小样本间有无显著差异.,二、t 检验,T 检验法(2 未知),例 某地九月份气温,观察九天,算得,,S=0.9,,能否据此样本认为该地区九月份平均气温为31.5.,解 这是一个小样本是否来自某参数未知的正态总体的问题,因此用t检验.,假设,即该地区九月份平均气温为31.5,备选假设,则应有,或,检验,=52.306,故拒绝原假设H0、接受备选假设H1,即不能据此样本认为该地区九月份平均气温为31.5.,例2 9名学生到英语培训班学习,培训前后各进行了一次水平测试,成绩为,假设测试成绩服从正态分布,问在显著性水平=0.05,下,判断对学生的培训效果是否显著?,解 这是两个小样本间有无显著差异的问题,因此用t检验.,假设,(备选假设),即培训效果不显著则应有:,或,检验,所以接受假设H0,即对学生的培训效果不显著.,例 维尼纶纤维的耐热水性能好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素.在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排了一批试验,获得如下数据:甲醛浓度x(克/升)18 20 22 24 26 28 30 缩醛化度y(克/升)26.86 28.35 28.7528.87 29.75 30.00 30.36,可在直角坐标系下作图,从图中我们发现随着甲醛浓度x的增加,缩醛化度y也增加,且这些点,(i=1,2,7)近似地在一直线附近,但又不完全在一条直线上,引起这些点,与直线偏离的原因是由于在生产过程或测试过程中,还存在着一些不可控的因素,它们都在影响着试验结果,.,这样就可以把试验结果y看成是由两部分叠加而成的,一部分是由x的线性函数引起的.记为a+bx,另一部分是由随机因素引起的,记为,即:,(其中,都不依赖于x.上式称为一元线性回归模型.,则,其中未知参数,将,的值代入上式得,即,为求式(5-8)中,的估计值,必须使,最小,记,由最小二乘法可得,或,于是可求出a,b的估计值,从而得方程,它称为 关于的 线性回归方程或回归方程,其图形称为回归直线.它刻划了维尼纶纤维的耐热水性能与“缩醛化度”之间的关系.,一般地,若n个点,近直线,,记,根据微积分,中的极值原理及最小二乘法,有,靠,或,(5-9),解方程组(5-9),得到,(5-10),于是得到回归直线方程为:,称为,的最小二乘估计.若将,代入此上式,则线性回归方程变为:,.,这表明,对于样本观察值,回归直线通过散点图的几何中心,若记,则,的估计值可写成,(5-12),以下求例的线性回归方程.由数据可得,则,的线性回归方程为:,二、非线性最小二乘拟合,在实际问题中,变量之间的关系常常不象线性函数那样简单,未必呈线性趋势.但是其中有些作适当的变量代换,可使函数线性化,从而转化为一元线性回归问题.现将常见的可线性化函数列于下表:,有了这些常见的可线性化函数,利用最小二乘法可建立经验公式.,例 假定对二变量x和y的联合观察得如下数据:,试求y对x的线性回归方程.,解 如散点图如右图,随着x的增加y呈较快递降趋势.会发现其趋势象双曲函数,我们试用形如,的函数来逼近.此函数可线性化,为,其中,u=lny,,=lna,t=lnx.,经计算得,和,的最小二乘估计:,从而,得,的估计值:,于是,得回归方程:,为说明回归效果,我们将回归值,与实际观测,(j=1,2,10)进行比较:,计算结果表明回归效果较好.,