《统计案例》PPT课件.ppt
10.4 统计案例要点梳理1.回归分析(1)定义:对具有 的两个变量进行统计 分析的一种常用方法.(2)随机误差:线性回归模型用y=bx+a+e表示,其 中a和b为模型的,称为随机误差.(3)样本点的中心 在具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中,回归方程的截距和斜率的最小二乘 估计公式分别为:,相关关系,未知参数,e,基础知识 自主学习,其中 称为样本点的中心.(4)相关系数,.,r=,当r 0时,表明两个变量;当r 0时,表明两个变量.r 的绝对值越接近于1,表明两个变量的线性相关性.r 的绝对值越接近于0时,表明两个变量之间.通常|r|大于 时,认为两个变量有很强的线性相关性.,正相关,负相关,越强,几乎不存在线性相关关系,0.75,2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的,像这类变量称为分类变量.,不同类别,(2)列联表:列出两个分类变量的,称 为列联表.假设有两个分类变量X和Y,它们的可能 取值分别为x1,x2和y1,y2,其样本频数列联 表(称为22列联表)为22列联表,频数表,构造一个随机变量K2=,其中n=为样本容量.(3)独立性检验利用随机变量 来确定是否能以一定把握认为“两个分类变量”的方法称为两个分类变量的独立性检验.,a+b+c+d,K2,有关系,基础自测1.相关系数度量()A.两个变量之间线性相关关系的强度 B.散点图是否显示有意义的模型 C.两个变量之间是否存在因果关系 D.两个变量之间是否存在关系 解析 相关系数来衡量两个变量之间线性相关关系的强弱.,A,2.如果有95%的把握说事件A和B有关系,那么具体计 算出的数据()A.K23.841 B.K26.635 D.K23.841,K26.635就约有99%的把握.,A,3.已知x、y之间的数据如表所示,则回归直线过点()A.(0,0)B.(,0)C.(0,)D.(,)解析 回归直线过样本点的中心(,).,D,4.下列说法中正确的有:若r0,则x增大时,y也相应增大;若r0,则x增大时,y也相应增大;若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上()A.B.C.D.解析 若r0,表示两个相关变量正相关,x增大时,y也相应增大,故正确.r0,表示两个变量负相关,x增大时,y相应减小,故错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故正确.,C,5.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的(有关,无关).解析 K2=27.6310.828,有99.9%的把握认为“打鼾与患心脏病有关”.,有关,题型一 线性回归分析【例1】假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:,已知(1)求,;(2)对x,y进行线性相关性检验;,x,题型分类 深度剖析,(3)如果x与y具有线性相关关系,求出线性回归方程;(4)估计使用年限为10年时,维修费用约是多少?(1)先根据已知计算相关系数r,判断是否具有相关关系.(2)再利用公式求出回归方程进行回归分析.解(1),思维启迪,(2)步骤如下:作统计假设H0:x与y不具有线性相关关系.n-2=3时,r0.05=0.878.=112.3-545=12.3,=90-542=10,=140.8-125=15.8,r=|r|=0.9870.878,即|r|r0.05,所以有95%的把握认为“x与y之间具有线性相关关系”,去求线性回归方程是有意义的.,所以线性回归方程为=1.23x+0.08.(4)当x=10时,=1.2310+0.08=12.38(万元),即估计使用10年时,维修费用约为12.38万元.在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系.若它们之间具有相关关系,再求回归方程,否则,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.,探究提高,知能迁移1 测得某国10对父子身高(单位:英寸)如下:,(1)对变量y与x进行相关性检验;(2)如果y与x之间具有线性相关关系,求线性回归方程;(3)如果父亲的身高为73英寸,估计儿子的身高.,解(1),因为r的值较大,所以y与x之间具有很强的线性相关关系.(2)设回归方程为,故所求的回归方程为=0.464 6x+35.974 7.(3)当x=73时,=0.464 673+35.974 769.9.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.,题型二 非线性回归分析【例2】下表是某年美国旧轿车价格的调查资料,以x表示轿车的使用年数,y表示相应的年均价格,求y关于x的回归方程.,由已知表格先画出散点图,可以看出随着使用年数的增加,轿车的平均价格在递减,但不在一条直线附近.但据此认为y与x之间具有线性相关关系是不科学的,要根据图形的形状进行合理转化,转化成线性关系的变量间的关系.,思维启迪,解 作出散点图如图所示.,可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系.与已学函数图象比较,用 来刻画题中模型更为合理,令,则,题中数据变成如下表所示:,相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.,由表中数据可得r-0.996.|r|0.75.认为x与z之间具有线性相关关系,由表中数据得-0.298,8.165,所以=-0.298x+8.165,最后回代=ln,即=e-0.298x+8.165为所求.非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.,探究提高,知能迁移2 在试验中得到变量y与x的数据如下表:,试求y与x之间的回归方程,当x0=40时,预测y0的值.解 作散点图如图所示,从散点图可以看出,两个变量x,y不呈线性相关关系.根据学过的函数知识,样本点分布的曲线可能有两种情况.,(1)指数函数曲线y=c1;(2)二次函数曲线y=c3x2+c4.对于(1),问题变为如何估计待定参数c1,c2,可通过对数变换把指数关系变为线性关系,那么令则,作散点图如图所示.,列表,从图中可以看出x与z有很强的线性相关性.由表中的数据得到线性回归方程=0.277x-3.992.所以,变量y关于x的指数回归方程为=e0.277x-3.992.对于(2),问题变为如何估计待定参数c3,c4,那么令t=x2,则y=c3t+c4.列表,从图中可以看出,y与t不宜用线性回归方程来拟合.,为比较两个模型的拟合效果,用线性回归模型拟合表中的数据,可得到y关于t的线性回归方程为 0.357t-177.08.所以,变量y关于x的二次回归方程为 0.357x2-177.08.利用残差比较两个回归方程的拟合效果.,列表,计算残差平方和 812.759,13 669.063.因此,指数模型的拟合效果远远优于二次模型,应选用指数模型.所以,当x0=40时,y0=e0.27740-3.9921 197.510.,题型三 独立性检验【例3】(12分)在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?(1)先由已知作出调查数据的列联表.(2)再根据列联表画出二维条形图,并进行分析.(3)利用独立性检验作出判断.,思维启迪,解 根据题目所给的数据作出如下的列联表:,4分根据列联表作出相应的二维条形图,如图所示.,6分,从二维条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例 要大,其差值为 差值较大,因而我们可以认为“性别与患色盲是有关的”,8分根据列联表中所给的数据可以有a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式K2=得K2=10分,由于K2=27.110.828,所以我们有99.9%的把握认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.12分,知能迁移3 在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个22列联表;(2)检验休闲方式是否与性别有关,可靠性有多大.,解(1)22列联表如图:,休闲方式,性别,(3)假设休闲方式与性别无关,则K2=所以有理由认为休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休闲方式与性别有关.,方法与技巧1.线性回归分析以散点图为基础,具有很强的直观性,有散点图作比较时,拟合效果的好坏可由直观性直接判断,没有散点图时,只须套用公式求r,R2再作判断即可.2.独立性检验没有直观性,必须依靠K2的观测值k作判断.,思想方法 感悟提高,失误与防范1.r的大小只说明是否相关并不能说明拟合效果的好坏,R2才是判断拟合效果好坏的依据.2.独立性检验的随机变量K2=2.706是判断是否有关系的临界值,K22.706应判断为没有充分证据显示X与Y有关系,而不能作为小于90%的量化值来判断.,一、选择题1.对于线性相关系数r,叙述正确的是()A.r(-,+),|r|越大,相关程度越大,反之相 关程度越小 B.r(-,+),r越大,相关程度越大,反之相关 程度减小 C.|r|1,且|r|越接近于1,相关程度越大,|r|越接 近于0,相关程度越小 D.以上说法都不对 解析 由r的意义知C正确.,定时检测,C,2.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.模型的相关系数r为0.98 B.模型的相关系数r为0.80 C.模型的相关系数r为0.50 D.模型的相关系数r为0.25 解析 根据相关系数的定义和计算公式可知,|r|1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱,所以A正确.,A,3.下列说法:将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位;线性回归方程 必过点(,);曲线上的点与该点的坐标之间具有相关关系;在一个22列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是90%.其中错误的个数是()A.1B.2C.3D.4,解析 根据方差的计算公式,可知正确;由线性回归方程的定义及最小二乘法的思想,知正确,不正确.答案 C,4.下面是22列联表:,则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52解析 a+21=73,a=52.又a+22=b,b=74.,C,5.若变量y与x之间的相关系数r=-0.936 2,查表得到相关系数临界值r0.05=0.801 3,则变量y与x之间()A.不具有线性相关关系 B.具有线性相关关系 C.它们的线性关系还要进一步确定 D.不确定 解析 相关系数r主要是来衡量两个变量之间线性关系的强弱,|r|越接近1,两个变量之间线性关系就越强,|r|越接近0,两个变量之间几乎不存在线性关系.因为|r|=0.936 2,接近1,所以变量y与x之间具有线性相关关系.,B,6.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示.,根据以上数据,则()A.含杂质的高低与设备改造有关B.含杂质的高低与设备改造无关C.设备是否改造决定含杂质的高低D.以上答案都不对,解析 由已知数据得到如下22列联表,答案 A,由公式由于13.1110.828,故有99.9%的把握认为含杂质的高低与设备是否改造是有关的.,二、填空题7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:,已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到则认为选修文科与性别有关系出错的可能性约为.,解析 K24.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科 与性别之间有关系”成立,并且这种判断出错的 可能性约为5%.答案 5%8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人 一年中的感冒记录作比较,提出假设H0:“这种 血清不能起到预防感冒的作用”,利用22列联 表计算得K23.918,经查对临界值表知P(K2 3.841)0.05.对此,四名同学作出了以下的判断:,p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是.(把你认为正确的命题序号都填上)p q pq(p q)(rs)(p r)(qs),解析 本题考查了独立性检验的基本思想及常用 逻辑用语.由题意,得K23.918,P(K23.841)0.05,所以,只有第一位同学的判断正确,即 有95%的把握认为“这种血清能起到预防感冒的作 用”.由真值表知为真命题.答案,9.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据计算K2=.(保留两位小 数)比较这两种手术对病人又发作心脏病的影响有 没有差别._.,解析 提出假设H0:两种手术对病人又发作心脏病的影响没有差别.根据列联表中的数据,可以求得当H0成立时K21.78,而K22.072的概率为0.85.所以,不能否定假设H0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.,答案 1.78不能作出这两种手术对病人又发作心脏病的影响有差别的结论,三、解答题10.在一次飞机航程中调查男女乘客的晕机情况,其 22列联表如图所示,判断晕机与性别是否有关?,解析故有97.5%的把握认为“晕机与性别有关”.,11.对某校学生进行心理障碍测试得到如下列联表.,试说明在这三种心理障碍中哪一种与性别关系最大?,解 对于上述三种心理障碍分别构造三个随机变量由表中数据可得,所以没有充分的证明显示焦虑与性别有关,有97.5%的把握认为说谎与性别有关,没有充分的证明显示懒惰与性别有关.,12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:,该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠?,解(1)设抽到不相邻的两组数据为事件A,因为从5组数据中选取2组数据共有10种情况:(1,2)(1,3)(1,4)(1,5)(2,3)(2,4)(2,5)(3,4)(3,5)(4,5),其中数据为12月份的日期数.每种情况都是可能出现的,事件A包括的基本事件有6种.所以P(A)=所以选取的2组数据恰好是不 相邻2天数据的概率是,(2)由数据,求得=12,=27.由公式,求得所以y关于x的线性回归方程为(3)当x=10时,同样,当x=8时,所以,该研究所得到的回归方程是可靠的.,返回,免费,