成对数据的统计分析 第7课时 列联表与独立性检验.docx
8.3列联表与独立性检验(2课时单元教学设计)第一课时梁伟(安徽省淮南第四中学)第二课时洪敏(安徽省淮南第三中学)1教学内容和内容解析1.1 内容第1课时分类变量的概念、2X2列联表、等高条形图:第2课时两个分类变量的独立性检验.1.2 内容解析(1)引入分类变量的必要性:在当今大数据时代和“互联网+”的大背景下,本节课对提升学生的数据分析素养和提高学生的信息处理能力起到一个至关重要的作用.“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的.因此,教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即利用随机抽样获得一定的样本数据,再利用随机事件发生的频率稳定于概率的原理,求出相关概率进行比较,或借助更加直观的方法一等高条形图,为后续引出相对更精确的解决办法一独立性检验做铺垫.(2)分类变量:分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;"行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等.教材首先举例说明了前面两节讨论的变量都是数值变量,通过数值变量与分类变量的对比,引出分类变量.从而引出我们本节课主要讨论分类变量的关联性问题.(3)2×2列联表:实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.教材通过举例的方法介绍了什么是2x2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.(4)等高条形图:教材介绍了如何通过不同的统计软件绘制等高条形图,并让学生感受利用等高堆积条形图可以更加直观地展示分类变量的关联性.(5)独立性检验是研究随机变量独立性的一种统计方法。为了解总体中两个分类变量是否相互独立,可以从总体中抽取简单随机样本,整理成一个2x2列联表,独立性检验就是根据列联表检验两个分类变量是否相互独立。独立性检验是假设检验的一个特例,假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设。所以独立性检验本质上是一种概率推断,是一种依据概率在“0:无实质差异”与aH1:有实质差异”这两种推断中选择其一。这是一种“概率反证法”,通过样本出现的事件是否属于小概率事件来判断总体假设的真伪。独立性检验的数学基础是条件概率与独立事件概率的乘法公式,其推断步骤可分为:第一步,提出想要验证的假设”0,称为零假设;第二步,若假设“0不成立,则提出假设称为对立假设;第三步,若假设Ho成立,构造一个只有在小概率的情况下才能观察到的现象?;第四步,依据样本数据确认是否观察到了现象?;第五步,若能观察到现象/的情况下,则推断假设“0是错误的,此时便可以拒绝“0,而选择假设第六步,若未能观察到现象,则无法拒绝假设H。,可选择假设独立性检验的依据是小概率原理:即小概率事件在一次试验中几乎不可能发生。在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设。所以独立性检验是检验假设而不是证明假设,所以推论会出现两类错误:第一类错误是拒绝了正确的零假设,犯了第一类错误的概率是Q;第二类错误是没有拒绝错误的零假设。独立性检验在犯第一类错误的概率和犯第二类错误之间做平衡,希望犯这两种错误的概率都尽可能地小,但减少第一类错误的概率就会增大犯第二类错误的概率。因为第二类错误对样本量特别敏感,所以可以通过样本量降低第二类错误的概率。独立性检验是从样本数据中发现关系,是成对样本数据统计分析的重要内容,是依据数据进行合理推理的典型方法,体现了数学的理性精神,也是提升数据分析和逻辑推理素养的重要素材。2目标和目标解析2.1目标(1)了解分类变量与数值变量的区别.(2)了解回归与相关的区别.(3)通过实例,理解通过比较相关比率,利用2x2列联表或等高图可以初步检验两个随机变量的独立性.(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.(6)基于2x2列联表,通过具体实例,了解独立性检验的基本思想。(7)掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力。2.2目标解析达成上述目标的标志分别是:(1)会判断一个变量是否是分类变量、是否是数值变量.(2)面对不同的数据分析案例,知道什么时候用回归分析,什么时候用相关分析.(3)会通过比较相关比率,判断两个随机变量的独立性.(4)会对简单的数据分析案例进行初步独立性分析.(5)明白通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误,为下节课独立性检验做准备.(6)基于2x2列联表,通过具体实例,解释通过条件概率分析两个分类变量独立性的方法,以及能说明用于两个分类变量独立性的统计量/构造的合理性;能说出基于小概率原则的独立性检验的基本思想,发展数据分析和逻辑推理素养。(7)能说出独立性检验的基本步骤,并能用独立性检验方法解决简单的实际问题。3教学问题诊断分析3.1 问题诊断(1)回归和相关的区别是初学者容易感到迷惑的地方.也是本章内容的重点,我们要从课前预习、课中设问、课后反思的不同学习阶段突出重点、突破难点.通过频率分析法和图形分析法,得到的结论有可能是错误的,是同学们的理解难点,这里通过合理设问突破难点.(2)学生已经学习过统计、变量回归分析等知识,在了解列联表的基础上,能用频率的稳定性直观推断两分类变量的独立性,也知道这种推断有可能出现错误。在本节中,通过引导,学生能将分类变量的独立性与事件的独立性联系起来,但要将独立性检验与一个小概率事件进行关联存在困难,这不仅是学生首次遇到这样的问题,更是逻辑推理过渡到概率推理的统计思想的提升。关于小概率。的正确理解。如果从一个样本中能够观察到小概率事件发生,表明拒绝假设"0而接受假设其这个结论发生错误的概率不超过,但不表明假设成立的概率超过1-a。小概率Q是针对检验的样本的,并不是关于零假设的,零假设或者对或者错,永远只能是这二者之一,对于这样的结论的理解是比较困难的,这是造成学生对于独立性检验的结论认知困难的主要原因。在理解独立性检验的推断可能会犯错误,学生也可能存在接受上的困难。此外,涉及的统计思想方法主要是假设检验的思想方法,也是学生可能感到困惑的。为了突破学习上的障碍,教学中创设一些生活化的问题情境引导学生学习,先定性描述再定量刻画,先直观理解再逻辑表达,强调用分类变量的样本频率分布与理论分布的误差及频率稳定于概率的原理来构造小概率事件,通过举例、讨论等形式突破难点。以具体案例为载体,帮助学生理解统计量的内涵,体会独立性检验的思想方法。3.2 教学难点(1)分析清楚回归与相关的区别.(2)卡方统计量的导出和意义,独立性检验的思想和方法.4教学支持条件分析本节课研究的是2019人教A版普通高中教科书数学选择性必修第三册)第八章”成对数据的统计分析第三节“列联表与独立性检验''的内容,是在前面学生学习的普通高中教科书数学(必修第二B)(第九弹统计')中蟒I知识的i片步应用,并与本册教材前面提到的事件的独立性一节关系紧密.本节课是在学生学习完回归分析之后的内容,所以可以将上一节课的统计研究方法进行总结,并应用到本节课的统计案例中来.借助GeoGCbra软件中的统计功能,直观呈现?分布的密度曲线,并利用力?分布密度曲线依据小概率值确定临界值与,帮助学生理解独立性检验的思想。此外,还使用了Geogebra软件解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上。6教学过程设计2第二课时1.1 教学内容两个分类变量的独立性检验.1.2 教学目标(1)基于2x2列联表,通过具体实例,了解独立性检验的基本思想.(2)掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力.1.3 教学重难点教学重点:独立性检验的基本思想和基本方法.教学难点:1.用概率推理研究两个分类变量的独立性,关于小概率。的正确理解.2. %?独立性检验的原理和方法,理解独立性检验的推断可能犯错误.1.4 教学过程设计6. 4.1创设情境,提出问题问题1:在上一节课,我们学习了2×2列联表,依据随机事件的频率稳定于概率的原理,利用相关比率和条件概率推断两个分类变量之间是否有关联.还借助等高堆积条形图,直观分析两个分类变量是否有关联.但用频率推断两个分类变量是否有关联有可能是错误的,为什么?师生活动:教师引导学生对频率与概率的比较,由频率具有随机性,与概率之间存在差异;通过数据改变,由样本容量较小时,犯错误的概率较大,得出用频率推断两个分类变量是否有关联有可能是错误的.问题2:有没有一种更合理的推断方法,同时也希望对出现的错误推断的概率有一定的控制或估算?设计意图:以旧知引出新知,为选用更具科学性的统计手段研究两个分类变量的相关关系做好铺垫.7. 4.2初步探索、展示内涵问题3:在上节课例1中,我们希望判断学校是否与数学成绩优秀率有关联,如何从概率的角度去研究两个分类变量X和Y是否有关联?师生活动1:教师引导学生思考如何将其数学化,用数学的语言表示.用。表示两所学校学生构成的集合.考虑以。为样本空间的古典概型,并定义一对分类变量X和y如下:对于。中的每个学生,分别令:y=fo,该生来自甲校,rJo,该生数学成绩不优秀,l1该生来自乙校,一八该生数学成绩优秀.如果从甲校和乙校中各随机选取一人,那么该甲校学生数学成绩优秀的概率是p(y=x=o),该乙校学生数学成绩优秀的概率是尸(y=)我们要判断学校是否影响学生的数学成绩,就看事件Y=1与事件X=1或事件X=0是否有关联,即比较条件概率p(y=x=o)和p(y=)师生活动2:为了使问题的讨论具有一般性,我们将两个分类变量的列联表抽象简化,以0,1分别表示事件发生的两种结果,如表所示,即我们需要了解事件X=1与Y=1是否存在关联.X=OX=IY=OX=0,Y=OX=l,Y=OY=IX=0,Y=IX=l,Y=I我们通过样本数据去判断两个变量是否有关联,有点类似法官凭证据判案.法官在判定某个嫌疑犯是否有罪前,应先作一个无罪假设,这叫“无罪推定”.统计中在推断两个变量是否有关联前,也往往先作个无关联的假定.Ho:P(r=lx=0)=P(y=x=i),通常称HO为零假设或原假设.这里,P(Y=Iix=O)表示从x=o中随机选取一个样本点,该样本点属于x=o,y=i的概率;而p(y=ii=i)表示从x=i中随机选取一个样本点,该样本点属于=,y=i的概率.设计意图:以例1的生活实例,通过将问题抽象为以概率语言表达的数学问题,提升学生的数学抽象素养,激发学生类比迁移的能力.通过以法官判案为例,形象地解释零假设的含义,帮助学生突破难点.问题4:能否能用条件概率的知识,分析零假设HO,给出分类变量X和y独立的定义?师生活动:由条件概率的定义可知,零假设HO等价于P(X=O,y=)P(X=Ly=I)P(X=O)-P(X=I)即P(X=O,y=)P(X=I)=P(X=I,y=)p(x=o)(*)注意到X=0和=l为对立事件,于是P(X=O)=I-P(X=I);又y=,y=+=,y=,且x=o,y=与x=,y=互斥,由概率的性质,我们有P(X=O,y=)=p(y=)-P(X=Ly=)(p(y=i)_P(X=Ly=D)P(X=D=P(X=I,y=DP(X=O)由此推得(*)式等价于P(X=I)P(y=1)=p(x=1,y=1),因此,零假设Ho等价于x=和y=独立.由于=o和x=,y=o和y=都是对立事件,因此下面的四条性质彼此等价:x=o与y=o独立,乂=。与丫=1独立,x=与y=o独立,x=与y=独立.如果这些性质成立,就称分类变量X和y独立,这相当于下面四个等式成立:P(X=05y=0)=P(X=O)P(F=O);P(X=O,y=l)=P(X=O)P(K=I);P(=l,y=0)=P(X=I)P(K=O);P(X=Ly=I)=P(X=I)P(Y=I).(*)因此,用概率语言将零假设改述为“0:分类变量X和Y独立.设计意图:借用反证法的思维模式实现从概率视角下得到两分类变量独立,为辨析独立性检验与反证法的基本思想做铺垫.同时,从对两变量相关性的感性猜想到这一环节严谨缜密的理性推演的思维互动历程,彰显了数学思维的全面性.6.4.3构造统计量,形成判断规则引导语:有了无罪假设后,法官需要去寻找证据.如果能够找到在无罪情况下不可能出现的证据,那么就可以否定无罪假设,作出嫌犯有罪的推断.在统计学中,我们通常要从样本数据中找证据,寻找证据的方法是构造一个统计量,并且了解它的统计特征,利用样本计算这个统计量的观测值,如果这个观测值不符合零假设成立时统计量应有的统计性质,那么我们就有理由相信。不成立.我们将列联表分类汇总:XY合计Y=OY=IX=Oaba+bX=ICdc+d合计a+cb+dn=a+b+c+d问题5:请同学解读关于分类变量X和Y的抽样数据的2x2列联表.师生活动:先由学生根据自己的理解作出解释,再由教师带领学生一起归纳:对于随机样本,表中的频数。,ac,d都是随机变量,相应数据是这些随机变量的一次观测结果,最后一行的前两个数分别是事件y=0和y=l的频数,最后列的前两个数分别是事件x=o和x=的频数,中间的四个数。,8,c,d分别是事件x=o,y=o,x=o,y=,x=,y=o,x=,y=的频数,右下角格子中的数是样本量.问题6:如何基于(*)式中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否独立作出推断?师生活动:教师引导学生理解,构造的统计量需要考虑以下因素:(1)这个统计量一定要与,0,c,d都有关;(2)基于P(X=O,y=o)=P(X=O)P(Y=O)及其等价条件;(3)根据统计量值的大小能判断是否有利于零假设"°.在零假设Ho成立的条件下,根据频率稳定于概率的原理,由(*)式中的第一个等式,我们可以用概率P(X=O)和P(F=O)对应的频率的的乘积七曰"D估计概率P(X=O,y=0),把S+")("+c)视为事件x=0,y=0发生的频数的期望值(或预期值).这样,该频数的观测值。和期望值S+”)(+C)应当相差不大.如何衡量两者之间的差别呢?综合(*)式,如果零假设”。成立,下面的四个量的差别都不应该太大:c(e + d)(a + c), n(c+ d)(力+ 4) n(+力)(+c)n反之,当这些量的取值较大时,就可以推断不成立.问题7:有没有更好的方式一次性将4个量全部考虑包含?师生活动:1900年,英国数学家卡方皮尔逊在研究的基础上,提出了如下统计量:X2=(a4)2(-g)9f2(LKwMw)2RRM2=n(d-bc)2化简得(+h)(c-Hf)(÷c)(÷d).问题8:42统计量有什么用呢?师生活动:统计学家建议,用力2的大小作为判断零假设是否成立的依据,当它比较大时推断”o不成立,否则认为“。成立.追问:究竟比2大到什么程度可以推断“°不成立?怎样确定力2大小的标准呢?师生活动:根据小概率事件在一次试验中不大可能发生的规律,我们可以通过确定一个与“。相矛盾的小概率事件来实现.英国统计学家皮尔逊研究发现,在假定“。的条件下,对于有放回简单随机抽样,当样本容量充分大时,统计量72近似地服从一个自由度为1的卡方分布.利用卡方分布密度曲线(图3),对于任何的小概率值a,可以找到正实数与,使得P(z2x)=a,如a=0.05,可以求得=3.8415.我们称与为a的临界值,这个临界值就可以作为判断/大小的标准.概率值a越小,临界值Xa越大.只要把概率值a取得充分小,在假设”。成立的情况下,事件与是不大可能发生的.根据这个规律,如果这个事件发生,我们就可以推断”。不成立.不过这个推断有可能犯错误,但犯错误的可能性不会超过a.设计意图:经历统计量/的构造过程,体会根据工2观测值大小推断两个分类变量独立性的合理性.了解卡方分布密度曲线和小概率原则,为学习力?独立性检验方法作准备.问题10:在假设/70的条件下,如果通过简单随机样本计算力?的一个观测值Z2=56.632,给定小概率值a=0.001,你能根据72统计量的构造过程得出怎样的结论?师生活动:利用GeoGebra的“概率统计”区,输人概率值0.001,得到临界值=10.828,P(Z210.828)=0.001,即小概率事件/10.828发生,可以拒绝零假设,认为X和y不独立.可以类比正态分布的“3b原则”理解道理.设计意图:通过GeoGebra软件直观演示卡方密度曲线来阐述/统计量的统计性质,用概率语言描述一个统计推断,从而进一步理解独立性检验思想:任何一个统计推断都有可能犯错,若能将犯错的概率控制在可接受的范围内,我们就能接受这个推断.问题IL你能总结出基于小概率值1的检验规则吗?师生活动:教师引导学生总结出基于小概率值。的检验规则是:当儿时,我们就推断”。不成立,即认为X和y不独立,该推断犯错误的概率不超过;当/儿时,没有充分证据推断”。不成立,即可以认为X和y独立.这种利用z2的取值推断分类变量X和y是否独立的方法称为z2独立性检验,简称独立性检验.给出/2独立性检验中几个常用的小概率值和相应的临界值.(小概率值)临界值表a0.100.050.010.0050.OOlXa2.7063.8416.6357.87910.828设计意图:归纳提炼独立性检验的具体检验规则,有助于学生理解独立性检验的基本思想.6.4.4例题练习,巩固新知例2.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示.依据小概率值二°l的独立性检验,分析吸烟是否会增加患肺癌的风险.吸烟肺癌合计非肺癌患者肺癌患者非吸烟者7775427817吸烟者2099492148合计9874919965师生活动:学生说明解决问题的思路,师生起写出规范的过程.解:零假设为Hn:吸烟与患肺癌之间无关联.根据列联表中的数据,得56.632 >10.828 = X0001.29965(7775×49-42×2009)2-7817×2148×9874×91根据小概率值=0.001的独立性检验,我们推断HO不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.追问:在吸烟与患肺癌有关联的判断下,你能通过频率分析吸烟对患肺癌影响的规律吗?师生活动:用频率计算再次进行比较:4249不吸烟者中患肺癌的频率:0.005;吸烟者中患肺癌的频率:0.0228;78172148()0228其中两者的比值为:-4.2;在被调查者中,吸烟者患肺癌的频率是不吸烟者0.0054患肺癌的频率的4倍以上.设计意图:加深对独立性检验的思想理解,使学生掌握应用独立性检验解决问题的步骤.当利用独立性检验推断两个变量相关时,可利用频率稳定于概率的原理,进一步利用概率分析变量间的影响程度.例3.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生,通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.依据小概率值=0.1的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异?师生活动:要求学生先自主解题,然后让学生代表进行展示.解:零假设为"0:X与Y相互独立,即两校学生的数学成绩优秀率无差异.于是Z2=88×(33×7-10×38)243x45x71x170.837 < 2.706 = i.根据小概率值=0.1的独立性检验,没有充分证据推断,。不成立,因此可以认为成立,即两校学生的数学成绩优秀率没有差异.追问:基于同一数据的分析,采用不同的方法,得出了不同的结论,你能说明其中的原因吗?师生活动:根据一个样本的两个频率间存在差异,就得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以推断依据不太充分.用独立性检验对零假设。进行检验,有P(2<2.706)=0.1,说明没有充分证据推断“o不成立,所以接受”。,推断出两校学生的数学成绩优秀率没有显著差异的结论.这个检验结果意味着,抽样数据中两个频率的差异很可能是由于样本随机性导致的.因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.由此可见,相对于简单比较两个频率的推断,用/独立性检验得到的结果更理性、更全面,理论依据也更充分.设计意图:以例1贯穿全课,首尾呼应,使学生掌握独立性检验的一般步骤和推断原理,让学生切实体会独立性检验的作用与优点.6.4.5感悟思考、思想升华思考1:列联表中,对换行或列的值,会影响卡方的取值计算结果吗?自己动手试一试!学生借助计算器发现对换行或列的值是不会影响卡方的取值计算结果.思考2:独立性检验的思想类似于反证法,你能指出二者之间的异同点吗?反证法独立性检验证明结论成立(只有一种)判断分类变量A与B之间是否有关结果有两种可能:有关或无关在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立.在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.反证法不会犯错误会犯随机性错误设计意图:对独立性检验与反证法进行对比与辨析,使学生进一步理解独立性检验的基本思想,并学会用联系的视角看待事物6. 4.6归纳小结,反思提升教师与学生一起回顾本节课所学的主要内容,并请学生回答以下问题:1 .本节课你学到哪些知识?又是用怎样的方法学到这些知识的?2 .应用力?独立性检验解决实际问题包括哪几个主要环节?3 .你能说说独立性检验的本质吗?师生活动:组织学生依次讨论这几个问题,教师适时点评、总结.设计意图:通过小结,梳理本节课所学的知识,并回顾本节课的学习过程,进一步体会独立性检验的基本思想和基本方法,培养学生对学习内容反思的意识和习惯,帮助学生梳理知识体系,并掌握相应的学习方法.6.4.7布置作业,应用迁移教科书第135页习题8.3第7、8题.6.5目标检测设计1 .某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:不满意满意男顾客1040女顾客2030依据小概率值=°°5的独立性检验,判断男、女顾客对该商场服务的评价是否有差异?附:MadFcY(a+b)(c+d)(a+C)S+d)a0.100.050.010.0050.OOl2.7063.8416.6357.87910.8282 .想了解青少年喝牛奶对感冒发病率有没有影响,采用放回简单随机抽样的方法调查了2480人,得到成对样本观测数据的分类结果,如表所示.依据小概率a=0.005的独立性检验,分析喝牛奶对感冒发病率有无影响?若有影响,请分析喝牛奶和感冒发病率之间的规律.喝牛奶感冒合计感冒人数未感冒人数喝牛奶2812961324不喝牛奶7210841156合计10023802480_n(ad-bcf(+b)(c+d)(a+C)S+d)a0.100.050.010.0050.OOlXa2.7063.8416.6357.87910.828设计意图:考查学生利用独立性检验解决简单实际问题的能力.6.6课外探究活动选择一个学科,得出喜欢该学科课程与性别的列联表和等高堆积条形图,依据小概率值=0.05的独立性检验,能否据此认为该学科的课程选择与性别有关?小组合作完成统计分析报告.统计分析报告年月日组研究课题高中生喜欢课程与性别的关系数据整理(画出列联表)女生男生合计喜欢课程不喜欢课程合计数据分析研究结论设计意图:将所学知识运用回实际生活中,培养学生数学建模核心素养.