第8章方差分析课件.ppt
统计学教程第8章 方差分析,2023年4月3日/*,统计学教程第8章 方差分析,8.1 方差分析的一般问题 8.1.1 方差分析的基本原理 8.1.2 方差分析的基本假定8.2 单因素方差分析 8.2.1 单因素方差分析的步骤 8.2.2 方差分析表 8.2.3 方差分析中的多重比较8.3 双因素方差分析 8.3.1 无交互作用的双因素方差分析 8.3.2 有交互作用的双因素方差分析,2023/4/3,第8章 方差分析,8.1 方差分析的一般问题,统计学教程,2023年4月3日/*,统计学教程第8章 方差分析,8.1方差分析的一般问题,8.1.1 方差分析的基本原理 方差分析可以用来分析和判断多个样本的特征数值之间有无显著差异。以均值为例,当多个样本为来自某一受控因素不同水平的观察数值时,若该多个样本的各自均值之间不存在显著差异,即表明这一受控因素的不同水平对变动的影响是不显著的,属于随机因素引起的随机变动;反之,若该多个样本的各自均值之间存在着显著差异,即表明这一受控因素的不同水平对变动的影响是显著的,属于受控因素引起系统性的变动。因素(Factor)是指方差分析所要检验的对象,也称为因子。水平(Level)是指方差分析因素的具体表现,也称为处理(Treatment)。观察值(Observational Value)是指在具体的因素水平下的样本数据。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.1方差分析的一般问题,例8.1 某企业为了分析研究成品车间的产品质量控制问题,对该车间的5个班组的产品优等品率进行了一次抽查,在每个班组独立地抽取了5个优等品率数据构成了随机样本。表8.1 某企业成品车间5个班组优等品率抽查情况%,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.1方差分析的一般问题,因此,方差分析是依据具体的因素水平下的观察值,对因素进行显著性假设检验的方法和过程。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.1方差分析的一般问题,在方差分析中,各样本观察值之间的差异称之为总差异,用总离差平方和来表示。总离差平方和(Sum of Squares)是每一观察值与其总均值的离差的平方的总和。根据因素的不同水平,方差分析将观察值之间的差异以及总离差平方和分解为两部分。一部分是同一水平下观察值之间的差异,称之为组内离差,通常用组内离差平方和来度量(Sum of Squares Within Groups);另一部分是不同水平观察值之间的差异,称之为组间离差,通常用组间离差平方和(Sum of Squares Between Groups)来度量,例如表8.1中5个班组观察值均值之间的差异,就是组间离差,采用每一班组观察值的样本均值与总均值之间离差的平方和来度量。方差分析是将具体的因素水平下观察值的差异分解为不受因素水平影响的组内离差,和受到因素水平影响的组间离差,并通过显著性假设检验,来判断所研究的因素是否具有显著的系统性变动特征的方法和过程。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.1方差分析的一般问题,8.1.2 方差分析的基本假定 方差分析基本假定的一般性的表述为,设因素A有个k水平,在每个具体水平下,总体分布为。注意这里个总体方差均相等,并且在每个水平下抽取一个样本,所取得的K个样本相互独立。显然,以上表述规定了方差分析的3项基本假定。1每个总体均服从正态分布。对应于具体因素的每一个水平,其观测值都是来自正态总体。2每个总体具有同等方差,即方差齐性要求。对应于具体因素的每一个水平,其观测值都是来自具有同等的方差的正态总体。3观测值都是相互独立的。每一观测值都是来自具有同等方差的正态总体的独自同分布样本。,2023/4/3,第8章 方差分析,8.2 单因素方差分析,统计学教程,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,8.2.1 单因素方差分析的步骤1提出假设 方差分析的第一步就是建立假设。按照具体的水平,针对所检验的对象提出原假设和备择假设,当因素有个k水平时,需要提出如下假设。不全相等 原假设表示在不同的下的各个总体均值相等,即不同的水平对总体均值没有显著影响;备择假设表示在不同的下的各个总体均值不全相等,至少有一个总体均值与其它总体均值不等,即该因素的不同的水平对总体均值存在显著影响。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,2计算均值(1)水平均值 水平均值(Level Mean)是指根据具体水平下的观察值的均值。一般将第j项水平的水平均值记为,有计算公式为(8.1)(2)总均值 总均值(Total Mean)是指全部观察值的均值,也为水平均值的均值。总均值一般记为,有(8.2),2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,按照式(8.1),由表8.1的数据可以计算出例8.1中各组的水平均值。表8.2 某企业成品车间5个班组优等品率水平均值%按照式(8.2),由表8.2的数据可以计算出例8.1的中该企业成品车间5个班组优等品率的总均值为86.04%。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,3计算离差平方和(1)总离差平方和总离差平方和(Sum of Squares for Total,SST)是指全部观察值与总均值的离差的平方和,反映了全部观察值离散程度的总规模。有(8.3)按照式(8.3),由表8.2的数据可以计算出例8.1的总离差平方和SST为286.96。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,(2)水平项差平方和 水平项离差平方和(Sum of Squares for Factor A,SSA)是指各项水平的水平均值与总均值的离差的平方和,反映了各项水平代表性数值各项水平均值之间离散程度的规模。有(8.4)按照式(8.4),由表8.2的数据可以计算出例8.1的水平项离差平方和SSA为183.76。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,(3)误差项离差平方和 误差项离差平方和(Sum of Squares for Error,SSE)是指各项水平的观察值与其水平均值的离差的平方和之和,反映了各项水平内部观察值离散程度的总和。有(8.5)按照式(8.5),由表8.2的数据可以计算出例8.1的误差项离差平方和SSE为103.20。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,(4)离差平方和之间的关系 从方差分析的角度,在三项离差平方和中,总离差平方和SST所度量的离散程度包括了全部观察值的所有变异;水平项离差平方和SSA是对各项水平之间的差异程度进行度量的测度,即包括了随机离差,又包括了系统离差;误差项离差平方和SSE反映的是各个水平内部的离散程度,仅仅包括随机离差。这三项离差平方和存在着水平项离差平方和SSA与误差项离差平方和SSE之和等于总离差平方和SST 的数量对等关系。即(8.6)因此,可以通过比较水平项离差平方和SSA与误差项离差平方和SSE数值,对所设定的因素的不同水平对总体均值没有显著影响的原假设进行检验,最终作出接受还是拒绝原假设的判断。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,17,总变差(离差平方和)分解的图示,组间变异,总变异,组内变异,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,18,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,4计算均方 均方(Mean Square)是指离差平方除以其自由度的商。计算均方的关键是正确地确定各离差平方的自由度。(1)SSA的均方MSA 水平项离差平方和SSA的自由度为k-1,则有其均方MSA为(8.7)按照式(8.7),可计算出例8.1的MSA为45.94。(2)SSE的均方MSE 误差项离差平方和SSE的自由度为n-k,则有其均方MSE为(8.8)按照式(8.8),可计算出例8.1的MSE为5.16。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,(3)SST的均方MST 总离差离差平方和SST的自由度为n-1,则有其均方MST为(8.9)总离差平方和SST是由个观察值计算的离差平方和,并含有1个线性约束条件,所以总离差平方和SST的自由度为n-1。显然有水平项离差平方和SSA与误差项离差平方和SSE两者的自由度之和,等于总离差平方和SST的自由度,即n-1=(k-1)+(n-k)。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,5计算F检验统计量 误差项离差平方和SSE与总体方差之比服从自由度为的卡方分布,即(8.10)水平项离差平方和SSA与总体方差之比服从自由度为的卡方分布,即(8.11)有式(8.9)和式(8.10)的比值服从第一自由度为k-1,第二自由度为n-k的F分布,即(8.12)由式(8.12),可计算出例8.1的检验统计量的数值为8.9031。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,5计算F检验统计量 误差项离差平方和SSE与总体方差之比服从自由度为的卡方分布,即(8.10)水平项离差平方和SSA与总体方差之比服从自由度为的卡方分布,即(8.11)有式(8.9)和式(8.10)的比值服从第一自由度为k-1,第二自由度为n-k的F分布,即(8.12)由式(8.12),可计算出例8.1的检验统计量的数值为8.9031。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,6统计判断 在计算出F检验统计量的具体数值之后,将F检验统计值与给定的显著性水平的F分布临界数值相比较,作出接受还是拒绝原假设的统计判断。若F检验统计值落在由F分布临界数值界定的接受域内,则接受原假设;反之,便拒绝原假设。例8.1的检验统计值为8.9031,在显著性水平为0.05时,有F检验临界值为2.8661。显然,F检验统计值8.9031大于F分布的临界数值。因此,作出拒绝原假设的统计判断,认为不同的班组是该企业成品车间产品质量的显著性影响因素。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,24,F分布与拒绝域,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,8.2.2 方差分析表表8.3 方差分析表表8.4 Excel 单因素方差分析表,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,8.2.3 方差分析中的多重比较 当方差分析得出拒绝原假设时,不能由此推断该因素各水平两两之间都存在显著差异。在方差分析中,将解决这类问题的方法称为方差分析中的多重比较。多重比较方法(Multiple Comparison Procedures)是指通过不同水平均值之间的两两配对比较,来检验各个总体均值之间是否存在显著差异的假设检验方法和过程。最小显著性差异法是一种使用比较普遍的多重比较方法。最小显著性差异法(Least Significant Difference,LSD)是指在方差分析中,采用T统计量对各水平是否存在显著差异进行逐一两两配对比较的假设检验方法。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,在第7章中,讨论了在两个服从正态分布总体的方差和为未知且相等的场合,对总体均值假之差进行假设检验时,采用统计量来进行假设检验,可以在方差分析关于方差匀性(方差相等)的前提下,引申出对于多个个总体均值的统计量假设检验方法。有(8.14)当各水平的观测值个数相等时。则式(8.14)又可简约地写为(8.15),2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.2 单因素方差分析,例8.2 采用例8.1中各组观测值表8.1和表8.2中各组水平均值数据,采用最小显著性差异法,检验各组总体均值之间的差异是否显著。解 要求检验各组总体均值之间的差异是否显著,意味着需要进行5个水平的成对组合数进行假设检验,即进行10项假设检验。可以将此假设检验依次分为4组。在显著性水平为0.05,自由度为20的双侧检验临界值为 2.08596。表8.5 采用最小显著性差异法计算的例8.1 检验统计量,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,29,失业保险的例子(1),在失业保险实验中,设显著性水平=0.05,试分析奖金水平对失业时间的影响是否显著。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,30,失业保险的例子(2),1、根据前面的分析,数据符合方差分析的假设条件。2、提出零假设和备择假设:H0:1234,H1:1、2、3、4 不全相等。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,31,失业保险的例子(3),3、计算F统计量的实际值。手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般要借助于统计软件。下面是Excel计算的方差分析表。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,32,失业保险的例子(4),4、样本的F值为3.04。由于因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。类似的,由于,可以得出同样的结论。,2.9,0.0433,0.05,3.04,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,33,例2 热带雨林(1),各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。,一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,34,例2 热带雨林(2),1、正态性检验:直方图,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,35,例2 热带雨林(3),同方差性检验:最大值与最小值之比等于33.19/4.81=1.34,明显小于4,因此可以认为是等方差的。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,36,例2 热带雨林(4),2、提出零假设和备择假设零假设:雨林采伐对林木数量没有显著影响(各组均值相等);备择假设:雨林采伐对是有显著影响(各组均值不全相等)。,2023/4/3,2023/4/3,版权所有 BY 统计学课程组,37,例2 热带雨林(5),3、方差分析表4、结论。F值=11.433.32,p-值=0.00020.05,因此检验的结论是采伐对林木数量有显著影响。,2023/4/3,第8章 方差分析,8.3 双因素方差分析,统计学教程,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,双因素方差分析(Two-Way Analysis of Variance)是指所要检验的对象为两个的情况下的方差分析。根据因素之间的效应是否独立,可以将双因素方差分析分为两种类型。一种是假定A因素与B因素之间是相互独立,无交互作用的双因素方差分析;另一种是假定A因素与B因素之间是有交互作用的双因素方差分析。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,8.3.1 无交互作用的双因素方差分析 无交互作用的双因素方差分析也被称为无重复双因素方差分析。所谓无交互作用强调的是A因素与B因素之间相互独立的特征;所谓无重复强调的是由A因素与B因素交互构成的任一组合,仅包含一项观测值,不能进行重复观测的这一特征。在不能进行重复观测的场合,也就不能分析因素与因素之间的交互作用。1数据结构 在无交互作用的双因素方差分析中,一般将一个因素安排在数据表的“行(Row)”的位置上,例如表8.6中的因素,称之为行因素,并用序号1到s表示;将另一个因素安排在数据表的“列(Column)”的位置上,例如表8.6中的因素,称之为列因素,并用序号1到k表示。行因素和列因素的每一个水平都可以构成一项观察值,一共有项观察值,通过观察值来反映这两个因素对的共同影响。双因素方差分析的数据结构如表8.6所示。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,表8.6 双因素方差分析的数据结构,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,2.分析步骤(1)提出假设 在双因素方差分析中,需要对两个因素分别提出假设。对排列在行上的因素提出假设,为 不全相等 同时对排列在列上的因素提出假设,为 不全相等,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,(2)构造检验统计量 仍然从总离差平方和SST出发,有(8.20)式(8.20)中等号右边第一项为列因素(Column Factor)的水平均值与总均值的离差平方和,记为SSC。有(8.21)其自由度为k-1,则SSC的均方为MSC。有(8.22),2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,第二项为行因素(Row Factor)的水平均值与总均值的离差平方和。记为SSR。有(8.23)其自由度为s-1,则SSR的均方为MSR。有(8.24)第三项是除掉列因素和行因素之外的剩余因素影响形成的离差平方和。记为SSE。有(8.25)其自由度为(s-1)(k-1),则SSE的均方为MSE。有(8.26),2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,由以上三项均方MSC、MSR和MSE,可以构成两项检验统计量。其中,检验列因素是否具有显著性影响的检验统计量为(8.27)检验行因素是否具有显著性影响的检验统计量为(8.28)在无交互作用的双因素方差分析中,有总离差平方和SST的自由度仍为n-1。同时,水平项离差平方SSA和、误差项离差平方和SSE,与剩余因素影响离差平方和SSE三者的自由度之和,应等于总离差平方和SST的自由度,在这里有n=ks。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,(3)统计判断 将由式(8.27)和式(8.28)计算出来的两项F检验统计值,分别与给定的显著性水平的F分布的临界数值相比较,作出接受还是拒绝原假设的统计判断。若检验统计值楼在落在由F分布的临界数值界定的接受域内,则接受原假设;反之,则拒绝原假设。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,例8.3 在一次职工收入水平调查中,采集了甲、乙、丙、丁四个城市的A、B、C、D、E五类职业月收入数据。采用无交互作用的双因素方差分析方法判断城市和职业类型这两个因素对职工收入是否有显著影响。解 计算出各行各列的水平均值,和全部观测值的总均值。表8.8 职业月收入情况双因素方差分析数据结构表 元,8.3 双因素方差分析,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,8.3 双因素方差分析,(1)提出原假设 行因素(职业)列因素(城市)备择假设可以省略,不用列出。(2)计算检验统计量 按照有关公式,逐一计算出各项离差平方和、自由度、均方、检验值,并将这些数据依照计算的次序列在方差分析表中。表8.9 职业月收入情况双因素方差分析表,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,案例一 案例二,8.3 双因素方差分析,2023/4/3,第8章 方差分析,Excel 应用,统计学教程,2023年4月3日/*,统计学教程第8章 方差分析,Excel 应用,1.单因素方差分析 例8.5 某市交通管理部门将一天分为三个时段,其中4时到12时为上午,12时到20时为下午,20时到次日4时为夜间,对某一路段的交通流量进行了观测,具体数据见表8.12。表8.12 某市某一路段的交通流量情况 车次,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,Excel 应用,2无交互作用的双因素方差分析 例8.6 基本数据同表8.12。在本例中,除了将一天中的不同时段作为一个研究的因素,将一天划分为上午、下午和夜间三个时段水平进行观测之外,还对一周七天作为另一个研究的因素,将一周七天划分为七个日期水平进行观测。表8.16 某市某一路段的交通流量情况 车次,2023/4/3,第8章 方差分析,小结与练习,统计学教程,2023年4月3日/*,统计学教程第8章 方差分析,本章小结,本章主要介绍了方差分析的基本原理和基本假定,单因素方差分析及其多重比较分析方法,无交互作用和有交互作用的双因素方差分析等。本章的重点是单因素方差分析中离差平方和的分解原理,及其自由度的确定,检验统计量的计算,单因素方差分析的多重比较分析;以及无交互作用双因素方差分析和有交互作用双因素方差分析方法的应用。本章的难点是方差分析的基本原理和基本假定,以及方差分析中离差平方和分解的原理及其相互关系,F检验统计量的构造。,2023/4/3,2023年4月3日/*,统计学教程第8章 方差分析,思考与练习,作业 第213-215页 10、13 1、所有作业都必须(使用计算器)手工计算。2、注意熟悉方差分析表的内容和使用。,2023/4/3,第8章 方差分析,结 束,统计学教程,