单因素方差分析-excel教程.ppt
第十一章 方差分析,学习要求,基本概念:指标、因素、水平、单因素方差分析、双因素方差分析基本步骤掌握单因素方差分析的基本方法,单因素试验的方差分析,在工农业生产和科研活动中,我们经常遇到这样的问题:影响产品产量、质量的因素很多,例如影响农作物的单位面积产量有品种、施肥种类、施肥量等许多因素。我们要了解这些因素中哪些因素对产量有显著影响,就要先做试验,然后对测试结果进行分析,作出判断。方差分析就是分析测试结果的一种方法。,引 言,基 本 概 念,试验指标试验结果。,可控因素在影响试验结果的众多因素中,可人为 控制的因素。,水平可控因素所处的各种各种不同的状态。每个 水平又称为试验的一个处理。,单因素试验如果在一项试验中只有一个因素改变,其它的可控因素不变,则该类试验称为 单因素试验。,引例,例1(灯丝的配料方案优选)某灯泡厂用四种配料方案制成的灯丝生产了四批灯泡,在每批灯泡中作随机抽样,测量其使用寿命(单位:小时),数据如下:,灯泡的使用寿命试验指标,灯丝的配料方案试验因素(唯一的一个),四种配料方案(甲乙丙丁)四个水平,因此,本例是一个四水平的单因素试验。,引 例,用X1,X2,X3,X4分别表示四种灯泡的使用寿命,即为四个总体。假设X1,X2,X3,X4相互独立,且服从方差相同的正态分布,即XiN(i,2)(i=1,2,3,4),本例问题归结为检验假设 H0:1=2=3=4 是否成立,我们的目的是通过试验数据来判断因素 A 的不同水平对试验指标是否有影响。,设 A 表示欲考察的因素,它的 个不同水平,对应的指标视作 个总体 每个水平下,我们作若干次重复试验:(可等重复也可不等重复),同一水平的 个结果,就是这个总体 的一个样本:,单因素试验的方差分析,单因素试验资料表,纵向个体间的差异称为随机误差(组内差异),由试验造成;横向个体间的差异称为系统误差(组间差异),由因素的不同水平造成。,单因素试验的方差分析的数学模型,具有方差齐性。,相互独立,从而各子样也相互独立。,首先,我们作如下假设:,检验假设:,考察统计量,经恒等变形,可分解为:,其中,反映的是各水平平均值偏离总平均值的偏离程度。,如果H0 成立,则SSA 较小。,总离差平方和,反映的是重复试验种随机误差的大小。,由272页4可得:,将 的自由度分别记作,则,(记,称作均方和),则,(记,称作均方和),对给定的检验水平,由,得H0 的拒绝域为:,F 单侧检验,结论:方差分析实质上是假设检验,从分析离差平方和入手,找到F统计量,对同方差的多个正态总体的均值是否相等进行假设检验。单因素试验中两个水平的均值检验可用第九章的双样本均值检验法。,思考:为什么此处只做单侧检验?,(1)若,则称因素的差异极显著(极有统计意义),或称因素A的影响高度显著,这时作标记;,约 定,(2)若,则称因素的差异显著(差异有统计意义),或称因素A的影响显著,作标记;,(3)若,则称因素A有一定影响,作标记();,(4)若,则称因素A无显著影响(差异无统计意义)。,注意:在方差分析表中,习惯于作如下规定:,简便计算公式:,其中,同一水平下观测值之和,所以观测值之和,方差分析步骤,【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表,分析四个行业之间的服务质量是否有显著差异,作出这种判断需要检验这四个行业被投诉次数的均值是否相等如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异,分析步骤提出假设构造检验统计量统计决策,提出假设,一般提法H0:m1=m2=mk H1:m1,m2,mk不全相等注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等,构造检验的统计量,构造统计量需要计算水平的均值全部观察值的总均值误差平方和均方(MS),构造检验的统计量(计算水平的均值),假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数计算公式为,式中:ni为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值,构造检验的统计量(计算全部观察值的总均值),全部观察值的总和除以观察值的总个数计算公式为,构造检验的统计量(例题分析),构造检验的统计量(计算总误差平方和 SST),全部观察值 与总平均值 的离差平方和反映全部观察值的离散状况其计算公式为,前例的计算结果:SST=(57-47.869565)2+(58-47.869565)2=115.9295,构造检验的统计量(计算水平项平方和 SSA),各组平均值 与总平均值 的离差平方和反映各总体的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差计算公式为,前例的计算结果:SSA=1456.608696,构造检验的统计量(计算误差项平方和 SSE),每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况,又称组内平方和该平方和反映的是随机误差的大小计算公式为,前例的计算结果:SSE=2708,构造检验的统计量(三个平方和的关系),总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系,SST=SSA+SSE,前例的计算结果:4164.608696=1456.608696+2708,构造检验的统计量(F分布与拒绝域),统计决策,将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策根据给定的显著性水平,在F分布表中查找与第一自由度df1k-1、第二自由度df2=n-k 相应的临界值 F 若FF,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若FF,则不拒绝原假设H0,不能认为所检验的因素对观察值有显著影响,单因素方差分析表(基本结构),单因素方差分析(例题分析),观察值之间的差异来自两个方面:,某因素不同水平的影响(系统性影响),其他随机因素的影响(随机性影响),水平间方差(组间方差),水平内方差(组内方差),进一步的理解:,如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:说明某因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1。,用Excel进行方差分析,用Excel进行方差分析,第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“单因素方差分析”,然后选择“确定”第4步:当对话框出现时 在“输入区域”方框内键入数据单元格区域 在方框内键入0.05(可根据需要确定)在“输出选项”中选择输出区域,补充概念:双因素方差分析(two-way analysis of variance),分析两个因素(行因素Row和列因素Column)对试验结果的影响 如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析(Two-factor without replication)如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析(Two-factor with replication),