《《非参数方法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《非参数方法》PPT课件.ppt(45页珍藏版)》请在三一办公上搜索。
1、第七章 非参数方法,非参数方法(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。,主要特点,不要求总体分布已知或对总体分布作任何限制性假定;不以估计总体参数为目的;能适用于定性变量中的定类数据或定序数据,也能适用于定距数据和定比数据这种定量变量 方法直观,易于理解,运算比较简单。缺点是检验的功效不如参数检验方法。,非参数统计与传统的参数统计相比,有以下优点:,非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基
2、础知识和统计学知识。大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。当推论多达3个以上时,非参数统计方法尤具优越性。,非参数统计方法也有以下缺点:,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第类错误的概率要大些。对于大样本,如不采用适当的近似,计算可能变得十分复杂。,主要内容,成对比较检验,曼惠特尼U检验,游程检验,等级相关检验,成对比较检验,是对两个相关样本的比较分析。有符号检验和威尔科克森符号秩检验两种方法。,符号检验,也称正负号检验,其基本思想是分析正负号出现的频率而忽略具体量的差异,以确定他们是否有显著差
3、异的一种检验方法。,符号检验,涉及由n名潜在顾客组成的样本来确定对某种产品的两种品牌之一的偏好。其实质是检验顾客是否对所比较的两种品牌存在偏好上的差异。符号检验根据样本量的不同(小样本、大样本),采取不同的检验方法。符号检验的小样本情形是指n20,作为二项分布处理。符号检验的大样本情形是指n20,作为正态近似处理。,小样本情形,P523:阳光海岸农场生产一种在市场上名为“柑桔谷”的桔汁,竞争对手生产一种新的名为“热带桔”的桔汁饮品,研究人员随机调查了12名消费者,结果如下(“”表示对柑桔谷的偏好,“”表示对热带桔的偏好):,解:H0:p=0.5;H1:p0.5(双尾检验,P(0)=0.0002
4、,(BINOMDIST(0,12,0.5,FALSE)P(1)=0.0029,(BINOMDIST(1,12,0.5,FALSE)P(2)=0.0161,(BINOMDIST(2,12,0.5,FALSE),2(P(0)+P(1)+P(2))=0.03840.05,0,1,2,3,4,5,6,可见,拒绝域应为0,1,2。,7,8,9,10,11,12,拒绝域,现检验统计量()=2(即2个加号),0.03840.05所以,原假设H0:P=0.5在5%显著性水平上被拒绝。此研究提供的证据表明,消费者对两种品牌的桔汁的偏好存在差异。,例 2:随机抽取12个单位,放映一部描述吸烟有害健康的影片,并调查
5、得到观看电影前后各单位职工认为吸烟有害的人 数的百分比。检验该电影宣传是否有效果(=0.05)。,解:H0:P=0.5 H1:P 0.5,P(0)=0.0002,P(1)=0.0030,P(2)=0.0161,P(3)=0.0537,P(0)+P(1)+P(2)=0.01930.05,P(3)+0.01930.05370.0193=0.0730.05,0,1,2,3,4,5,6,可见,拒绝域应为0,1,2。,7,8,9,10,11,12,拒绝域,现检验统计量(-)=3(即3个负号),0.0730.05所以,原假设H0:P=0.5在5%显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识
6、有显著提高。,大样本情形,使用零假设H0:P=0.5和样本容量n 20,则可以用正态分布来近似加号个数的抽样分布。在假设H0:P=0.5的条件下,加号个数的抽样分布的正态近似:均值:u=0.5n 标准差:检验统计量,或:,P524政治民意测验问题,n=200-25=175U=0.5n=87.5,=6.6,Z=(72-87.5)/6.6=-2.35,2.351.96,所以,拒绝原假设。认为公众对候选人的对外政策评价时有差异的。,例2:随机抽取60名消费者对甲、乙两种品牌的饮料评分,甲、乙得分之差为“+”号者35个,“-”号15 个,“0”号10个。以显著性水平=0.05检验两种饮料是否同等受欢迎
7、。,解:H0:P=0.5,H1:P0.5,n20,按正态分布近似处理,该成数抽样分布的均值和标准差分别为,2.821.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。,检验步骤,1.确定配对样本,分别计算差异正与负的数目,无差异则记为0,将它从样本中剔除,并相应地减少样本容量n,把正负号数目之和视为样本总个数(n)。,2.建立假设:H0:p=0.5;H1:p0.5,3.观察样本容量,如果n20,则作为二项分布处理 如果n20,则作为正态近似处理。,4.设定显著性水平,并查表确定临界值,进行比较和作出判断。,威尔科克森符号的等级检验,这种检验方法不仅考虑了两组数据差异的正、
8、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。,1、应用条件和检验内容与符号检验相同。,2、方法思想:若关联样本(匹配样本)的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为T+)与负号(-)的秩和(记为T-)也应该大致相等,因此正秩与负秩将相互抵消,符号秩之和的数值将接近于零。威尔科克森符号秩检验就是确定符号秩之和是否显著地不等于零。,令T表示威尔科克森符号秩检验中的符号秩之和。如果两个总体相同,并且匹配数据对的个数为10或者更多时,T的抽样分布近似于如下的正态分布。,=,检验统计
9、量:,标准差:,均值:u=0,检验步骤,将样本数据配对并计算各对正负差值,将差数取绝对值按从小到大顺序排列并编上等级,即确定顺序号1、2、3等。对于相等的值,则取其位序的平均数为等级,建立假设:H0:T+=T-;H1:T+T-(双侧)H1:T+T-或T+T-(单侧),计算检验统计量:,设定,并查表确定临界值T(或Z/2),比较检验值与临界值作出判断,TT,拒绝H0;TT,接受H0,P527两种不同的方法完成生产任务的时间是否存在显著差异,2.241.96,所以,拒绝原假设。认为两种方法在完成任务的时间上存在差异。且方法2优于方法1。,曼惠特尼U检验,曼惠特尼U检验适用于从两个总体中分别独立抽取
10、两个样本的检验,方法思想与威尔科克森秩和检验相同。,检验步骤:,从总体A、B中分别独立抽取样本nA和nB,将(nA+nB)个观察值从小到大编序,分别计算两个样本,的秩和TA和TB,建立假设H0:两总体A和B相对次数分布相同 H1:两总体相对次数分布不同,当n1、n2均大于等于10时,T的抽样分布近似于如下的正态分布。,=,检验统计量:,标准差:,均值:u=n1(n1+n2+1)/2,P532两个分行的支票的账户余额是否相同,n1、n2均大于10,T的抽样分布近似于如下的正态分布。,检验统计量:,标准差:,均值:u=n1(n1+n2+1)/2=12(12+10+1)/2=138,2.081.96
11、,所以,拒绝原假设。认为两个分行的账户余额存在差异。,克鲁斯卡尔-沃利斯检验,MWW检验是用于检验两个总体是否相同克鲁斯卡尔和沃利斯将其扩展到更多总体的情形。(总体K3)方差分析(AVOVA)可以对多个总体均值是否相等进行检验。AVOVA的适用条件是所有总体都服从正态分布,并要求是定距数据或定比数据。,检验步骤,1.从总体A、B、C(K=3)中分别独立抽取样本n1、n2和 n3,将(nT=n1+n2+n3)个观察值从小到大编序,分别计算三个样本的秩和R1、R2、R3,2.建立假设:H0:所有总体相同;H1:并非所有总体都相同,3.观察样本容量,如果每个样本量都大于5,克鲁斯卡尔和沃利斯已经证明
12、,统计量W(卡鲁斯卡尔沃利斯检验统计量近似服从自由度为(K-1)的X2分布。,4.设定显著性水平,并查表确定临界值,进行比较和作出判断。,W=,P536:威廉姆斯制造公司招聘问题。(从三所大学招聘来的管理人员是否有差别),W=,nT=7+6+7=20,=,W=8.92临界值CHIINV(0.025,2)=7.378,P值 CHIDIST(8.92,2)=0.011560.05,结论:3个总体不相同,游程检验,一、什么是游程检验,游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。,设某样本n=12人的标志表现为男、女,有以下三种排列。,(i)男,男,女,女,女,
13、男,女,女,男,男,男,男(ii)男,男,男,男,男,男,男,女,女,女,女,女(iii)男,女,男,女,男,女,男,女,男,女,男,男,连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以r表示序列中游程的个数:,(i)r=5,(ii)r=2,(iii)r=11,(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。,二、游程检验方法,1检验总体分布是否相同。,将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。,2检验样本的随机性,将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均
14、数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。,3检验规则(小样本,n1与n2都小于20),应用表La和Lb,(=0.05,r为临界值),(1)单侧检验:,观察到的游程个数ro临界值(La表),或ro临界值(Lb表),反之,接受Ho。,(2)双侧检验:,观察到的游程个数ro,r(La)ror(Lb)接受Ho 下限 上限,反之,拒绝Ho,否定Ho,4大样本(n1或n2大于20),游程个数r近似正态分布,检验统计量,其中:,例1:对某校16名学生进行口试测试,按他们进入试场的先后次序,将成绩记录如下:,61,74,70,63,64,58,82,78,6
15、0,76,85,72,68,54,62,56,试问:该样本在0.05的显著水平下是否具有随机性?,解:(1)建立假设:H0:该样本具有随机性;H1:该样本不具有随机性。,(2)将成绩按大小顺序排列,计算中位数为:(64+68)/2=66(3)按原记录的顺序,用x表示小于66分的成绩,用y表示大于66分的成绩,得到如下序列:,x,y,y,x,x,x,y,y,x,y,y,y,y,x,x,x,游程个数:r=7查表得:r(la)=4;r(lb)=14 4714故:不能拒绝原假设,认为该样本具有随机性。,例2:某汽油站有两种商标的汽油A和B,某天售出的50桶汽油可按商标A和商标B排成以下的顺序:,AAB
16、AABABBAAABBABBABBABBABBAABBBBAABABABAAABAAAAABB,试问:这一序列在0.05的显著水平下是否具有随机性?,解:(1)建立假设:H0:该序列具有随机性;H1:该序列不具有随机性。,(2)A的数目:n1=26,B的数目:n2=24,游程个数:r=7,显著性水平为0.05时,z的临界值为1.96,0.580.05故:不能拒绝原假设,认为该序列具有随机性,等级相关检验,将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。,等级相关系数的计算公式,其中di为两变量每一对样本的等级之差,n为样本容量。,等级相关系数与相关
17、系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。,一、等级相关检验的基本原理,二、等级相关系数的应用,利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。,(一)检验的假设,(1)H0:rs=0,Xi和Yi 相互独立;,H1:Xi和Yi不独立。(此为双侧检验),(2)H0:rs=0,Xi和Yi相互独立;H1:Xi和Yi是正相关。(即Xi的大值与Yi的大值相配对),(3)H0:rs=0,Xi和Yi相互独立;H1:Xi和Yi是负相关。(即Xi的大值与Yi的小值相配对),(二)检验统计量:,当10时,rs的抽样分布,近似于均值U=0,标准差:=,的正态分布。,P539:10名推销员的预计销售业绩与两年来的实际销售表现的秩相关系数的计算。,例,某大学调查学生每周学习时间与得分的平均等级之间的关系,抽查10名学生的资料如下表所示。,解:建立如下假设:H0:学习时间x与平均成绩等级y是独立的;H1:学习时间x与平均成绩等级y是正相关。,P值:2(1-NORMSDIST(2.838)=0.004540.05,拒绝原假设,认为学生的学习时间与平均成绩等级之间存在着相关关系。,
链接地址:https://www.31ppt.com/p-5619199.html