第四讲 非参数统计 中文版课件.ppt
非参数统计,Kruskal-Wallis单因素方差分析,独立样本Mann-Whitney检验,配对样本 Wilcoxon 符号秩检验,配对样本符号检检验,目录,Friedman秩方差分析,随机游程检验,通用两样本转移模模型,秩相关及其检检验,绪论,参数统计方法,定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为参数方法。一个典型的参数检验过程:1. 总体参数(如总体均值)2. 假定数据的形态为数值型(定比数据)3. 有很强的假定(一般要求分布正态)4. 例子: Z Test, t Test, 2 Test,15.1 绪论,2.过多无法证明的假设,1.有些试验的观测值无法量化,参数估计的局限,15.1 绪论,1,老师上课的质量水平,3,2,对食物的喜爱程度,1.无法量化的观测值,我们之前遇到的问题中观测值都是可以量化的,比如考试的分数,两组人的身高等等,但还有一些观测值是无法量化的,我们可以去比较好坏,高低却无法用数字来度量,15.1 绪论,在10.8中提到,用t检验比较两个基于独立样本的均值是否相等时,有隐含的假设是两个总体都服从正态分布并且有相同的方差。但我们无法证实在实际情况下这些假设是否成立。,2.过多无法证明的假设,15.1 绪论,统计学家对于非参统计没有统一的定义。但有一些是大家都认同的。当一个样本所在的分布仅有有限个参数值未知,其他条件已知时,解决相关问题的方法叫做参数方法。而非参数方法用于除此以外的所有情况,可以在一个很宽泛的假设下仍可以很好的推断出关于概率分布及参数的相关信息。,15.1 绪论,例:当总体服从正态分布,且均值和方差未知时,我们可以运用t检验。因为除了均值和方差两个参数未知外,样本所在分布的其他条件已知,所以说t检验是个参数过程。假设相互独立的样本取自两个总体,而我们要检验两个总体分布是否一致,但分布的形状未知。在这种情况下,分布是不确定的,只能靠非参数方法来检验。,15.1 绪论,对于前面的章节所介绍了参数统计的方法,其有效性是建立在确定的分布假设成立或者至少近似满足的前提下。即使所有的前提都满足,研究表明,非参数统计几乎和参数统计一样能够检测出总体间的差异。而当分布的假设前提不满足时,非参数统计或许往往是测量总体间差异最有效的方法。因此,有很多统计学家都更倾向于使用非参数统计。,15.2 通用两样本移动模型,通常,我们会从两个总体中取得观测值来检验两个总体是否有相同的分布。以正态总体为例。从两个具有相同方差,均值分别为x,y的正态总体中,抽取独立的随机样本X1,X2.Xn1和Y1,Y2.Yn2H0: x-y=0Ha: x-y0,15.2 通用两样本移动模型,如果H0为真,那么两个总体均为正态分布且具有相同的均值和方差,也就是说二者的分布完全相同。如果Ha为真,即xy并且X1与Y1的分布的形状相同,只是Y1的均值位置y比X1的均值x更大。也就是说,Y1的分布相当于是X1的分布向右平移得到的结果。,x,y,平移距离,fx,fy,15.2 通用两样本移动模型,在之前的例子中,除了x,y和2的参数值,分布已经完全确定,也就是说属于参数统计。下面,我们将定义一个可以应用于正态分布和其他分布等任何分布的平移模型。,15.2 通用两样本移动模型,令X1,X2,X3,Xn1为具有分布函数F(x)的总体中的一个随机样本,令Y1,Y2,Yn2为具有分布函数G(x)的总体中的一个随机样本。如果我们想要去检验这两个总体是否具有相同的分布,也就是在F(z),G(z)的分布形状未知的情况下一个假设检验,这时我们就需要利用非参数的方法了。H0 : F(z)=G(z) Ha : F(z)G(z),15.2 通用两样本移动模型,Ha : F(z)G(z)可以转化成下面的形式Y1与平移了(未知的)距离的X1具有相同的分布。这两个分布只是在位置上不同。即对于某个未知的参数,有G(y)=P(Y1y)=P(X1y-)=F(y-),fx,fy,15.3 配对试验的符号秩检验,Sign Test(符号检验)忽略统计过程中的具体数量,仅利用正负号来区分两类样本数据并进行推断。若正负号的数目相差较大,则有理由拒绝原假设,因此又称为正负号检验。Match-pairs(配对样本)独立样本是指我们得到的样本总体之间是相互独立的,比如我们要研究一个地区百姓的生活水平,要同时考察家庭的子女数x,父母的教育水平y,这就可以看到是独立样本。 配对样本则恰恰相反,是指我们得到的样本总体之间是存在相关关系的,比如我们要研究药效y与药物用量x的关系,则(x,y)为配对样本。,符号检验的步骤(1),1)提出假设假设有n对随机选取的独立的配对样本(xi,yi),我们想要检验X和Y的分布是否相同。令Di=xi-yi,P+,P-代表Di为正号,负号出现的概率。由于在原假设成立的情况下Di为正(或为负)的概率等于1/2,则若p=XY,原假设H0:p= 备择假设Ha:p (或者p 或者p )注意:样本容量n是在去除相等的(xi,yi)(称为一个结tie)之后得到的,符号检验的步骤(2),2)确定统计量设M是正号总个数,如果X和Y分布相同,M的选取为n次伯努利实验,服从p=1/2的二项分布:MB(n,1/2)3)拒绝域RRHa:p 时,当M很大时拒绝原假设Ha:p 时,当M很小时拒绝原假设Ha:p 时,当M很大或者很小时拒绝原假设,符号检验的步骤(3),符号检验的大样本情况,N25时可以用正态分布来近似估计二项分布模型符号检验的统计量改为:Z=(M-np)/ npq =(2M-n)/ n N(0,1)拒绝域即为:RR:|z| z /2,配对试验的Wilcoxon符号秩检验,在H0之下,我们期望:1.n对样本中,每对差值正负总和个数各为n/22.正负差值的绝对值相等等概率发生 正负秩总和若存在一定差异,则意味着两个分布之间存在平移总体非正态时可作为t检验的替代,H0:随机变量X和Y分布相同Ha:1.双边检验两总体只在位置上不同,形状相同 2.单边检验两总体形状相同,X分布在Y的右边检验统计量: 1.T=min(T+,T-) 2.T=T-拒绝域: 1.双边检验-如果 TT0,拒绝H0 2.单边检验-如果 T-T0,拒绝H0,配对试验的Wilcoxon符号秩检验,例15.4,一个配对试验被用来检验A和B两种混合物做成的蛋糕的差别,两种蛋糕各6个被配对放在6个不同的烤箱中烘烤,检验两种蛋糕密度的总体分布是否有差异。数据见下表。解:原假设:两种蛋糕密度的总体分布相同 备择假设:两种蛋糕密度的总体分布不同 取=0.1,从附录3表9中双尾检验T的临界值为2 检验统计量不在拒绝域中,所以没有充分证据表明两个总体不同 因为在=0.1时不拒绝原假设,所以p-value0.1,例15.4数据,15.5 独立随机样本的检验:使用秩(ranks),1.如何取秩?将从总体I和总体II取得的样本排序,得到各个观测值的秩.相同大小的观测值具有相同的秩,我们称之为结(ties)。结(ties)的处理:将同秩观测值的秩和平均分配给各个观测值作为其秩。例:,15.5 独立随机样本的检验:使用秩(ranks),2.秩和检验(rank-sum test):如果两个总体相同,那么样本的秩和(rank sum)应当与样本量成比例。在样本量相同的情况下,如果两者的秩和相差很大,那么总体应当具有显著区别。,15.6 独立随机样本的非参数检验: Mann-Whitney U 检验,U统计量:U是对于样本II中每个观测值,样本I中比它小的观测值的个数的总和。例: 2526272829313235x(1)x(2)x(3)y(1)y(2)x(4)y(3)y(4)u1=3, u2=3, u3=4, u4=4则U=u1+u2+u3+u4=3+3+4+4=14,U统计量的计算公式:,其中:n1:样本一中观测值的个数,n2:样本二中观测值的个数W:样本一的秩和.n1n2,U统计量的性质:1.U的取值范围: 0,1,2,n1*n22.U的概率分布对(n1*n2)/2对称 . 因此,Mann-Whitney U 检验,总体I是较小样本所对应的总体(n1n2)H0 :总体分布相同Ha: (1)总体分布在位置上有区别(双尾检验);(2)总体I的概率分布在总体II分布的右侧;(3).总体I分布在总体II分布左侧 检验统计量: RR: (1)对于双尾检验, 当U U0或者Un1*n2-U0时,拒绝H0,U0满足:P(U U0)= /2(2)检验总体I在总体II右侧,当U U0时,拒绝H0(3)检验总体I在总体II左侧,当U n1*n2-U0时,拒绝H0,大样本U检验(n110 n210),当总体分布相同的时候,U具有以下性质:在大样本(n110,n210)情况下Z近似服从于标准正态分布,Kruskal-Wallis单因素方差分析,Kruskal-Wallis单因素方差分析是用非参方法检验多个总体是否相同。方差分析是用于检验多独立总体均值是否相等的参数方法,需要假设各总体服从正态分布且方差相等此方法不需要这个假设!,Kruskal-Wallis单因素方差分析,从每个总体中抽出一个样本,共有k个独立样本,每个样本的样本量分别为n1,n2,.,nk.将所有样本的数据从小到大排列合并成一个单一的样本,全部观察值的总数位N=n1+n2+.+nk找出每个观察值的秩,从1到N,对于N个观测值来说,Kruskal-Wallis单因素方差分析,Kruskal-Wallis单因素方差分析,H0:k个总体分布都同 H1:至少有俩个总体分布不同ni=第i个总体的样本量Ri=第i个样本实际秩的总和拒绝域:,Friedman秩方差分析,随机化区组设计的Friedman秩方差分析,原假设与备择假设,1,2,构造统计量,3,拒绝域,4,检验的假设,原假设和备择假设,原假设:H0: K种处理的概率分布是相同的备择假设:Ha: 至少两个分布的位置不同,构造统计量,检验统计量:Fr =b:区组的个数k:处理的个数Ri:第i个处理的秩的和,其中每个处理的秩的计算和它所在的区组中包含的处理的个数相关,拒绝域,拒绝域:Fr 其中卡方分布自由度为(k-1),检验的假设,假设:在区组中,处理被随机分配到实验单元区组数或处理数至少有一个大于5,随机游程检验,The Runs Test: A Test for Randomness,随机游程检验,S S S S S F F S S S F F F S S S S S S S 游程(Run):一连串出现的相同符号的序列,其后则出现不同符号,或没有符号 游程用于检验样本的随机性,通常游程过多或过少时,都会怀疑样本的随机性 上例中,包含5个游程,随机游程检验检验原理与计算方法,假设序列中含有n1个S元素,n2个F元素,n=n1+n2Y1个S的游程,Y2个F的游程,其中,Y1+Y2=R。,H0:样本序列随机 Ha:样本序列不随机检验统计量:R(游程个数)拒绝域:RR=RK1 and RK2,P(R=2K)=2P(Y1=k,Y2=k)P(R=2K+1)=P(Y1=k,Y2=k+1) +P(Y1=k+1,Y2=k),Run Test:大样本的例子,经验表明:如果 n1且 n2 10, R 的抽样分布近似为正态,H0:样本序列随机 Ha:样本序列不随机检验统计量:Z拒绝域:RR=|Z|Z/2显著水平:,秩相关及其检验,两个数值变量之间相关性我们用其相关系数度量,对于两个顺序变量之间相关程度的测量怎么办呢?非参数统计中的秩相关系数为解决此问题的利器!在此方法的应用中,我们对总体的分布不做任何假定,只需要对样本观测值进行排秩最常见的秩相关系数有spearman 和kendall,Spearman秩相关系数,设样本(X,Y) = (X1,Y1),(Xn,Yn)来自总体:F(x, y)类似于相关系数:R(xi)指的是xi在所有x观测值中的秩, R(yi)指的是yi在所有y观测值中的秩当观测值没有打结出现时,上式可化简为:,Spearman秩相关检验,Spearman秩相关系数检验,检验统计量:Spearman秩相关系数,拒绝域:1 或 (双尾检验) (上尾检验) (下尾检验) 的相关值可以在书上的表11-3中查找,原假设:不存在相关性,备择假设:1存在相关性(双尾) 2存在正(负)相关(单尾),非参数统计的优势与弱点, 对总体假定较少,有广泛的适用性,结果稳定性较好。 1. 假定较少 2. 不需要对总体参数的假定 3. 与参数结果接近 针对几乎所有类型的数据形态。 容易计算 在计算机盛行之前就已经发展起来非参数统计的缺点可能会浪费一些信息 特别当数据可以使用参数模型的时候,谢谢观赏,