非参数统计 趋势存在性检验课件.ppt
Cox-Staut趋势存在性检验,在客观世界里,会遇到各种随时间变动的数据序列,人们通常关心数据随时间变化的规律,其中趋势分析是常会分析的内容。在趋势分析中,人们首先关心趋势是否存在,如果趋势存在,则根据实际需要用更精细的模型刻画或度量趋势。随着统计软件的日益盛行,很多人习惯将存在性问题和确定性问题一起由计算机回答,比如,回归分析就是最常用的趋势分析工具。通常的做法是用线性回归拟合直线,然后再通过检验验证线型假设的合理性,如果检验通过,则表示回归模型是合适的,线型趋势是存在的。如果模型没有通过检验,我们只能否定存在线型趋势,而不能否定其他趋势。 Cox与Staut在研究数列趋势问题的时候,于1955年提出了一种不依赖于趋势结构的快速判断趋势是否存在的方法。即Cox-Staut趋势存在性检验,它的理论基础正是符号检验。,Cox-Staut趋势存在性检验,如果数据有上升的趋势,那么排在后面的数的取值比排在前面的数显著地大;反之,如果数据有下降的趋势,那么排在后面的数的取值比排在前面的数明显的小。换句话讲,我们可能生成一些数对,每一个数对是从前后两个不同时期中各选出一个数构成的,这些数对可以反映前后数据的变化。为保证数对同分布,前后两个数的间隔应固定。这就意味着将数据一分为二,自然形成前后数对。Cox-Staut提出最优的拆分点是数列中位于中间位置的数。,Cox-Staut趋势存在性检验,检验原理:设数据序列: ,双边假设检验问题:令:取数对 , , 为正的数目, 为负的数目, 当正号或者负号太多的时候,认为数据存在趋势。在零假设情况下 Di服从二项分布。从而转化为符号检验问题。当n=100时,c=50,形成的数对为(x1,x51)、(x2,x52)(x50,x100)当n= 99 时,c=50,形成的数对为(x1,x51)、(x2,x52)(x49, x99),X1,X2,Xn,例3.6 某地区32年来的降雨量如下表 问 (1):该地区前10年来降雨量是否有变化? (2):该地区32年来降雨量是否有变化?,年份 1971 1972 1973 1974 1975 1976 1977 1978降雨量 206 223 235 264 229 217 188 204年份 1979 1980 1981 1982 1983 1984 1985 1986降雨量 182 230 223 227 242 238 207 208年份 1987 1988 1989 1990 1991 1992 1993 1994降雨量 216 233 233 274 234 227 221 214年份 1995 1996 1997 1998 1999 2000 2001 2002降雨量 226 228 235 237 243 240 231 210,=5,结论: 不能拒原假设。,类似于符号检验在配对样本比较中的应用 x y-c(217,188,204,182,230)binom.test(sum(xy),length(x-y),0.5)Exact binomial testdata: sum(x y) out of length(x-y) number of successes = 2, n = 5, p-value = 1 alternative hypothesis: p is not equal to 0.5, x y binom.test(sum(xy),length(x-y),0.5)Exact binomial testdata: sum(x y) out of length(x - y) number of successes = 2, n = 16, p-value = 0.004181alternative hypothesis: p is not equal to 0.5 结论: 拒绝H0, 认为降雨量有明显变化., rain-c(206,223,235,264,229,217,188,204,182,230,223,227,242,238,207,208,216,233,233,274,234,227,221,214,226,228,235,237,243,240,231,210)year-1971:2002anova(lm(rain(year) # lm(y(x) 用线型趋势拟合、 anova(lm(y(x)方差分析,对模型显著性进行检验。Analysis of Variance TableResponse: rainTerms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) year 1 535.36 535.3637 1.579228 0.2185691Residuals 30 10170.11 339.0035 接受H0,认为降雨量线性趋势并不显著.plot(x,y)lines(x,y,lwd=2),随机游程检验,在实际中,经常需要考虑一个序列中的数据出现是否与顺序无关,这关系到数据是否独立。如果数据有上升或下降的趋势,或有呈周期性变化的规律等特征时,均可能表示数据与顺序是有关的,或者说序列不是随机出现的。,基本概念,在一个二元序列中,0和1交替出现: 1000011101100001110 其中一个由0或1连续构成的串称为一个游程,一个游程中数据的个数称为游程的长度。 一个序列中游程个数用R表示。 表示0和1交替轮换的频繁程度。序列长度为n,n1表示序列中1的个数,n0表示0的个数。如果0/1序列中0和1出现的顺序规律性不强,随机性强,则0和1出现不会太集中,也不会太分散。通过0和1出现的集中程度度量序列随机性大小。,游程: 01111为两个游程游程长度: 一个游程中数据的个数一个序列里游程个数记为R.例3.7 序列1100001110110000111100 R=8,游程长度分别为2,4,3,1,2,4,4,2极端情况: 000001111111 R=2 0101010101010 R=2min(n0,n1)+1 所以, 2R2min(n0,n1)+1如果游程个数过多,则说明0和1交替周期特征明显,如果游程个数过少,则说明0和1相对比较集中,极端情况都说明数据不具有随机性。因而可以通过游程个数过多或过少来定义假设检验的拒绝域。,检验原理和计算方法,设是由0或者1组成的序列 ,假设检验问题:,R为游程个数,假设有 个0, 个1, ,这时R取任何一个值的概率都是 ,R的条件分布,建立了抽样分布之后,在零假设成立时,可以计算 或者 的值,进行检验。,X1,X2,Xn,小样本的例子(p69 例3.8),例3.8 某银行观察平时到银行柜台办理业务的人员的性别(用M表示男性,用F表示女性):FMMMMMFMMFMMMMFMFMMMFFFMMM解:检验假设问题如下:H0: 男女出现顺序随机H1: 男女出现顺序不随机 =0 .05 n1 = 18, n0 = 8,由附表3 (Run-test游程检验表)查出r1=7,ru=17,R = 12结论:由于 7 R = 12 17,不能拒绝 H0。,Runs Test: 大样本的例子,经验表明:如果 n1或 n2 20, R 的抽样分布近似为正态,根据求得的Z值,看是否在拒绝域内,做出决策。,Runs Test:大样本例子(p70 例3.10),3.10 实习学生在实习期迟到的情况被门镜系统记录下来,N表示正常,F表示迟到,根据以下记录判断这名学生迟到是否随机。1 2 3 4 5 6 7 8 9 10 NNN F NNNNNNN F NN FF NNNNNN F NNNN F 11 12 13 NNNNN FFFF NNNNNNNNNNNN R = 13解 假设检验问题:05H0: 学生迟到是随机的。H1: 学生迟到不随机。本例中n1 = 40,n0= 1=0, =0.05如果 -1.96 Z 1.96,不能拒绝 H0否则 拒绝H0.,Runs Test: 大样本例子,-1.96 Z = -1.81 1.96,不能拒绝 H0, library(tseries) run1=c(1,1,1,0,rep(1,7),0,1,1,0,0,rep(1,6),+ 0,rep(1,4),0,rep(1,5),rep(0,4),rep(1,13) a=as.factor(run1) #将run1转换为因子型变量 runs.test(a) Runs Testdata: aStandard Normal = -1.8074, p-value = 0.0707alternative hypothesis: two.sided R中常量基本分为四种类型,逻辑型,数值型,字符型,因子型。因子型分为顺序数据和分类数据两种类别,表现为数字但不能进行加减乘除。,R软件中随机游程检验的程序及输出结果,在R软件中,我们可以直接调用函数进行随机游程检验,首先需要装在软件包tseries。选择Packages-Install pacakges(s),在弹出的对话框中选择一个稳定的镜像地址,系统会自动连接到主页:http:/cran.r-project.org/上的统计包。选择需要的统计包自动安装,在输入library(tseries)。,