非参数统计讲义课件.ppt
在初等统计学中,最基本的概念是什么?如:总体,样本,随机变量,分布,估计和假设检验等其很大一部分内容是和正态理论相关的。在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。(主要工作是什么?),第一章 绪论,1.1 非参数统计,然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。,因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论。这时,非参数方法往往优于参数方法。在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序。如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank)。数据有多少个观察值,就有多少个秩。在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关。这样就可以进行所需要的统计推断。,注意:非参数统计的名字中的“非参数(nonparametric)” 意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distributionfree),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关 什么是非参数统计?不假定总体分布的具体形式,从数据本身获得所需要的信息,通过推断方法得到相关结论的一种分析方法。,一个典型的参数检验过程,1. 总体参数Example: Population Mean2. 假定数据的形态为 Whole Numbers or Fractions Example: Height in Inches (72, 60.5, 54.7)3. 有很强的假定Example: 正态分布,F分布4. 例子: Z Test, t Test, 2 Test,一个例子:,对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?,非参数检验过程,1.不涉及总体的分布Example: Probability Distributions, Independence2. 数据的形态各异定量数据定序数据Example: Good-Better-Best名义数据Example: Male-Female3.例子: Wilcoxon Rank Sum Test/Run Test,F, F, F, F, F, F, F, F, M, M, M, M, M, M, MF, M, F, M, F, M, F, M, F, M, F, M, F, M, F,参数统计与非参数统计的比较问题:一种统计方法是否比其它方法更好,通常要从几个方面来考虑。有效性或效率(efficiency)。在其他条件相同情况下,一种方法需要的样本容量越小,则效率越高,通常用二者的样本容量比值来度量相对效率。在假设检验中,样本均值是检验总体均值的一个好的检验统计量,它对总体均值的不同十分敏感,但是的分布取决于总体的分布,而这通常是未知的。,稳健性(robust)。如果一种方法背后的某个假设条件不成立,但它还是近似有效的,则可认为这一方法对这一条件是稳健的。通常来说,稳健是指基于正态假设的方法(即使潜在的总体分布是非正态的)检验统计量也有近似相同的零分布。比如单样本的t检验,当样本容量很大时,对于正态假设是稳健的。没有一个总体是精确的服从正态分布或其他已知分布,如果总体是近似正态分布的,那么基于正态分布来进行推断是安全的,反之,我们就要考虑非参数方法。,t检验这一方法是稳健的,当总体是非正态分布时,它是否象正态分布一样有效?一种方法固然应该是稳健的,更应该是有效的。相合性或渐进性(consistent),多数参数检验对于非正态分布条件是稳健的,相合的,即随着样本容量的增加,方法将更为稳健,对于无限样本而言,方法是精确的且不依赖于总体分布。,对总体假定较少,有广泛的适用性,结果稳定性较好。1. 假定较少2. 不需要对总体参数的假定3. 与参数结果接近针对几乎所有类型的数据形态。容易计算在计算机盛行之前就已经发展起来。,非参数检验的优点,1.可能会浪费一些信息特别当数据可以使用参数模型的时候。2.大样本手算相当麻烦3.一些表不易得到,非参数检验的弱点,因此我们实际上给出了一个没有实际意义的结果:没有一种方法是万能的。,本学期内容结构体系,非参数统计的主要内容,1.2 顺序统计量,秩和线性秩统计量,一、顺序统计量 因为非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。顺序统计量:对于样本X1,X2,X3,Xn,如果按照升幂排列,得到,称为第k个顺序统计量。,2、 基于顺序统计量的统计量,中位数,极差,3、顺序统计量分布函数 设总体的分布函数F(X),则第r个顺序统计量的分布函数为,(4)顺序统计量密度函数(如果分布密度存在),同样我们可以得到顺序统计量X(r) 和X(s)的联合密度函数为:,特别地,极差,的分布函数为:,分位数,对于离散数据,给定n个值X1,Xn,则p分位数定义为为:,定义(连续分布),二、秩统计量1、秩统计量设X1,X2,X3,Xn 来自总体的样本,记Ri为样本点Xi的秩,即样本中小于或等于Xi的样本点的个数,即,其中,例如:,显然,X(Ri)=X(i),记R=(R1, R2 ,Rn),称R为由样本产生的统计量,也称秩统计量,注:有结点数据(重复数据)的秩,定义:设X1,X2,X3,Xn 来自总体的简单随机样本,将数据排序后,相同的数据点形成一个结,重复数据的个数为结长。此时秩定义为对应秩(无重复数据时)的平均数。如:85,87,87,92,83,83,83,95,结为多少?结长为多少?对应秩?答案:5个结,结长为1,2,1,3,1, 对应秩为4,5.5,5.5,7,1,2,3,8,2、秩统计量的分布和数字特征 的联合分布为:, 的概率分布为:, 的数学期望:, 的方差:, 的协方差:,特别地,作业:,1,了解非参数统计的历史(查阅相关文献)2,熟悉R,参考书:,非参数统计吴喜之 编著中国统计出版社实用非参数统计(第三版)美W.J.Conover 崔恒建 译 人民邮电出版社,