总体参数的假设检验.ppt
《总体参数的假设检验.ppt》由会员分享,可在线阅读,更多相关《总体参数的假设检验.ppt(72页珍藏版)》请在三一办公上搜索。
1、统计学,从数据到结论,第六章 总体参数的假设检验,如果一个人说他从来没有骂过人。他能够证明吗?要证明他没有骂过人,他必须出示他从小到大每一时刻的录音录像,所有书写的东西等等,还要证明这些物证是完全的、真实的、没有间断的。这简直是不可能的。即使他找到一些证人,比如他的同学、家人和同事,那也只能够证明在那些证人在场的某些片刻,他没有被听到骂人。,反过来,如果要证明这个人骂过人很容易,只要有一次被抓住就足够了。看来,企图肯定什么事物很难,而否定却要相对容易得多。这就是假设检验背后的哲学。科学总往往是在否定中发展,在假设检验中,一般要设立一个原假设(上面的“从来没骂过人”就是一个例子);而设立该假设的
2、动机主要是企图利用人们掌握的反映现实世界的数据来找出假设与现实之间的矛盾,从而否定这个假设。,在多数统计教科书中(除理论探讨外)假设检验都是以否定原假设为目标。如否定不了,说明证据不足,无法否定原假设。但不能说明原假设正确。就像一两次没有听过他骂人还远不能证明他从来没有骂过人。,John Morrell有限公司,John Morrell有限公司1827年创建于英国,是历史最悠久的连锁运营的肉类制造商。它的产品包括13个品牌:John Morrell、E-Z-Cut Tobins First Price Dinner Bell HunterKretschamerRathRodeoShensonF
3、armers Hichory BrandIowa Quality Peytons 每种品牌都在消费者中拥有很高的品牌认知度和忠诚度。,John Morrell有限公司,Morrell市场部对公司各种产品的最新信息进行管理,并将这些产品与同类品牌进行对比。最近对Morrell生产的炖牛肉这种方便食品进行消费者喜爱程度的调查,与其他两种竞争产品的类似牛肉制品进行了比较。在这三种对比检验中选择一些消费者组成样本并据此说明从口味、外观、香味和整体偏好上对该产品的喜爱程度。,John Morrell有限公司,研究问题:消费总体中是否有50%以上的人偏爱Morrell生产的炖牛肉这种方便食品。令p表示偏爱
4、Morrell产品的总体比率,研究中的假设检验为 原假设 表示,偏爱Morrell产品的总体比率小于等于50%。如果样本数据支持样本拒绝 从而接受备择假设,则Morrell会得出结论:通过三种产品的比较,消费者总体中超过50%以上的人偏爱该公司的产品。,John Morrell有限公司,在一项与这项调查独立的口味检验的研究中,来自辛辛那提、密尔沃基和洛杉矶的224名消费者组成一个样本,其中有150名选择Morrell生产的炖牛肉方便食品为自己最喜爱的产品。根据统计假设检验方法,拒绝原假设。研究提供统计证据支持。得出结论认为:超过50%以上的消费者偏爱 Morrell公司的产品。总体比率的点估计
5、因此,样本数据支持食品杂志的广告,认为在三种产品的口味比较中,Morrell生产的炖牛肉方便食品“在竞争中受欢迎程度为二比一”。,6.1 假设检验的过程和逻辑,先要提出个原假设,比如某正态总体的均值等于5(m=5)。这种原假设也称为零假设(null hypothesis),记为H0。与此同时必须提出备选假设(或称为备择假设,alternative hypothesis),比如总体均值大于5(m5)。备选假设记为H1或Ha。形式上,这个关于总体均值的H0相对于H1的检验记为,6.1 假设检验的过程和逻辑,备选假设应该按照实际世界所代表的方向来确定,即它通常是被认为可能比零假设更符合数据所代表的现
6、实。比如上面的H1为m5;这意味着,至少样本均值应该大于5;至于是否显著,依检验结果而定。检验结果显著(significant)意味着有理由拒绝零假设。因此,假设检验也被称为显著性检验(significant test)。,6.1 假设检验的过程和逻辑,有了两个假设,就要根据数据来对它们进行判断。数据的代表是作为其函数的统计量;它在检验中被称为检验统计量(test statistic)。根据零假设(不是备选假设!),可得到该检验统计量的分布;再看这个统计量的数据实现值(realization)属不属于小概率事件。,6.1 假设检验的过程和逻辑,也就是说把数据代入检验统计量,看其值是否落入零假设
7、下的小概率范畴;如果的确是小概率事件,那么就有可能拒绝零假设,或者说“该检验显著,”否则说“没有足够证据拒绝零假设”,或者“该检验不显著。”,6.1 假设检验的过程和逻辑,注意:在我们所涉及的问题中,零假设和备选假设在假设检验中并不对称。因检验统计量的分布是从零假设导出的,因此,如果发生矛盾,就对零假设不利了。不发生矛盾也不能说明零假设没有问题。,6.1 假设检验的过程和逻辑,在零假设下,检验统计量取其实现值及(沿着备选假设的方向)更加极端值的概率称为p-值(p-value)。如果得到很小的p-值,就意味着在零假设下小概率事件发生了。如果小概率事件发生,是相信零假设,还是相信数据呢?当然多半是
8、相信数据,拒绝零假设。,6.1 假设检验的过程和逻辑,但小概率并不能说明不会发生,仅仅发生的概率很小罢了。拒绝正确零假设的错误常被称为第一类错误(type I error)。在备选假设正确时反而说零假设正确的错误,称为第二类错误(type II error)。在本书的假设检验问题中,由于备选假设不是一个点,所以无法算出犯第二类错误的概率。,6.1 假设检验的过程和逻辑,零假设和备选假设哪一个正确,是确定性的,没有概率可言。而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。负责任的态度是无论做出什么决策,都应该给出该决策可能犯错误的概率。,6.1 假设检验
9、的过程和逻辑,到底p-值是多小时才能够拒绝零假设呢?也就是说,需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中,使用最多的标准是在零假设下(或零假设正确时)根据样本所得的数据来拒绝零假设的概率应小于0.05,当然也可能是0.01,0.005,0.001等等。这种事先规定的概率称为显著性水平(significant level),用字母a来表示。,6.1 假设检验的过程和逻辑,a并不一定越小越好,因为这很可能导致不容易拒绝零假设,使得犯第二类错误的概率增大。当p-值小于或等于a时,就拒绝零假设。所以,a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时,就说这个检
10、验是显著的。无论统计学家用多大的a作为显著性水平都不能脱离实际问题的背景。统计显著不一定等价于实际显著。反过来也一样。,6.1 假设检验的过程和逻辑,归纳起来,假设检验的逻辑步骤为:1.写出零假设和备选假设;2.确定检验统计量;3.确定显著性水平a;4.根据数据计算检验统计量的实现值;5.根据这个实现值计算p-值;6.进行判断:如果p-值小于或等于a,就拒绝零假设,这时犯(第一类)错误的概率最多为a;如果p-值大于a,就不拒绝零假设,因为证据不足。,6.1 假设检验的过程和逻辑,实际上,多数计算机软件仅仅给出p-值,而不给出a。这有很多方便之处。比如a=0.05,而假定所得到的p-值等于0.0
11、01。这时如果采用p-值作为新的显著性水平,即新的a=0.001,于是就可以说,在显著性水平为0.001时,拒绝零假设。这样,拒绝零假设时犯错误的概率实际只是千分之一而不是旧的a所表明的百分之五。在这个意义上,p-值又称为观测的显著性水平(observed significant level)。,6.1 假设检验的过程和逻辑,在统计软件输出p-值的位置,有的用“p-value”,有的用significant的缩写“Sig”就是这个道理。根据数据产生的p-值来减少a的值以展示结果的精确性总是没有害处的。这好比一个身高180厘米的男生,可能愿意被认为高于或等于180厘米,而不愿意说他高于或等于15
12、5厘米,虽然这第二种说法数学上没有丝毫错误。,6.1 假设检验的过程和逻辑,关于“临界值”的注:作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值(critical value),它定义为,统计量取该值或更极端的值的概率等于a。也就是说,“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。,6.1 假设检验的过程和逻辑,使用临界值而不是p-值来判断拒绝与否是前计算机时代的产物。当时计算p-值不易,只采用临界值的概念。但从给定的a求临界值同样也不容易,好在习惯上仅仅在教科书中列出相应于特定分布的几个有
13、限的a临界值(比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001等等),或者根据分布表反过来查临界值(很不方便也很粗糙)。现在计算机软件大都不给出a和临界值,但都给出p-值和统计量的实现值,让用户自己决定显著性水平是多少。,6.1 假设检验的过程和逻辑,在一些统计教科书中会有不能拒绝零假设就“接受零假设”的说法。这种说法是不严格的。首先,如果你说“接受零假设”,那么就应该负责任地提供接受零假设时可能犯第二类错误的概率。这就要算出在备选假设正确的情况下错误接受零假设的概率。但是,这只有在备选假设仅仅是一个与零假设不同的确定值(而不是范围)时才有可能。多数基本统计教科书
14、的备选假设是一个范围而根本无法确定犯第二类错误的概率。,6.1 假设检验的过程和逻辑,在许多统计教科书中,往往把一系列不能拒绝零假设的检验当成接受这些假设的通行证。比如不能拒绝某样本的正态性就变成了证明了该样本是正态的等等。不能拒绝这些零假设,仅仅说明根据所使用的检验方法(或检验统计量)和当前的数据没有足够证据拒绝这些假设而已。,6.1 假设检验的过程和逻辑,对于同一个假设检验问题,往往都有多个检验统计量;而且人们还在构造更优良的检验统计量。人们不可能把所有的目前存在的和将来可能存在的检验都实施。因此,只能够说,按照目前的证据,不足以拒绝零假设而已。后面将会用例子说明“接受零假设”的说法是不妥
15、当的。,6.2 对于正态总体均值的检验6.2.1 根据一个样本对其总体均值大小进行检验,例6.1一个顾客买了一包标有500g重的一包红糖,觉得份量不足,于是找到监督部门;当然他们会觉得一包份量不够可能是随机的。于是监督部门就去商店称了50包红糖(数据在sugar.txt);其中均值(平均重量)是498.35g;这的确比500g少,但这是否能够说明厂家生产的这批红糖平均起来不够份量呢?于是需要统计检验。可以画出这些重量的直方图,50包红糖重量的直方图,6.2.1 根据一个样本对其总体均值大小进行检验,这个直方图看上去象是正态分布的样本。不妨假定这一批袋装红糖有正态分布。由于厂家声称每袋500g(
16、标明重量),因此零假设为总体均值等于500g(被怀疑对象总是放在零假设);而且由于样本均值少于500g(这是怀疑的根据),把备选假设定为总体均值少于500g(备选假设为单向不等式的检验称为单尾检验,为不等号“”的称为双尾检验),6.2.1 根据一个样本对其总体均值大小进行检验,检验统计量就是第四章引进的作为对均值的某种标准化的,符号中的m0通常表示为零假设中的均值(这里是500)。在零假设之下,它有自由度为n-1=49的t分布。当然实际上不必代入这个公式去手工计算了,让计算机去代劳好了。,6.2.1 根据一个样本对其总体均值大小进行检验,计算结果是t=-2.696(也称为t值),同时得到p-值
17、为0.005(由于计算机输出的为双尾检验的p-值,比单尾的大一倍,应该除以2)。看来可以选择显著性水平为0.005,并宣称拒绝零假设,而错误拒绝的概率为0.005。,统计量t=-2.696相应于左边尾概率(p-值)0.005,6.2.1 根据一个样本对其总体均值大小进行检验,上面例子的备选假设为小于(“”)某个值的情况。取备选假设为均值大于或小于某个值的检验称为单尾检验(one-tailed test,也称为单侧检验或单边检验)。下面举一个选假设为均值大于(“”)某个值的例子。,6.2.1 根据一个样本对其总体均值大小进行检验,例6.2(exh.txt)汽车厂商声称其发动机排放标准的一个指标平
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 参数 假设检验
链接地址:https://www.31ppt.com/p-5730810.html