区间估计与假设检验课件.ppt
区间估计与假设检验,区间估计与假设检验, 经典正太线性回归模型, 统计学预备知识, 区间估计基本概念,回归系数1和2的置信区间,2的置信区间, 经典正太线性回归模型 统计学预备知识 区间估计,一、经典正太线性回归模型,所谓统计推断的经典理论由两个分支构成,即估计和假设检验。前面讨论了双变量线性回归模型的参数估计问题。用OLS方法,估计参数1 ,2 ,2 。在经典线性回归模型的假定下,可以证明 、 和 这些参数的估计量满足线性性、无偏性和最小方差(BLUE)。估计量的值随样本变化而变化,因此,这些估计量都是随机变量。估计是成功的一半。假设检验是另一半。,一、经典正太线性回归模型所谓统计推断的经典理论由两个分支构成,回归分析的目的,不仅仅是估计样本回归函数,而是要用估计来对总体回归函数进行推断。我们想知道, 和 与真实的 和 有多接近。由于 、 和 是随机变量,所以我们需要清楚它们的概率分布,若不知其概率分布,那我们就无法将它们与其真实值相联系。,回归分析的目的,不仅仅是估计样本回归函数,而是要用估计来对总,1. 干扰项ui 的概率分布,为得到OLS的概率分布,我们将专门考虑 : (4.1.1)其中假定X 为固定或非随机的,则条件回归分析就以Xi 的固定值为条件。方程(4.1.1)表明, 是Yi 的一个线性函数,Y i根据假定是随机的。由于则由于ki ,系数和Xi 都是固定的,所以 最终是ui 的一个线性函数。,1. 干扰项ui 的概率分布为得到OLS的概率分布,我们将专,假定ui 为随机变量,则 的概率分布将取决于对ui 的概率分布所做的假定。在上一章,我们把普通最小二乘法应用于经典线性回归模型时,并没有对干扰项ui 的概率分布做出假定。对这些ui 所做的假定仅是:(1)它们 的期望值为零,(2)它们是不相关的,(3)它们有一个不变的方差。有了这些假定,OLS中估计量满足诸如无偏性和最小方差的统计性质。但是,我们的兴趣不仅要得到 ,还要利用它对真值 做出推断。或者说,我们的目的不仅是要得到样本回归函数,还要用它来推测总体回归函数。,假定ui 为随机变量,则 的概率分布将取决于对u,尽管有了高斯-马尔可夫定理,但由于OLS法不对ui的概率性质做任何假定,仍难以从SRF去推断PRF。 对这一不足,在回归分析中,人们常常假定ui遵从正态分布。在第4章中讨论的经典线性回归模型的假定中增加ui 的正态性假定,就得到了所谓的 经典正态线性回归模型(classical normal linear regression model, CNLRM),尽管有了高斯-马尔可夫定理,但由于OLS法不,2. 关于ui 的正态性假定,经典正太线性回归假定每个ui 都是正态分布的,并且:均值:方差:协方差:这些假定可更简洁的表述为:其中 代表“其分布为”,N代表“正态分布”,括号中的两项代表正态分布的两个参数:均值和方差。,2. 关于ui 的正态性假定经典正太线性回归假定每个ui 都,性质:对两个正态分布变量来说,零协方差或零相关就意味着两个变量互相独立。,因此,在正态性假定下,ui 和uj 协方差为零不仅意味着它们不相关,而且它们是独立分布的。可写成:NID表示正态且独立分布(normally and independently distributed)。,性质:对两个正态分布变量来说,零协方差或零相关就意味着两个变,为什么是正态假定?,ui 代表回归模型中未明显引进的许多自变量(对因变量)的总影响。我们希望这些影响是微小的而且是随机的。利用统计学中著名的中心极限定理(central limit theorem),就能证明,如果存在大量独立且相同分布的随机变量,那么随着这些变量的个数无限增大,它们的总和将趋向正态分布。 回顾中心极限定理。 令 为n个独立的、有均值= ,方差= 的相同PDF的随机变量。令 (样本均值),那么,为什么是正态假定?ui 代表回归模型中未明显引进的许多自变量,2. 正态分布的一个性质是,正态分布变量的任何线性函数都是正态分布的。OLS估计量 和 是ui 的线性函数,因此,若ui 是正态分布的,则 和 也是正态分布的。3. 正态分布是一个比较简单、仅有两个参数的分布,为人们所熟知。4. 如果处理小样本或有限容量样本时,比如说数据少于100次观测,那么正态假定就起到关键作用。它不仅有助于推导出OLS估计量精确的概率分布,而且使我们能用t、F和卡方来对回归模型进行检验。,2. 正态分布的一个性质是,正态分布变量的任何线性函数都是,3. 在正态性假定下OLS估计量的性质,它们是无偏的。它们有最小方差。连同性质1,就意味着它们是最小方差无偏的或者说它们是有效估计量(efficient estimators)。一致性。就是说,随着样本含量无限增大,估计量将收敛到它们的真值。 ( ui 的线性函数)是正态分布的。 均值: 方差: 方差: 或者写成: 定义标准正态化变量: Z服从标准正态分布,写作:,3. 在正态性假定下OLS估计量的性质它们是无偏的。,区间估计与假设检验课件,5. (ui 的线性函数)是正态分布的。 均值: 方差: 写成 令 同样的, Z服从标准正态分布。 服从n-2个自由度的 分布。 的分布独立于 。 ,,5. (ui 的线性函数)是正态分布的。,二、统计学预备知识,统计推断,点估计,参数估计的一种形式。目的是依据样本X=(X1,X2,Xn)估计总体分布所含的未知参数或的函数f()。一般或f()是总体的某个特征值,如数学期望、方差、相关系数等。比如令,那么 就是真均值 的一个估计量。比如 。由于估计量 仅提供 的单一一点估计值,故称点估计量(point estimator)。,二、统计学预备知识统计推断点估计参数估计的一种形式。目的是依,区间估计,通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。与点估计相对照,在区间估计中,我们提供真将落入其间的一个可能值域。例如,如果变量X是正态分布的,则样本均值 也是正态分布的,且其均值=,方差=2/n。即估计量 的抽样或概率分布是 。因此我们可以构造区间:并这样的区间约有95%的概率包含真,那么我们正在构造着的一个区间估计。注意上面所给的区间依据于一个样本变到另一个样本的 ,所以是随机的。,区间估计通过从总体中抽取的样本,根据一定的正确度与精确度的要,例如,=0.05,则1-=0.95,意味着如果我们构造一个置信系数为0.95的置信区间,所构区间有95%的概率含有真时。一般的,如果置信系数是1-,我们常说有一个100( 1- )%置信区间,就是显著性水平(level of significance)。,构造两个估计量 和 ,两者都是样本X值的函数,使得即我们可以说从 到 的区间里含有真的概率是1-。此区间被称为的置信度为1-的置信区间(confidence interval),而1-成为置信系数(confidence coeffiect)。,例如,=0.05,则1-=0.95,意味着如果我们构造一,例,假定总体中男子身高是正态分布的,其均值=英寸且=2.5英寸。从总体中取一个100人的随机样本,其平均身高为67英寸,求总体平均身高(= )的一个95%的置信区间。解:由于 在本咧中 ,查表可见:将给定的 , 和n值代入,就得到这个95%的置信区间为:,例假定总体中男子身高是正态分布的,其均值=英寸且=2.5,2. 假设检验,假定随机变量X有一已知的概率密度函数f(x;),其中是分布的参数,在取得一个大小为n的样本之后,我们得到点估计量 ,由于真鲜为人知,提问:这个估计量 是否与某个假设的值相符?比方说, , 是一个特定的(假定的) 数值。 称虚拟假设(null hypothesis),通常记为 。与虚拟假设相对的是对立假设(alternative hypothesis),通常记为 ,可叙述为: 。,2. 假设检验假定随机变量X有一已知的概率密度函数f(x;,一个假设被称为简单的,如果它确定了分布的各参数的各一个值;否则就称为复合假设,例如如果 ,并且这是一个简单假设。如果因为的值未被确定,这是一个复合假设。,一个假设被称为简单的,如果它确定了分布的各参数的各一个值;,为了检验虚拟假设(即检验其真实性),我们利用样本信息以获得检验统计量(test statistic)。统计检验量常常就是未知参数的点估计量。然后我们试图找出检验统计量的抽样或概率分布,并利用置信区间或显著性方法去检验虚拟假设。接上例,考虑一个总体中的男子身高(X):现假设问题是:这个检验统计量为 的样本会来自均值为69的总体吗?直觉上,如果 “足够接近” ,我们也许不会拒绝虚拟假设,否则我们宁可拒绝它而接受对立假设。,为了检验虚拟假设(即检验其真实性),我们利用样本信息以获得检,因为 ,所以检验统计量 的分布是:既然知道了 的概率分布,可以根据 建立的一个100(1-)置信区间,然后看此置信区间是否包含 。如果包含,就不拒绝虚拟假设;如果不包含,就可拒绝虚拟假设。例如,取=0.05,将有一个95%的置信区间。如果此区间包含 ,由于这样建立起来的区间每100个中有95个会含有 ,我们就不拒绝虚拟假设。,怎样决定 是否足够接近“ ”呢?有两种方法:(1)置信区间法 (2)显著性检验法。,(1)置信区间法,因为 ,所,置信区间法操作步骤:因 ,从而Zi 是一个标准正态变量,于是由正态分布表知:即整理得:这就是的一个95%置信区间。一旦建立了这个区间,我们所要做的不外是看 是否落入此区间。如果落入,就不拒绝虚拟假设,如果不落入则拒绝之。,置信区间法操作步骤:,例,我们已建立的一个95%的置信区间,即此区间显然不包含=69,因此我们能以95%置信系数拒绝真是69的虚拟假设。,落入拒绝域,拒绝域,拒绝域,接受域,例我们已建立的一个95%的置信区间,即落入拒绝域拒绝域拒绝,用假设检验的语言说,我们所建立的置信区间叫做接受域(acceptance region)。接受域以外的区域叫做虚拟假设的临界域(critical region)或拒绝域(regions of rejection)。接受域的上下限(与拒绝域的分界线)叫做临界值(critical values)。拒绝域是当原假设为真时,不太可能发生或发生概率很低的检验统计量的数值的集合。如果使用样本数据时所取得的检验统计量的值落入了概率很低的区域中,则该检验统计量不太可能具有之前假设的分布,因此原假设不太可能为真。因此,用假设检验的语言说,如果假设值落入接受区间,就不可拒绝虚拟假设;否则可以拒绝。,用假设检验的语言说,我们所建立的置信区间叫做接受域(acce,在决定拒绝或不拒绝H0时,我们可能犯两类错误:(1)拒绝一个事实上是真的H0。第I类错误(type I error) 这种当虚拟假设为真而拒绝虚拟假设的错误又称为据真错误。其概率通常用表示,并称为显著性水平(level of significance)。 (2)没有拒绝一个不真的H0。第II类错误(type II error) 即接受了错误的虚拟假设。这类错误的概率记为,并把不犯II类错误的概率1- 称为检验的功效(power of the test)。检验的功效就是它拒绝一个错误假设的能力。,在决定拒绝或不拒绝H0时,我们可能犯两类错误:自然状态决策H,第一类错误就是拒真错误,为了降低第一类错误的概率,就要尽可能的做接受的推断,随之带来的就是可能把假的也当成真的接受了,这就导致纳伪错误的增加,即增加第二类错误发生的概率。 这样本容量固定的前提下,两类错误的概率不能同时减少。 为了同时减少两类错误的概率就得增加样本容量。,当样本含量一定时,愈大,愈小;反之,愈小,愈大。,第一类错误就是拒真错误,为了降低第一类错误的概率,就要尽可能,P值或准确显著性水平。除预选某个任定的水平外,还可求一个检验统计量的p(概率)值或准确的显著性水平。P值被定义为:虚拟假设可被拒绝时所看到的最低显著性水平。假使在一项应用中我们得到一个自由度为20的t值为3.552。从表中看到,获得一个等于或大于3.552的t值的p值或准确概率是0.001(单尾)或0.002(双尾)。我们说所观测的t值3.552是在0.001或0.002水平上统计上显著的。,P值或准确显著性水平。,(2)显著性检验方法,回顾在任一给定应用中, 和n是已知的(或可以估计的),而真和是未知的。如果规定并在H0下假定 ,我们就能计算出Zi,然后查正态分布表以得到所算的Z值的概率。如果是一个小的概率,比如小于5%或1%,就可拒绝虚拟假设如果假设真实,那么获得所算的Z值的机会应该很大。在本例中由于使用了Z变量,故称此检验为Z检验。,(2)显著性检验方法回顾,例:如果 ,则Z统计量为:查表知,超出3或-3的Z值概率约为0.001。因此超过-8的概率更小。因此可拒绝=69这个虚拟假设,也就是说给定=69而得到 为67的机会微乎其微。,例:,图A.15 Z统计量的分布,图A.15 Z统计量的分布,当我们说一个检验是显著的,通常的意思是我们可以拒绝虚拟假设。而如果一个检验统计量被认为是显著的,得到它的概率等于或小于犯I类错误的概率。例如, =0.05,我们知道得到一个等于-1.96或1.96的Z值的概率是5%。在我们的说明性例子中,Z= -8,由此得到的Z值的概率比2.5%小得多,大大低于预定的犯I类错误的概率。这就说明为什么所算的Z= -8是统计上显著的,也就是为什么拒绝* =69这个虚拟假设。,当我们说一个检验是显著的,通常的意思是我们可以拒绝虚拟假设。,某种产品的直径为6cm时,产品为合格,现随机抽取100件作为样本进行检查,得知样本平均值为6.1cm,现假设标准差为0.2cm,令=0.05,检验这批产品是否合格。,某种产品的直径为6cm时,产品为合格,现随机抽取10,检验统计假设的步骤归纳如下:步骤1. 叙述虚拟假设H0和对立假设H1 (如 , )。步骤2. 选择检验统计量(如, )步骤3. 确定检验统计量的概率分布(如, )。步骤4. 选定显著性水平(犯I类错误的概率) 。步骤5. 利用检验统计量的概率分布,建立一个100(1- )%置信区间。如果虚拟假设下的参数值(如 )落入此置信区间即接受域,则不拒绝虚拟假设。如果落在此区间之外(即落入拒绝域),就可拒绝虚拟假设。当你拒绝一个虚拟假设时,你正冒着100% 次的犯错误风险。,检验统计假设的步骤归纳如下:,三、区间估计基本概念,在重复抽样中估计值的均值可能会等于真值,( ),但由于抽样波动,单一估计值很可能不等于真值。在统计学中,一个点估计量的可靠性由它的标准误差来衡量。因此,我们不能完全信赖一个点估计值,而是要围绕点估计量来构造一个区间。如,在点估计量的两旁各划出宽为2或3个标准误的一个区间,使得它有95%的概率包含着真实的参数值。这就是区间估计的粗略概念。,三、区间估计基本概念在重复抽样中估计值的均值可能会等于真值,,假定我们想知道 离 有多“近”,可以试求两个正数 和 ,位于0与1之间,使得随机区间(random interval) 包含 的概率为1- 。用符号表示:这样一个区间存在的话,就称之为置信区间(confidence interval); 1- 称置信系数(confidence coefficient);而(0 1)称显著性水平(level of significance)。置信区间的端点称为临界值(critical value)。 为置信下限, 为置信上限。,(5.2.1),假定我们想知道 离 有多“近”,可以试,注意:(5.2.1)中的区间是一个随机区间;它从给一个样本变到另一个样本,因为它是根据 来构造的, 是随机的。如果在重复抽样中,像(5.2.1)那样,在1- 的概率基础上构造置信区间多次,那么从长期看,平均的说,这些区间将有100%( 1- )次包含着参数的真值。只要 尚不知道,区间(5.2.1)就是随机的。但是,一旦我们有了一个特定的样本并获得 的一个特定的数值,区间(5.2.1)就不再是随机的,而是固定的了。这时,我们不能说一个给定了的固定区间包含真实 的概率是1- 。在这种情况下, 要么落入这个固定区间内要么落在区间外,概率只能是1或0. 比如,求得95%置信区间是 ,我们 就不可以说这个区间包含真实 的概率是95%。这个概率 不是1就是0.,注意:,四、2的置信区间,在正态性假定下,变量:遵循自由度为n-2的 分布。(卡特希尔P73),回顾令 为独立标准化正态变量(零均值,单位方差),则量: 遵从k个自由度(df)的 分布,这里df一词指上述 总和中独立的量的个数。,(5.4.1),四、2的置信区间在正态性假定下,变量:回顾令,其中居于双重不等式中间的 值由(5.4.1)给出,而 和 是得自 数值表中自由度为n-2的两个 值(临界值),使得它们各切去 分布的100(1-)%的尾部面积。如图。整理得:这就给出2的100(1-)%置信区间。,其中居于双重不等式中间的 值由(5.4.1)给出,区间估计与假设检验课件,例:,对于自由度为8的 表给出下列临界值; (表示 值超过17.5346的概率是2.5%)因此根据得,例:对于自由度为8的 表给出下列临界值;,五、回归系数1和2的置信区间,1. 2的置信区间,在ui 的正态性假定下,OLS估计量 和 本身就是正态分布的。因此,以 为例,变量是一个标准正态化变量。如果真实的总体方差 已知,可利用正态分布对2做概率性表达。但是 很少知道,在实践中用无偏估计量 来测定。,(5.3.1),五、回归系数1和2的置信区间1. 2的置信区间在ui,如果用 代替,(5.3.1)可写成:证明见后,这样定义的t变量遵循自由度为n-2的t分布。注意(5.3.2)和(5.3.1)的区别,我们不用正态分布,而是用t分布来建立2的置信区间,如下: 是由显著水平为/2和自由度为n-2的t分布给出的t变量值,常常被称为在/2显著水平上的临界值。,估计量 参数,估计量的标准误差的估计值,如果用 代替,(5.3.1)可写成:估计量 参,回顾t分布如果Z1 是一标准化正态变量,而另一变量Z2 遵从自由度为k的 分布且独立于Z1 ,则如下定义的变量:令,回顾t分布,区间估计与假设检验课件,重新整理得:更简洁的写成, 2的一个100(1- )%置信区间:,重新整理得:,类似地,可以写出:或写成,1的一个100(1- )%置信区间:,注意给出的 1和 2的置信区间有一重要特点:置信区间的宽度与估计量的标准误差成比例。标准误差越大,置信区间越宽,对未知参数的真值进行估计的不确定性越大。因此估计量的标准误差被喻为估计量的精度。,类似地,可以写出:注意给出的 1和 2的置信区间有一重要,例:,若取=5%,求2的置信区间。解:查表得,2的95%置信区间应该为即 或,例:若取=5%,求2的置信区间。,对这个置信区间的解释是:给定置信系数95%,从长远看,在类似于(0.4268,0.5914)的每100个区间中,将有95个包含着真实2值。但要注意,我们不可以说,这个特定的区间有95%的概率包含着真实的2,因为这个区间已经固定而不再是随机的了,那么, 2要么落入其中,要么落在其外。因此,这个给定的固定区间包含着真实的2的概率不是1就是0.,对这个置信区间的解释是:,2. 1的置信区间,仿照上例,容易证实,在消费收入一例中, 1的95%的置信区间是:即仍需留意,每100个区间中有95个将包含真实的1;但这个特殊的固定区间含有1的概率则是1或0.,2. 1的置信区间仿照上例,容易证实,在消费收入一例中,,六、假设检验,一般地,假设有三种形式: (1)双侧检验: H0 : 0; H1 :0 (2)左侧检验: H0 : 0; H1 :0 或 H0 : 0,六、假设检验一般地,假设有三种形式:,假使我们公设:就是说在虚拟假设下MPC是0.3,而在对立假设下MPC大于或小于0.3.对立假设是一个复合假设,就是双侧假设(two-sided hypothesis)。这样的双侧假设,常常反映着我们对于对立假设偏离虚拟假设的方向没有一个强有力的先验性或理论性期望。,双侧或双尾检验,假使我们公设:双侧或双尾检验,所观测的 是否与H0 相符?引入置信区间。在重复抽样意义下,置信区间以95%的置信系数给出真值 落入其中的一个范围或界限,从而给出了可信的虚拟假设的一个集合。虚拟假设的 落入这个100(1- )%置信区间,我们就不拒绝虚拟假设;如果它落在区间之外,我们就可拒绝虚拟假设。,决策规则:构造一个 的100(1- )%置信区间。如果 在假设H0 下落入此区间,就不要拒绝H0 。但如果它落在此区间之外,就要拒绝H0 。,所观测的 是否与H0 相符?决策规则:构造一个,在假设H0 下,落入此区间的 值有100(1- )%可信性。因而,若 果真落入此域,就不拒绝H0.,在假设H0 下,落入此区间的 值有100(1- ,拿人为的例子来说:置信区间: 显然落在给出的95%置信区间之外,因此我们能以95%的置信度拒绝MPC的真值是0.3的假设。即使虚拟假设是真的,我们得到一个大到0.5914的MPC值,最多也只有5%的机会,这是一个小概率。,拿人为的例子来说:,在统计学中,当我们拒绝虚拟假设时,我们说我们的发现是统计上显著的。反之,当我们不拒绝虚拟假设时,我们说我们的发现不是统计上显著的。一些作者使用“统计上高度显著”一词。该词通常是指,当他们拒绝虚拟假设时,犯I类错误的概率是一个小数,通常指1%。但在后面我们对p值的讨论将表明,较好的做法是,让研究者自己去决定一个统计上的发现,究竟是“显著的”、“中度显著的”,还是“高度显著的”。,在统计学中,当我们拒绝虚拟假设时,我们说我们的发现是统计上显,七、假设检验:显著性检验法,检验回归系数的显著性:t检验,显著性检验,是利用样本结果来证实一个虚拟假设的真伪的一种检验程序。显著性检验的基本思想在于一个检验统计量(作为估计量)以及在虚拟假设下,这个统计量的抽样分布。根据手中数据算出的统计量的值决定是否接受H0 。,七、假设检验:显著性检验法检验回归系数的显著性:t检验显著性,回顾在正态性假定下的变量:遵循自由度为n-2的t分布。如果在虚拟假设下 的真值被设定,则可做出如下置信区间表述:其中 是在H0 下的 值。,回顾在正态性假定下的变量:,假设检验的置信区间发和显著性检验法之间的联系:在置信区间程序中,我们试图建立一个以某种概率包含有真实但未知 的一个范围或区间。而在显著性检验步骤中,我们假设 为某值,然后来看所计算的 是否位于该假设值周围的某个置信范围之内。,回到消费收入例; df=8。若取=5%,则令:则如图,因所测的 落在拒绝域中,故拒绝 的虚拟假设。,假设检验的置信区间发和显著性检验法之间的联系:回到消费收入,区间估计与假设检验课件,在实践中,并不需要明显的估计出 的置信区间,只需计算t值,然后看它是否落在两个t临界值之间。如该例:落入临界域内,拒绝H0。,在实践中,并不需要明显的估计出 的置信区间,只需,注意:如果 等于假设的 ,t值将为零。然而随着 值远离假设的 值,t的绝对值将越来越大。因此,一个“大”的|t|值便是与虚拟假设相违背的迹象。对给定自由度,得到的|t|越大,其概率越小,即第I类错误的概率越小。 因为我们应用了t分布,所以前述检验程序称为t检验。用显著性检验的语言说,如果一个统计量的值落在临界域内,这个统计量是统计上显著的,这时我们拒绝虚拟假设。如果一个统计量的值落在接受域中,这个检验是统计上不显著的,这时我们不拒绝虚拟假设。 该例中,t是显著的,因而我们拒绝虚拟假设。,注意:,前面描述的是双尾检验,如果统计量的值落在任何一尾端,则拒绝假设。若经验提示我们,MPC预期大于0.3,则有 和 。H1仍是一个复合假设,但它是单侧的。为检验此假设,我们利用单尾检验。如下图:,前面描述的是双尾检验,如果统计量的值落在任何一尾端,则拒绝假,区间估计与假设检验课件,表5.1 显著性t检验:决策规则,假设类型,H0:虚拟假设,H1:对立假设,决策规则:拒绝H0 如果,双尾,右尾,左尾,注:df: 自由度,对双变量模型是(n-2),对三变量模型是(n-3)。依此类推。,表5.1 显著性t检验:决策规则假设类型H0:虚拟假,检验2的显著性: 检验,例,df=8, ,在H的假设下算出取=5%, 的两个临界值分别是2.1797和17.5346。 值落入两临界值之间,不拒绝虚拟假设。这一检验程序叫做 显著性检验。,检验2的显著性: 检验例,卡方检验概要,H0:虚拟假设,H1:对立假设,临界域:拒绝H0 如果,卡方检验概要H0:虚拟假设H1:对立假设临界域:拒绝H0 如,八、假设检验:实际操作问题,“接受”或“拒绝”假设的含义,在显著性检验的基础上,如果我们“接受”虚拟假设,其实是说,根据样本证据,我们还没有理由拒绝它;而不是说,虚拟假设毫无疑问是真的。为什么?例如消费收入一例假定 假定,八、假设检验:实际操作问题“接受”或“拒绝”假设的含义在显著,“零”虚拟假设与“2-t”经验法则,经常检验的一个虚拟假设是 ,即斜率系数为零。其目的是要明确Y是否与X有任何关系。如果Y和X之间无任何关系,则诸如 之类的虚拟假设就没有意义。,“2倍t”经验法则:如果自由度 20且显著水平定在0.05,那么 在绝对值上超过2时,就可拒绝虚拟假设 。,查附录可看到,当自由度约为20或更大时,计算的t值绝对值超过2,如2.1,在5%水平上是统计显著的。因此,对于20或更多的自由度,如果计算的t值如2.5或3,就不需要查阅t表了。当自由度小于20时,一定要查阅t表。对于单侧检验 或 ,则对于20或更多的自由度一个超过1.73的t值在5%显著水平上单尾是统计上显著的。,“零”虚拟假设与“2-t”经验法则经常检验的一个虚拟假设是,选择显著性水平,拒绝或不拒绝虚拟假设,关键在于这个显著性水平或犯第I类错误的概率拒绝了真值的假设的概率。人们通常选择把定在1%、5%或10%的水平上,然后选择一个能使犯第II类错误的概率尽可能小的检验统计量。即使检验功效最大化。如果使用p值,则选择适当值的问题可以避免。,选择显著性水平拒绝或不拒绝虚拟假设,关键在于这个显著性水,精确的显著性水平:p值,当对给定的样本算出一个检验统计量(如t统计量)的值时,我们可以查阅适当的统计表得到一个和检验统计量一样大或更大的数值的确切概率。这个概率就叫做p值,或概率值(probability value),也叫做观测或精确显著性水平,或犯第I类错误的概率。p值是被定义为一个虚拟假设可被拒绝的最低显著性水平。还是消费收入例:得到t值为5.86.得到一个大到5.86或更大的t值的p值是多少?查阅t表,对于自由度为8,得到这样t值的概率一定比0.001(单尾)或0.002(双尾)小的多。通过计算机得出获得5.86或更大的t值(df=8)的概率约为0.000189。这就是所测t统计量的p值。可以把固定在某一水平,并在p值小于时拒绝虚拟假设。,精确的显著性水平:p值当对给定的样本算出一个检验统计量(如t,九、回归分析与方差分析,TSS=ESS+RSS,它把总平方和分解为两个部分:解释平方和与残差平方和。对TSS的构成部分进行研究就叫做从回归的观点做方差分析(analysis of variance, ANOVA). 自由度:独立观测值的个数。TSS有n-1个自由度,在计算样本均值 时失去一个自由度。RSS有n-2个自由度(why?)ESS有1个自由度(仅指双变量情形),因为仅是 的函数。,九、回归分析与方差分析TSS=ESS+RSS,它把总平方和分,表5.3 双变量回归模型的ANOVA,变异来源,由于回归,由于残差,表5.3 双变量回归模型的ANOVA变异来源由于回归由,现考虑如下变量:假定干扰项ui是正态分布的且就可证明此F服从自由度为1和n-2的F分布。证明如下:,现考虑如下变量:,前证 ,则服从自由度为1的 分布。服从自由度为n-2的 分布。在假定 下化简成前式。,前证,上述F比有什么用处?若 为零,则两式都给出相同的真实2的估计。这时解释变量X与Y没有任何线性影响,Y的全部变异均由随机干扰项ui来解释(yi =ui )。若 不为零,则两式有所不同,从而Y的变异部分归因于X。因此,这个F比就为检验虚拟假设真实 是零提供了一个检验统计量。我们需要做的就是算出F值,与选定显著性水平的F临界值进行比较,或查找F统计量的p值。,(5.9.2),(5.9.3),上述F比有什么用处?(5.9.2)(5.9.3),表5.4 消费收入一例的ANOVA表,变异来源,由于回归,由于残差,查表得自由度为1和8的F临界值为11.26(=1%)。因此F=202.87明显是显著的,拒绝虚拟假设 。从而我们可以做出收入X对消费支出有影响的结论。,表5.4 消费收入一例的ANOVA表变异来源由于回,十、报告回归分析的结果,消费收入例子:,十、报告回归分析的结果消费收入例子:表3.2 每周家庭消,Dependent Variable: YMethod: L,第一组括号内的数字代表估计的系数的标准误的估计值,第二组数字代表每个回归系数的真实总体值都是零的虚拟假设下计算出来的t估计值,第三组数字代表估计的p值。在真实总体截距值为零的虚拟假设下,得到一个大到3.8128的t值的概率仅约为0.0026。这是一个很小的概率,因此我们拒绝虚拟假设,真实总体截距不为零。同理,拒绝真实MPC是零的虚拟假设。如果真实MPC确实为零的话,我们得到一个0.5091的MPC的机会实际上为零。,第一组括号内的数字代表估计的系数的标准误的估计值,第二组数字,十一、评价回归分析的结果,根据消费收入模型,我们可以回答这个模型拟合的有多“好”:(1)所估系数的符号是否与理论或事前预期相一致? 先验说,消费函数中2 应试正的。在本例中确是如此。(2)如果理论上认为这个关系式不仅是正的,而是是统计上显著的,在本例中是这样的吗? 如5.10节讨论的,MPC不仅是正的,而且统计上显著地异于零,t估计值的p值极小,截距项系数同理。(3)回归模型在多大程度上解释了消费支出的变异? 可以用r2 来回答。本例中r2 约为0.96,这是一个很高的值。如此看来,为了解释消费支出行为,我们选用的模型算是够好的了。在结束讨论之前,我们还想看看模型是否满足CNLRM假定,检查其中关于干扰项ui 的正态性。,十一、评价回归分析的结果根据消费收入模型,我们可以回答这,正态性检验,残差直方图 正态性的雅克-贝拉(Jarque-Bera)检验。 此检验先计算OLS残差的偏态(skewness)和峰态(kurtosis),再使用下列检验统计量:JB统计量渐进的遵循自由度为2的卡方分布。因此,如果计算出来的卡方统计量的p值充分低,就可拒绝残差为正太分布的假设。如果p值合理的高,则不拒绝正态性假设。,正态性检验残差直方图,印度食物支出例,印度食物支出例Dependent Variable: FOO,假设我们希望检验食物支出与总支出之间没有关系的虚拟假设,即 。 的估计值为0.4368,t值为5.5770,得到这样一个t值的p值实际上为零。从而拒绝虚拟假设。若虚拟假设是 又怎样?得到|t|=0.8071的概率大于20%,假设我们希望检验食物支出与总支出之间没有关系的虚拟假设,即,Eviews:在workfile中双击resid序列,View/Descriptive Statistics/Histogram and Stats,得到JB统计量的概率为88%,因此不能拒绝误差项正态分布的假设。,Eviews:得到JB统计量的概率为88%,因此不能拒绝误差,要点与结论,假设检验要回答这样的问题:一个给定的发现是否与声称的假设相符?为回答上述问题,有两个互为补充的方法:置信区间与显著性检验。置信区间法建立在区间估计的概念上。一个区间估计量是指一个区间或变化域的构造,要使得它把未知参数的真值包含在其界限内有预定的概率。如此构造的区间称为置信区间。如果虚拟假设值落入置信区间,就不拒绝假设;如果它落在此区间之外,就可拒绝虚拟假设。在显著性检验程序中,我们找出一个检验统计量(test statistic),并研究它再虚拟假设下的抽样分布。通常这个检验统计量都遵从明确定义的概率分布,如正态,t, F或卡方分布。然后求出p值。如果p值小,就可拒绝虚拟假设;如果p值大,则不可拒绝。,要点与结论假设检验要回答这样的问题:一个给定的发现是否与声称,在实践中,第I类错误概率被选定在1%、5%或10%上。较好的做法是引用检验统计量的p值。假设检验事先就认定,选用来做分析的模型,不违反经典正太线性回归模型中的任一个或多个假定。因此,应把模型适宜性的检验放在假设检验之前来做。本章介绍了正态性检验。,在实践中,第I类错误概率被选定在1%、5%或10%上。较好,习题,1. 考虑如下回归结果:其中Y =1972年的妇女劳动力参与率,X=1968年的妇女劳动参与率。回归结果从美国19个城市构成的一个样本得到。a.你如何解释这个回归?b.相对 检验假设 。你用哪一个检验?为什么?你用的检验所依据的假定是什么?c.你如何检验总体回归中的误差项为正态分布这一假设?,习题1. 考虑如下回归结果:,解答:a.第二次世界大战后妇女劳动力参与率稳步上升,因此1972年和1968年劳动参与率之间呈正相关关系。b. 利用单侧t检验,t=(0.6560-1)/0.1961=-1.7542。在自由度为17的情况下,显著性水平为5%的单侧检验t值为1.740.因此估计的t值是显著的,拒绝真实斜率系数大于1的虚拟假设。c. 需要残差值得到残差直方图或计算雅克-贝拉检验值。,解答:,2. 参照表2.9给出的S.A.T.数据。假使你想根据女生的数学得分,通过做以下回归的方法去预测男生的数学得分:a.估计上述模型。b.从所估计的残差看,正态性假定是否可以维系?c.假设检验: ,即假设:男生和女生的数学得分有一个1比1的对应关系。d.建立此问题的ANOVA表。,2. 参照表2.9给出的S.A.T.数据。假使你想根据女生的,解答:a. eviewsb. 雅克-贝拉统计量为1.0317,且具有p值0.5970,因此不能拒绝正态性假设。c. t=(0.714-1)/0.045=-6.36,因此,我们可以以99%的置信度拒绝2 =1的假设。d.,解答:,表5.3 双变量回归模型的ANOVA,变异来源,由于回归,由于残差,表5.3 双变量回归模型的ANOVA变异来源由于回归由,区间估计与假设检验课件,