计量经济学的基础工具.docx
第2章 计量经济学的基础工具 ·61·第2章 计量经济学的基础工具在第1章中定义了计量经济学的主要工具是数学,包括优化理论和统计分析。这些工具的基础知识是计量经济学的基础知识。尽管这些知识在所有的专业书籍中都可以找到,但是考虑到知识的连贯性和应用的便利,这里将以一章来介绍这些基本知识,以备那些需要的读者参考。关于矩阵部分,主要参考了Sydsaeter,Strom和Berch(2001)的文献,关于概率统计及其推断部分,主要参考了古亚拉提(2000)的文献,古扎拉蒂(2004),Sydsaeter,Strom和Berch(2001)以及王文中(2003)的文献。2.1 矩阵2.1.1 矩阵的定义称为阶矩阵,其中aij称为位于矩阵的第行和第j列的元素。简记。当时,称矩阵为阶方阵,称为的n阶行列式。如果则称该方阵为n阶单位矩阵,记为。有=1。是对角矩阵的特殊形式。一般的对角矩阵记为并有 矩阵的名称是由其元素的变化决定的。比如,所有元素都为0的矩阵叫零矩阵,所有位于主对角线下面的元素均为0,则称为上三角矩阵,反之则叫下三角矩阵。定义为矩阵的转置,记为。当时,如果,称为对称矩阵;如果,称为反对称矩阵;如果,则是幂等矩阵;如果,则是对合矩阵;若,则是正交阵且;如果或,则称为奇异的或非奇异的。一个高阶矩阵,根据实际需要,可分成若干小块。比如可分成四块:其中为阶矩阵,且如果是满足条件的最大阶方阵,则称的秩为r,记为设,则有、设为n阶方阵,的迹定义为主对角线上所有元素之和,即2.1.2 矩阵的计算及其性质同阶矩阵的加、减等于它们的对应元素相加、减后的矩阵。两个矩阵可乘的条件是第一个矩阵的列数等于第二个矩阵的行数,并且它们的乘积所得的矩阵的阶数由第一个矩阵的行数和第二个矩阵的列数决定,其元素由第一个矩阵相应的行向量和第二个矩阵列向量的对应元素乘积的和组成。分块矩阵的加、减和乘可形式上比照一般矩阵的类似做法,此时记住分块矩阵的每个分块可视做相应矩阵的元素。矩阵的加法满足结合律和交换律。矩阵的乘法满足结合律。矩阵的乘法和加法满足分配律。不过,记住矩阵的乘法一般不满足交换律。这一点从矩阵的乘积定义中很容易理解。性质2.1 方阵可逆的充分必要条件是如果方阵可逆,方阵的逆矩阵的求法如下:其中伴随矩阵定义为是元素的代数余子式,其定义为从矩阵中划去第i行和第j列后剩余的矩阵的行列式再乘上。分块矩阵的逆的求法设方阵分成四块如下:如果存在,则的逆可表示成:其中。如果存在,则的逆可表示成:其中。矩阵的指数形式和导数形式分别表示为:,矩阵的导数等于各个元素分别求导后的矩阵。对于矩阵和列向量,有以下求导公式:性质2.2 设,。则有:2.1.3 复矩阵的定义和性质元素在复数域的矩阵称为复矩阵。下面把复矩阵的某些定义和基本性质叙述 如下。定义2.1 设为一个复矩阵,则有l 称为的共扼矩阵。l 称为的共扼转置。l 称为Hermitian矩阵,如果。l 称为酉矩阵,如果。性质2.3 设为复矩阵。则l 是实的,当且仅当。l 如果是实的,是Hermitian矩阵,当且仅当是对称的。性质2.4 设和为复矩阵,为复数。则有l 。l 。l 。l 。2.1.4 特征值与特征向量定义2.2 设是n阶方阵。称为的特征值, 特征值的一个显然性质就是使得方阵的秩小于n。如果满足以下方程根据代数基本原理,是的n阶代数方程,在复数域里,存在n个根。这些根叫做的特征值。对于每一个特征值,存在一个非零向量使得称为关于的特征向量。特征值很重要,现在把一些相关性质叙述如下。性质2.5 设为多项式。如果为的特征值,则为的特 征值。性质2.6 当且仅当0不是的特征值时,方阵可逆。若可逆且为的一个特征值,则为的一个特征值。性质2.7 当且仅当的极限是零矩阵()时,的所有特征值的模严格小于1。性质2.8 设和为同阶矩阵。则和有相同的特征值。性质2.9 如果是对称矩阵且仅有实元素,则的所有特征值是实的。性质2.10 如果是的特征多项式,则是的所有阶主子式的和(共有个主子式的和)。称为的特征值方程或特征方程。性质2.11 是可对角化的充分必要条件是存在矩阵和对角矩阵使得,与有相同的特征值。性质2.12 如果有n个不同的特征值,则可对角化。谱定理 如果是对称的且有特征值,则存在一个正交阵,使得Jordan分解定理 如果有n个特征值,则存在可逆矩阵,使得其中,且是矩阵,Shur引理 设为一个复矩阵。则存在酉矩阵使得是一个上三角矩阵。Hermitian矩阵的谱定理 设是一个Hermitian矩阵。则存在酉矩阵使得是一个对角矩阵。所有的特征值都是实的。性质2.13 给定,对任意,存在矩阵有n个不同的特征值,使得考虑二次型 ,其中,且性质2.14l 是正定的,当且仅当对所有x成立或或的所有特征值都是正的。l 是半正定的,当且仅当对所有x成立或或的所有特征值都是非负的。l 是负定的,当且仅当对所有x成立或或的所有特征值都是负的。l 是半负定的,当且仅当对所有x成立或或的所有特征值都是非正的。l 是不定的,当且仅当对某些x成立或对某些i成立或的特征值有正有负。本节的所有性质都有很好的含义,考虑到篇幅有限以及解释所依据的相关知识已经超出了本书的设想,我们只好把这些性质罗列出来,仅供参考。2.2 概率与统计初步本节主要回顾一些概率与统计的基本知识。2.2.1 基本概念对世界上各种事物或现象的描述方式有确定性描述和不确定性描述。比如根据经验,地球上的每一天,太阳总是从东边升起,西边落下,以及明天中午12点整,广州将会下雨。前者为确定性描述,后者则是不确定性描述,或者说是一个概率事件。概率统计是研究不确定性现象的理论。这个理论无疑变成了计量经济学的重要工具。“不确定性”,比如抛一枚硬币 这里所提到的“硬币”、“骰子”等都暗含着这样一层意思:它们的质地均匀,没有瑕疵。到桌面上,理论上出现两种等可能结果:正面朝上或反面朝上,这种不确定现象的实验就叫做统计或随机实验。所有可能的随机实验结果的集合就叫做样本空间或总体。样本空间的每一个元素,如抛一次硬币实验中的“正面朝上”或“反面朝上”,称为样本空间的一个样本点。样本空间的每一个子集称为事件,即随机实验的可能结果的集合。最大的事件就是样本空间,即是必然事件,理论上最小的事件是空集,也就是说随机实验没有发生。在实际应用中,人们剔除空集这一事件和必然事件。因此,抛一次硬币实验的事件有两个,即“正面朝上”、“反面朝上”。如果等可能抛硬币次,“正面朝上的次数”是一个随机事件,其可能取值的结果是:。跟所有可能结果联系起来的“正面朝上的次数”就是随机变 量,也就是说以随机实验的结果为取值范围的变量就叫做随机变量。随机变量所取值的集合如果是离散的就称为离散型随机变量;如果是连续的就叫做连续型随机变量。在随机变量的取值范围内,对离散随机变量而言,随机变量取到某个或某些值的可能程度有多大?在探讨这个问题之前,本书将要引入概率的相关知识。掷一颗骰子,向上的数字只有六个等可能结果:1,2,3,4,5,6。如果求事件“数字小于4的面朝上”的可能概率是多少,结果就是1/2。因为掷一次骰子数字向上的可能结果有6个,事件“数字小于4的面朝上”含有三个样本点,后者比前者就得到所要的结果。此时的样本空间或总体是指集合。到此,我们可以给出事件发生的古典概率如下:表示在所有可能的实验结果中,就某一个事件发生的可能程度。例2-1 房地产开发企业的资产负债率如表2-1所示。表2-1 房地产开发企业的资产负债率年 份资产负债率(%)199776.2199876.1199976.1200075.6200175.0200274.9200375.8资料来源:2004年中国统计年鉴按照1%的幅度把资产负债率分成三个区间:74%, 75%),75%, 76%), 76%, 77%),并计算相应的频数和频率如表2-2所示。表2-2 资产负债率的频数和频率区 间频 数频 率74%,75%)175%,76%)376%,77%)3通常情况下,频率可以当作概率来使用。因此,关于资产负债率的概率柱状分布图,如图2-1所示。在本节中,表示事件,表示事件的概率。概率的基本性质 如下: 任何事件的概率都位于0与1的闭区间内,即0,1。概率等于0的事件是不可能或没有发生的事件,概率等于1的事件是必然发生的事件。比如,每天太阳都从东边升起这一事件是必然事件,其概率为1,“农历初一月圆”这一事件是不可能的事件,其概率为0。用公式表示如下:0P(A)1区间概率图2-1 资产负债率的概率柱状分布 相互独立事件的和或积的概率等于各个事件概率的和或积。比如事件相互独立,则称为联合概率,称为非条件概率或边缘概率。如果事件不相互独立,则有:此时,联合概率就等于边缘概率乘上条件概率,即其中表示在事件B发生的情况下事件A发生的概率。上式给出了条件概率的求法: 如果相互独立事件组成一个完备事件组,则所有事件的和就是必然事件,其概率为1。例2-2 假设盒子里装有两枚骰子,随机抽取一枚骰子并抛到桌面上,计算数字3朝上的概率为多少?如果假设A表示“随机抽取一个骰子”,B表示“数字3朝上”,试求A+B的概率。第一个问题的事件是AB,这样,所要求的结果全部列在表2-3中。表2-3 随机事件的概率事 件概 率BB|AABA+B事件是样本空间的子集,随机变量所取的值是事件可能的数字表征,由事件的概率也就可求得随机变量的概率。接着,概率密度函数也随之给出。2.2.2 概率密度函数概率密度函数的曲线表示随机变量X取所有可能值概率的集合的几何表述。对于随机变量X所取的每一个可能值,通过对应关系“”,存在一个惟一的概率,即,与之对应。事件与随机变量通过概率密度函数和概率联系起来了。当是离散型随机变量时,概率密度函数可表示为:当是连续型的随机变量时,累积分布函数可表示为:如果实验结果由至少两个随机变量来表示,即一个结果是通过两个变量取值后才能确定。这时的相应概率密度函数就是多元的。类似地,多元密度函数也一样表示,比如离散型二元密度函数可表示为:其中表示联合概率。相应的条件密度函数是:如果随机变量是相互独立的,则联合密度函数等于边缘密度函数之积:图2-1给出了概率密度分布。设X表示资产负债率的频数,表示与 之相应的概率密度,则根据例2-1,得到以下概率密度和累积分布函数如表2-4所示。表2-4 概率密度和累积分布函数Xf (X)XF (X)1根据表2-4,可以做出累积分布函数的图形,如图2-2所示。图2-2 资产负债率的概率的累积分布函数密度函数的数字特征有:(1)离散型随机变量X的期望值,即总体趋势的度量,也就是所有离散型随机变量X与其概率密度函数乘积的和,即在这里,应注意的是概率密度函数起到了权重的作用。比如表2-1的房地产企业的资产负债率的期望是:(2)期望的性质:不变性,即常数的期望等于自己;线性性,即随机变量和的期望等于随机变量期望的和;分离性1,即相互独立随机变量积的期望等于随机变量期望的积;分离性2,即数与随机变量乘积的期望等于该数乘上随机变量的期望。(3)离散型随机变量X的方差或,即离散程度的度量,也就是随机变量与期望差的平方的期望,记作:称为标准差。方差描述了随机变量取值的集中程度,也就是说,方差越小,随机变量取值的范围就越小,或数值越集中于均值或期望。表2-1的房地产企业的资产负债率的方差, 注意公式的分母是“7”,这是严格按照定义计算的。实际上,分母应该是“6”。关于这点,将在后面说明。其计算如下:(4)方差的性质:常数的方差等于0;两个独立随机变量相加或相减的方差等于相应随机变量方差的和;数与随机变量乘积的方差等于该数平方再乘上随机变量的方差。期望和方差描述的是单变量的密度函数的数字特征。对于多维的密度函数的数字特征,要用协方差和相关系数来描述。 设为两个离散型随机变量,其协方差定义为:这个表达式可改写成:当时,即方差是协方差的特殊情形。(5)随机变量X,Y的cov(X,Y)的性质如下:l 若相互独立,则。l 对于任意常数,有。(6)协方差和方差的关系如下:协方差描述了的相关关系。对于这种关系,有更好的表示:相关系数。即相关系数描述了的相关关系,即为正数表示是正相关关系,为负数表示是负相关关系,等于0表示没有相关关系。相关系数与协方差的符号一致,同为正或负或零,而且相关系数界于-1和+1之间。例2-3 现在考虑全国别墅、高档公寓与经济适用房的平均售价的相关系数和协方差。有关原始数据如表2-5所示。表2-5 全国别墅、高档公寓和经济适用房屋的平均售价年 份别墅、高档公寓(元/m2)经济适用房屋(元/m2)19975 3821 09719984 5961 03519994 5031 09320004 2881 20220014 3481 24020024 1541 28320034 1451 380资料来源:2004年中国统计年鉴计算结果如下:别墅、高档公寓与经济适用房的相关系数协方差分别为:-0.659 734 958 233和-344 94.833 758 6别墅、高档公寓与经济适用房的平均售价是负相关的,如图2-3所示。别墅、高档公寓平均售价年份平均售价(元/m2)经济适用房屋平均售价图2-3 别墅、高档公寓与经济适用房的平均售价的相关性概率密度函数的数字特征除了以上介绍的外,这里再介绍三个:条件期望值和概率密度函数的偏度及峰度。(7)条件期望值定义为:(8)随机变量X的n阶中心矩定义为:当时,一阶中心矩是0;当n=2时,二阶中心矩就是随机变量的方差。方差衡量了分布的紧疏状况,然而,概率密度函数的对称性和分布的宽窄则分别由概率密度函数的偏度和峰度来刻画。概率密度函数的偏度S定义为:当>0时,概率密度函数的几何图形右偏;当<0时,概率密度函数的几何图形左偏。如果概率密度函数的几何图形是对称的,则=0,如图2-4所示。图2-4 概率密度函数分布的偏度示意图概率密度函数的峰度K定义为:当=3时,概率密度函数是常峰态分布的;当>3时,概率密度函数的分布是高峰态的;当<3时,概率密度函数的分布是低峰态的,如图2-5所示。图2-5 概率密度函数分布的峰度示意图从表2-5的经济适用房的平均售价数据可做出以下频数柱状分布图:图2-6是右偏低峰态的渐进正态分布图,其偏度为:0.232 223,峰度为:1.857 836。相比之下,别墅、高档公寓的平均售价呈现出较大的右偏高峰态柱状分布,其偏度和峰度分别为:1.439 003和3.860 236。2.02.50.00.51.0 1.51100 1400 1300 1200 1000 图2-6 经济适用房平均售价频数的柱状分布图2.2.3 样本与样本空间前面求得的期望值、方差、协方差、条件期望值、峰度、偏度等都是在样本空间内求的总体概率密度函数的数字特征。在实际工作中,人们往往难于掌握样本的总体状况,而只是掌握其中某些数据,如何通过这些样本来估算或判断总体样本的情况,则是一个艰巨的任务。比如,要评估全国人口平均的生活水平,人们很难通过全国人口普查来实现,而是通过局部抽样调查来提供判断的依据。为此,掌握样本的数据特征求法是必要的步骤。下面就来实现这样的步骤。1样本均值设()是随机抽取关于随机变量的某个实验的n个样本值,则随机变量的样本均值定义为:这个定义的n表示样本的容量。通常情况下,总体期望往往是不清楚的,需要通过样本的均值来估计。如何去评估样本均值与总体期望之间的偏差,这是 衡量抽样成功与否的关键之所在。这个问题留到以后需要时再讨论。后面所介 绍的样本数字特征都是对总体数字特征的估计,有关的讨论也将留到以后适当时做出。2样本方差设()是随机抽取关于随机变量的某个实验的个样本值,则的样本方差定义为:在样本方差定义中,分母是,而不是,原因是随机变量,不是独立的,而()的任意个变量是线性无关的。由于这个缘故,分母为。3样本协方差设和()是随机抽取分别关于随机变量X和Y的某个实验的个样本值,则关于随机变量X和Y的样本协方差定义为:4样本相关系数通过样本协方差和样本方差计算样本相关系数r表示为:5样本偏度关于随机变量X的样本偏度定义为: 见王文中(2003)。6样本峰度关于随机变量的样本峰度定义为:2.2.4 概率分布简介当求随机变量的数据特征时,注意到离散型密度函数或连续型密度函数扮演着重要角色。实际上,概率密度函数描述了随机变量的分布状况。人们通常使用的四种概率分布是:正态分布、分布、t分布和F分布。下面将简要介绍这四种基本的概率分布。1正态分布几何上,随机变量所取得的所有可能值的概率值集合就形成了对应的概率分布。比如在一个充分大的区域里,位于该区域内某年龄段内人们的身高数的集合具有正态分布的特征。也就是说关于身高这一随机变量,身高数围绕着全体身高数平均值对称分布,使得这些数据的相应概率值所形成的图形面积刚好以平均值为中心分成面积对等的两部分,并且整个面积恒为1。而且,越靠近中心,数据分布得越稠密,其概率所占的面积也越大,离中心越远,数据分布越稀疏,其概率所占的面积也越小。象此类随机变量的概率分布,由其总体期望和方差刻画出来,如图2-7所示。随机变量的概率密度的分布有大约68%落在区间和密度函数所围成的区域内,大约95%落在区间和概率密度函数所围成的区域内,而约有99.7%的概率分布落在和密度曲线所围成的区域内。图2-7描述的几何图形是正态分布的情形。一般情况下,样本的概率分布未必总能呈现出严格的正态分布,而是往往呈现出有偏的渐进正态分布或非正态分布。比如,图2-6已经呈现出了右偏低峰态的渐进正态分布。图2-7 正态曲线下的区域面积分布关于随机变量正态分布的概率密度函数如下所示:记做:。关于随机变量的密度函数值的计算是比较复杂的。所幸的是这些密度函数值可以通过正态分布表直接查到。性质2-15 多个服从正态分布的随机变量的线性组合仍然服从正态分布。这些随机变量称为正态变量。设和为两个随机变量且分别满足和,令,则为服从正态分布的随机变量,且如果和相互独立,则设为正态变量且满足,令则称为标准正态变量,记为。统计学上,如果知道数据的总体分布是正态的,但是不知道总体期望和方差,那么如何从总体中抽样估计出均值和方差呢?一般情况下,从正态总体得到的随机样本均值和方差可以作为总体的期望和方差的估计值。但是,如果抽样均值和方差未能客观地反映总体的期望和方差,而且当独立地得到若干个随机样本时,样本的均值和方差仍然与总体的均值和方差有偏,那么该如何处理呢?大家知道,随机样本的均值仍然是随机变量,如果把这些估计量如样本均值作为抽样样本,能否估计得到真实的总体值呢?为了回答这个问题,先得寻找理论支持,因为要弄清楚局部与整体的关系。如果还没有从理论上了解局部与整体的关系,那么,任何局部抽样可能面对着这样一个问题:抽样分析结果可信吗?的确,如果理论上未能给予肯定的回答,那么抽样分析基础是不扎实的。应该指出的是,这里的抽样是有坚实理论基础的。下面将回顾一下相关理论。独立同分布随机变量是指构成容量为的样本:,其中每一个是从服从同一个概率密度函数的样本总体中独立抽取的。比如,且每个是独立抽取的,则是独立同正态分布的随机变量。统计理论 若且每个是独立抽取的,则以上定理就是中心极限定理。一般情况下,可知:中心极限定理 如果是服从期望为,方差为的分布的随机样本,则随着样本容量的无限增大,样本均值趋于正态分布。即中心极限定理说明:独立同正态随机变量,以其均值作为样本,其更向真实的总体期望集中,并且,随着均值的均值作为样本,样本将以幂递增的速度向总体均值集聚。 若随机变量独立且其概率密度函数未必一致,则当样本容量无限增大时,在一定条件下,样本均值仍然近似服从正态分布(Linberg Fell理论)。见古亚拉提(2000)。因此,随着样本容量的增加,样本的均值和方差可以在统计意义上替代总体的期望和方差。现在可以讨论从正态总体抽样的方法了。本书将介绍两种方法:解鞋带抽样法和Monte Carlo实验。解鞋带抽样法 解鞋带抽样法实际上就是复原随机抽样法。具体做法是:任给一个有限样本,当第一次等可能抽取一个结果后,再把它放回原样本,然后重复第一次的过程,直到抽到符合容量要求的样本。现在举一个例子来说明如何使用解鞋带抽样法。假设有八个序号,如000,001,010,011,100,101,110,111,并以这8个序号作为第一个样本,然后按照解鞋带抽样法生成其他样本,标号为样本1,样本2等,直到抽到所需的样本容量为止。解鞋带抽样法适合于那些通过有限样本信息来解读某些特定特征的实验。不妨通过解鞋带抽样法抽出七个样本,如表2-6所示。表2-6 解鞋带抽样法举例样 本样本1样本2样本3样本4样本5样本6样本7000100100111010110100010001010010110010111001110010000001010110010101101011100101000011001001011100111111110001011111010续表样 本样本1样本2样本3样本4样本5样本6样本7101110101101000110010000110001001110100010101001111101110001101101110101Monte Carlo实验 Monte Carlo实验简单来讲就是估计量(比如样本均值)的样本分布法。具体来讲就是对于给定的任意一个有限样本,由解鞋带方法,抽取个样本,再求各个样本的均值,然后再求均值样本的估计量。这个过程就叫做Monte Carlo实验。为了求某个总体的期望和方差,可采用Monte Carlo实验。比如,研究19952002年期间外国人到中国旅游人数的总体均值和方差。考虑到总体样本采集的困难性,这里希望通过七个国家到中国旅游人数的统计数据来估算所有外国人到中国旅游人数的均值和方差。通常情况下,如果直接对某个样本求其均值和方差,将得到较为明显的估计偏差。为此,应用Monte Carlo实验,根据19952002年的统计数据来估计总体均值和方差如表2-7所示。 本书只是介绍Monte Carlo实验的方法,并没有对所估计的值作任何检验。类似的检验将在后面介绍。表2-7 Monte Carlo实验的应用单位:万人国 别1995199719981999200020012002德国16.6518.4719.1921.7623.9125.3428.18法国11.8513.1313.8015.5618.5019.9522.21意大利06.376.517.257.227.787.779.17荷兰3.495.235.897.017.609.3010.04葡萄牙2.563.583.854.022.282.683.61瑞典3.523.854.064.685.365.286.28瑞士3.433.032.842.993.073.083.24人数人数人数人数人数人数人数平均值6.847.698.139.039.7910.4911.82平均值样本的平均值9.11平均值样本的方差0.737资料来源:2004年中国统计年鉴注:第一列的国别是指七个国家,与其相对应的各行数据是相应各年的旅游人数。22分布设,则。由统计学知识可知,服从自由度为1的分布, 的英文读法是chikai。记做。一般情况下,设且互相独立,则自由度是分布的重要参数。一般来讲,自由度是指刻画某个特征,比如样本均值或方差,以及独立观察量的个数。例如,样本方差的自由度为,因为,而任意个是线性无关的。分布随着自由度的增加而趋向正态分布,如图2-8所示。22分布的概率密度自由度增加0图2-8 变量的密度函数分布示意图从图2-8可看出,分布的密度函数的定义域是正实数域。自由度越小,分布越右偏,自由度越大,分布越呈现出对称的形态。自由度是分布的重要特征。事实上,可得以下性质:性质2-16 分布的期望是其自由度,方差是其自由度的两倍。理论上可证明 设样本方差是来自于总体方差为的正态分布的随机抽样样本,则有例2-4 依2003年中国35个城市的住宅建设所投入的资金(万元)作为原始数据,然后把这些数据扩大一倍,并按顺序把前半部分或后半部分加上负号,形成样本容量为70的新数据。同时,让每一个数据均除于1 936 034,则这些数据的概率分布呈现出标准正态分布。那么,这些数据的平方就是服从自由度为1的分布。考虑到数据在运算过程中的系统误差,所得到的数据未必呈现出严格的标准正态分布和分布,但是可以近似地认为样本数据满足理论的要求。因此,加工后的原数据如表2-8和表2-9所示。表2-8 左偏高峰态正态分布的样本数据-3.27E+00-1.00E+00-0.117 238-5.35E-016.75E-010.331 242 10.404 883 4-7.80E-01-0.331 114-9.16E-01-0.484 8290.248 999 86.45E-010.102 351 5-0.186 508-5.87E-01-9.76E-01-7.07E-010.258 749 10.391 390 90.065 731 8-0.088 251-0.230 148-0.155 137-0.283 4613.49E+001.64E+000.144 443 2-0.063 931-0.382 678-0.269 334-1.29E+006.68E-010.118 762 40.123 406 9-6.75E-01-0.331 242-0.404 883-3.27E+001.00E+000.117 238 15.35E-01-0.249-6.45E-01-0.102352-7.80E-010.331 113 59.16E-010.484 829 3-0.258 749-0.391 391-0.065732-0.186 508 15.87E-016.68E-017.07E-01-3.49E+00-1.64E+00-0.144 443-0.088 2510.230 147 80.155 137 30.283 460 9-6.68E-01-0.118 762-0.123 407-0.063 93070.382 677 70.269 333 61.29E+00资料来源:2004年中国统计年鉴表2-9 服从自由度为1的分布的样本数据1.07E+011.00E+000.0137452.86E-014.55E-010.109 7210.163 9316.08E-010.109 6368.40E-010.235 0590.062 0014.16E-010.010 4760.034 7853.45E-019.53E-015.00E-010.066 9510.153 1870.004 3210.007 7880.052 9680.024 0680.080 351.22E+012.68E+000.020 8640.004 0870.146 4420.072 5411.67E+004.46E-010.014 1050.015 2294.55E-010.109 7210.163 9311.07E+011.00E+000.013 7452.86E-01续表0.062 0014.16E-010.010 4766.08E-010.109 6368.40E-010.235 0590.066 9510.153 1870.004 3210.034 7853.45E-014.46E-015.00E-011.22E+012.68E+000.020 8640.007 7880.052 9680.024 0680.08 0354.46E-010.014 1050.015 2290.004 0870.146 4420.072 5411.67E+00资料来源:表2-8表2-8和表2-9的频数柱状分布图分别如图2-9和图2-10所示。14810462.251.250.00-1.2502-2.25频数12图2-9 左偏高峰态正态分布注:中值:0.012 371,标准差:0.995 919,偏度:-0.040 894,峰度:8.266 771。0图2-10 自由度为1的样本2分布3t分布设样本方差是来自于总体方差为的正态分布的随机抽样样本,正态分布的期望为。则如果不知道总体方差,而只知道样本方差作随机变量则称随机变量满足自由度为的分布,记做。分布的定义说明,如果总体分布是均值为的正态分布,其方差由随机抽样样本方差代替,则样本均值服从分布,分布的自由度等于样本方差的自由度。分布随着自由度的变化而变化,如图2-11所示。当自由度趋向无穷大时,t分布曲线逼向标准正态分布曲线。图2-11形象地说明了t分布曲线随着自由度的变化而变化。实际上有以下 性质:自由度增加标准正态分布0t图2-11 不同自由度下的t分布性质2-17 t分布的期望为0,方差为,其中k为t分布的自由度。从形态上看,t分布比标准正态分布略显“肥大”一些。但是,随着t分布的自由度不断增长,t分布逐渐趋同于标准正态分布。例2-5 根据全国35个城市于2003年所投入住宅建设资金的实际数(万元),对其加工后形成样本数据,如表2-10所示。表2-10 服从自由度为3的t分布的样本-2.47E+00-0.297 623-1.07E+00-7.81E-014.37E-01-8.68E-01-9.17E-01-3.65E+00-4.78E-01-4.21E-013.58E+00-2.42E-02-8.02E-02-9.09E-01-9.94E-01-2.13E-016.56E-01-1.01E+00资料来源:2004年中国统计年鉴根据表2-10,绘出t (3)分布图2-12。频数图2-12 自由度为3的t分布注:这个频数曲线图是右偏高峰态的。之所以图形会右偏,在于样本的采集。但从t分布的示意图来看是可接受的。4F分布F分布称为方差比分布,也就是两个相互独立的样本方差之比的分布,目的是为了检验两个总体分布的方差是否相等。具体来说,设样本和样本相互独立,样本的方差分别为和如果,则随机变量服从分子自由度为和分母自由度为的F分布,如果,记做。一般地有 见古亚拉提(2000)。F分布随着自由度的增加而逐渐呈现出正态分布形态,如图2-13所示。正态分布随机变量F分布的概率密度自由度图2-13 F分布随着自由度变化而变化性质2-18 给定显著性水平,有性质2-19 。性质2-20 ,其中与相互独立,且若充分大,则。以上几个性质描述了分布、分布和分布之间的某些联系。这些性质在古亚拉提(2000)都有说明。对分布来说,当分子自由度充分大时,随着分母自由度的增加,根据性质2-20,随机变量是趋于渐进标准正态分布的。即2.3 统计推断随机抽样的样本跟总体有什么关系呢?能否通过样本的数字特征来估计总体的情况?众所周知,来自同一个总体的每一个样本很可能具有不同的统计特征,比如样本均值、方差等可能是不一样的。为了处理样本与总体的关系,统计推断扮演了重要的角色。统计推断就是从样本的统计特征推断出总体的统计特征,比如从样本的均值推出总体的均值。本节主要介绍估计与假设检验。2.3.1 估计给出参数的估计值是统计推断的基础。要给出参数的估计值,首先要确定 总体的分布,比如是正态分布、分布、分布或是分布;其次从总体中随机抽样,并给出样本特征值的估计;然后通过点估计或区间估计得出参数估计,如图2-14所示。图2-14 估计的一般过程例如,设,其中参数、为未知。现在从正态总体中随机抽取容量为的样本,则有,也就得出总体参数的估计值是,称为的点估计。Monte Karlo实验可以实现点估计。另外,设表示随机样本的样本方差,则已经知道统计量满足自由度为的分布,在给定显著水平下,查分布表得出相应的临界值为,得概率分布于是把统计量代入上式,得到因而,