计量经济学基础知识梳理(超全)ppt课件.ppt
,第一章 计量经济学基础知识,如果 表示n个数的一个序列,那么我们就把这n个数的总和写为:,第一节 高数知识,一、求和,二、算术平均 算术平均(arithmetic mean)就是我们日常生活中使用的普通的平均数,其定义如下式:,三、加权算术平均,加权平均是将各数据先乘以反映其重要性的权数(w),再求平均的方法。其定义如下式:,四、变化率,变化率的定义如下式:,五、几何平均 几何平均是n个数据连乘积的n次方根,其定义如下式:,六、线性函数,如果两个变量x和y的关系是:,我们便说y是x的线性函数:而 和 是描述这一关系的两个参数, 为截距(Intercept), 为斜率。,一个线性函数的定义特征在于,y的改变量总是x的改变量的 倍: 其中, 表示“改变量”。换句话说,x对y的边际效应是一个等于 的常数。,例:线性住房支出函数,假定每月住房支出和每月收入的关系式是Housing=164+0.27income 那么,每增加1元收入,就有0.27元用于住房支出,如果家庭收入增加200元,那么住房支出就增加0.27200=54元。 机械解释上述方程,即时一个没有收入的家庭也有164元的住房支出,这当然是不真实的。对低收入水平家庭,这个线性函数不能很好的描述housing和income之间的关系,这就是为什么我们最终还得用其他函数形式来描述这种关系。,多于两个变量的线性函数: 假定y与两个变量 和 有一般形式的关系: 由于这个函数的图形是三维的,所以相当难以想象,不过 仍然是截距(即 =0和 =0时y的取值),且 和 都是特定斜率的度量。由方程(A.12)可知,给定 和 的改变量,y的改变量是 若 不改变,即 ,则有 因此 是关系式在 坐标上的斜率:,因为它度量了保持 固定时,y如何随 而变,所以常把 叫做 对y的偏效应。由于偏效应涉及保持其他因素不变,所以它与其他条件不变(Ceteris Paribus)的概念有密切联系,参数 可作类似解释:即若 ,则 因此, 是 对y的偏效应。,线性函数的性质,假定大学生每月对CD的需求量与CD的价格和每个月的零花钱有如下关系: 式中,price为每张碟的价格,income以元计算。需求曲线表示在保持收入(和其他因素)不变的情况下,quantity和price的关系。,例: 对CD的需求,线性函数的基本性质: 不管x的初始值是什么,x每变化一个单位都导致y同样的变化。x对y的边际效应是常数,这对许多经济关系来说多少有点不真实。例如,边际报酬递减这个重要的经济概念就不符合线性关系。 为了建立各种经济现象的模型,我们需要研究一些非线性函数。 非线性函数的特点是,给定x的变化,y的变化依赖于x的初始值。,七、若干特殊函数,1.二次函数,刻画报酬递减规律的一个简单方法,就是在线性关系中添加一个二次项。 考虑方程式 式中, , 和 为参数。当 时,y和x之间的关系呈抛物线状,并且可以证明,函数的最大值出现在,1.二次函数,例如,若y=6+8x-2x2。(从而 =8且 =-2),则y的最大值出现在x*=8/4=2处,并且这个最大值是6+82-2(2)2=14。,对方程式 意味着x对y的边际效应递减,这从图中清晰可见,应用微积分知识,也可以通过求这个二次函数的一阶导数得出。 斜率=方程右端是此二次函数对x的导数。 同样, 则意味着x对y的边际效应递增,二次函数的图形就呈U行,函数的最小值出现在点 处。,1.二次函数,在计量经济分析中起着最重要作用的非线性函数是自然对数,或简称为对数函数,记为还有几种不同符号可以表示自然对数,最常用的是 或 。当对数使用几个不同的底数时,这些不同的符号是有作用的。目前,只有自然对数最重要,因此我们都用 表示自然对数。,2.自然对数,2.自然对数,图2.1.4 y=log(x) 的图形,2.自然对数,有如下性质: 1. log(x)可正可负:log(x)0,x1 2.一些有用的性质(牢记): log(x1x2)=log(x1)+log(x2),x1,x20 log(x1/x2)=log(x1)-log(x2),x1,x20 log(xc)=clog(x),x0,c为任意实数,2.自然对数,对数可用于计量经济学应用中的各种近似计算。 1.对于x0,有log(1+x)x。这个近似计算随着x变大而越来越不精确。 2.两对数之差可用作比例变化的近似值。令x0和x1为两个正数,可以证明(利用微积分),对x的微小变化,有如果我们用100乘以上述方程,并记那么,对x的微小变化,便有“微小”的含义取决于具体情况。,2.自然对数,近似计算的作用: 定义y对x的弹性(elasticity)为换言之,y对x的弹性就是当x增加1%时y的百分数变化。 若y是x的线性函数: ,则这个弹性是它明显取决于x的取值(弹性并非沿着需求曲线保持不变)。,2.自然对数,不仅在需求理论中,在许多应用经济学领域,弹性都是非常重要的。在许多情况下,使用一个常弹性模型都很方便,而对数函数能帮助我们设定这样的模型。如果我们对x和y都使用对数近似计算,弹性就近似等于因此,一个常弹性模型可近似描述为方程式中, 为y对x的弹性(假定x,y0)。 这类模型在经验经济学中扮演着重要角色。目前,式中的 只是接近于弹性这一事实并不重要,可以忽略。,例:常弹性需求函数,若q代表需求量而p代表价格,并且二者关系为则需求的价格弹性是-1.25.初略地说,价格每增加1%,将导致需求量下降1.25%。,2.自然对数,在经验研究工作中还经常出现使用对数函数的其他可能性。假定y0,且则 ,从而 。 由此可知,当y和x有上述方程所示关系时,,例: 对数工资方程,假设小时工资与受教育年数有如下关系:根据前面所述方程,有由此可知,多受一年教育将使小时工资增加约9.4%。 通常把%y/x称为y对x的半弹性,半弹性表示当x增加一个单位时y的百分数变化。在上述模型中,半弹性是个常数并且等于 ,在上述例子中,我们可以方便的把工资和教育的关系概括为:多受一年教育无论所受教育的起点如何都将使工资提高约9.4%。这说明了这类模型在经济学中的重要作用。,2.自然对数,另一种关系式在应用经济学中也是有意义的:其中,x0。若取y的变化,则有 ,这又可以写为 。 利用近似计算,可得当x增加1%时,y变化 个单位。,例:劳动供给函数,假定一个工人的劳动供给可描述为式中,wage为小时工资而hours为每周工作小时数,于是,由方程可得: 换言之,工资每增加1%,将使每周工作小时增加约0.45或略小于半个小时。若工资增加10%,则 或约四个半小时。注意:不宜对更大的工资百分数变化应用这个近似计算。,考虑方程 此处log(y)是x的线性函数,但是怎样写出y本身作为x的一个函数呢?指数函数给出了答案。 我们把指数函数写为y=exp(x),有时也写为 ,但在我们课程中这个符号不常用。 指数函数的两个重要的数值是exp(0)=1和exp(1)=2.7183(取4位小数)。,3.指数函数,3.指数函数,图2.1.4 y=exp(x) 的图形,从上图可以看出,exp(x)对任何x值都有定义,而且总大于零。 指数函数在如下意义上是对数函数的反函数:对所有x,都有logexp(x)=x,而对x0,有explog(x)=x。换言之,对数“解除了”指数,反之亦然。对数函数和指数函数互为反函数。 指数函数的两个有用性质是 exp(x1+x2)=exp(x1)exp(x2) 和 expclog(x)=xc,3.指数函数,记忆:经济学中常用的一些函数及其导数有,4.微分学,当y是多元函数时,偏导数的概念便很重要。假定y=f(x1,x2),此时便有两个偏导数,一个关于x1,另一个关于x2。y对x1的偏导数记为 ,就是把x2看做常数时方程对x1的普通导数。类似的, 就是固定x1时方程对x2的导数。 若则这些偏导数可被视为经济学所定义的偏效应。,4.微分学,把工资与受教育年数和工作经验(以年计)相联系的一个函数是exper对wage的偏效应就是上式对exper的偏导数:这是增加一年工作经验所导致工资的近似变化。注意这个偏效应与exper和educ的初始水平都有关系。例如,一个从educ=12和exper=5开始的工人,再增加一年工作经验,将使工资增加约0.19-0.085+0.00712=0.234元。准确的变化通过计算,结果是0.23,和近似计算结果非常接近。,例: 含交互项的工资方程,一、随机变量及其概率分布 假设我们掷一枚钱币10次,并计算出现正面的次数,这就是一个实验的例子。一般地说,一个实验是指至少在理论上能够无限重复下去的任何一种程序,并且它有一个定义完好的结果集。 一个随机变量是指一个具有数值特征并由一个实验来决定其结果的变量。,第二节 概率论基础,按照概率和统计学的惯例,我们一律用大写字母如常见的W,X,Y和Z表示随机变量,而用相应的小写字母w,x,y和z表示随机变量的特定结果。 例如,在掷币实验中,令X为一枚钱币投掷10次出现正面的次数。所以X并不是任何具体数值,但我们知道X将在集合 中取一个值。比方说,一个特殊的结果是x=6。 我们用下标表示一系列随机变量。例如,我们记录随机选择的20个家庭去年的收入。可以用X1,X2,X20表示这些随机变量,并用x1,x2,x20表示其特殊结果。,一、随机变量及其概率分布,如定义所言,即使随机变量描述的是一些定性事件,我们也总定义它的结果是数值。例如,考虑只掷一枚钱币,其两个结果是正面和反面。我们可以定义一个随机变量如下:如果出现正面则X=1;如果出现反面则X=0。 一个只能取0和1两个值的随机变量叫做贝努利随机变量。 XBernoulli( )(读作“X服从一个成功概率为 的贝努利分布):P(X=1)=,P(X=0)=1-,一、随机变量及其概率分布,1.离散随机变量 离散随机变量是指一个只取有限个或可数的无限个数值的随机变量。 “可数的无限个”:虽然随机变量可取无限个值,但这些值可以和正整数一一对应。 贝努力随机变量是离散随机变量的最简单的例子。,一、随机变量及其概率分布,一个离散随机变量要由它的全部可能值和取每个值的相应概率来完整描述。如果X取k个可能值 其概率p1,p2,pk被定义为 pj=P(X=xj),j=1,2, ,k (读作:“X取值xj的概率等于pj”。)其中,每个pj都在0-1之间,并且 p1+p2+ +pk=1,1.离散随机变量,X的概率密度函数(probability density function,pdf)概括了X的可能结果及其相应概率的信息: 而且对某个j,凡是不等于xj的x都有f(x)=0。换言之,对任何实数x,f(x)都是随机变量X取该特定值x的概率。当我们设计多于一个随机变量时,有时需要给所考虑的pdf加一个下标:例如fx是X的pdf,fY是Y的pdf等等。,1.离散随机变量,给定任一离散随机变量的pdf,就不难计算关于该随机变量的任何事件的概率。例如,设X为一名篮球运动员在两次罚球中的命中次数。因此X的三个可能值是0,1,2。假定X的pdf是 f(0)=0.20,f(1)=0.44和f(2)=0.36这三个概率之和必然为1.利用这个pdf,我们能算出该运动员至少投中一球的概率: P(X1)=P(X=1)+P(X=2)=0.44+0.36=0.80。X的pdf如下图示:,1.离散随机变量,2.连续随机变量 连续随机变量是指一个取任何实数的概率都为零的变量。 这个定义有点违背直觉,因为在任何应用中,我们最终都会观测到一个随机变量取得的某种结果。这里的思想是,一个连续随机变量X的可能取值如此之多,以致我们无法用正整数去计算,因而,逻辑上的一致性就要求X必须以零概率取每一个值。,一、随机变量及其概率分布,在计算连续随机变量的概率时,讨论一个连续随机变量取某特定值的概率是没有意义的,最方便的是使用累积分布函数(cumulative distribution function,cdf)。设X为任意随机变量,它对任何实数x的cdf被定义为 F(x)P(Xx) 对于一个连续随机变量,F(x)就是概率密度函数f之下、点x以左的面积。因为F(x)就是一个概率,所以它总是介于0-1之间。此外,若x1x2,则P(Xx1) P(Xx2),即F(x1)F(x2)。这意味着cdf是x的一个增(至少非减)函数。,2.连续随机变量,cdf有如下两个对计算概率颇为有用的重要性质: 1.对任何数c,P(Xc)=1-F(c) 2.对任何两个数ac)和 P(aXb)=P(aXb)=P(aXb) =P (aXb) 对于概率和统计学中所有重要的连续分布,其累积分布函数已被制成表格,其中最为人们熟知的是正态分布。,2.连续随机变量,1.联合分布与独立性 令X和Y为离散随机变量。那么(X,Y)的联合分布由它们的联合概率密度函数充分描述: 上式右端是X=x和Y=y的概率。若我们知道X和Y的pdf,就容易得到它们的联合pdf。具体而言,我们说X和Y相互独立的充要条件是,对所有x和y,都有式中,fX为X的pdf而fY为Y的pdf。,二、联合分布、条件分布与独立性,在多个随机变量的背景中, fX和fY这两个pdf常被称为边缘概率密度函数,以区别于联合pdf,即fX,Y。上述独立性定义适用于离散和连续随机变量。 如果X和Y都是离散的,那么上式就等同于 P(X=x,Y=y)=P(X=x)P(Y=y) 因为仅需要知道P(X=x)与P(Y=y),所以计算联合概率相当容易。 若两随机变量不独立,则称它们是相依的。,1.联合分布与独立性,考虑篮球运动员的两次罚球。令X为贝努利随机变量:如果第一次命中它等于1,否则等于0。再令Y为贝努利随机变量:如果第二次命中它等于1,否则等于0。假设该运动员每次罚球的命中率都是80%,即P(X=1)=P(Y=1)=0.8,问两罚两中的概率是多少?,例: 罚球命中率,若X和Y独立,则很容易回答这个问题:P(X=1,Y=1)=P(X=1)P(Y=1)=0.80.8=0.64。因此,有64%的机会两罚两中。若第二次命中的机会依赖于第一次是否命中,即X和Y不独立,这种简单计算便不再正确。,随机变量的独立性是一个十分重要的概念。若X和Y独立,则知道X的结果并不改变Y出现的各种可能结果的概率,反之亦然。 关于独立性的一个有用结论是,若X和Y独立,而我们对任意函数g和h定义两个新的随机变量g(X)和h(Y),则这些新的随机变量也是独立的。,1.联合分布与独立性,在计量经济学中,我们通常也对一个随机变量(称之为Y)与另外一个或多个随机变量的联系感兴趣。暂且假设我们只对一个变量的影响感兴趣,并称之为X。关于X如何影响Y,我们所能知道的,都包含在给定X时Y的条件分布中,由条件概率密度函数概括的这一信息被定义为:对所有满足 的x值,都有,2.条件分布,当X和Y都是离散变量时,上式可解释为其中,上式右端读作“给定X=x时Y=y的概率”。当Y是连续变量时,由于前述理由, 不能直接解释为概率,但可以通过计算条件概率密度函数之下的面积来求出条件概率。 条件分布的一个重要性质是,若X和Y是独立随机变量,知道X取什么值无助于确定Y取各值的概率(反之亦然)。这就是说, 且 。,2.条件分布,再次考虑篮球员两次投篮的例子。假定条件密度是这意味着球员第二次罚球命中的概率依赖于第一次罚球是否命中:如果第一次命中,则第二次命中的概率是0.85;如果第一次失误,则第二次命中的概率是0.70。这就是说,X和Y不是独立的,而是相关的。 我们若知道P(X=1),便可以计算P(X=1,Y=1)。假定第一次命中的概率是0.8,即P(X=1)=0.8,那么我们得到两罚两中的概率为P (X=1,Y=1)=P(Y=1|X=1) P(X=1)=0.850.8=0.68,例: 罚球命中率,多数情况下我们只对随机变量分布的少数几个性质感兴趣。这些特征可分成三类:集中趋势的度量、变异或分散程度的度量以及两个随机变量之间关联性的度量。1.集中趋势的一种度量:期望值 期望值是我们在计量经济学学习中遇到的最重要的概率性概念之一。设X为一随机变量。它的期望值,记做E(X),就是对X的所有可能值的一个加权平均。权数由概率密度函数决定。有时期望值又被称为总体均值,特别是在我们强调X代表了总体中的某个变量时。,三、概率分布的特征,当X是取有限个值比方说 的离散随机变量时,期望值的准确定义最为简单。令f(x)表示X的概率密度函数,则X的期望值为加权平均:给定pdf在X的每个可能结果处的取值,这很容易计算。,1.集中趋势的一种度量:期望值,假定X分别以概率1/8、1/2和3/8取值-1、0和2,则 E(X)=(-1)1/8 +0(1/2)+2(3/8)=5/8,例: 计算一个期望值,例:假定X分别以概率1/8、1/2和3/8取值-1、0和2,则: E(X)=(-1)1/8 +0(1/2)+2(3/8)=5/8 对于例2.2.3中的随机变量,令g(X)=X2,便有E( X2 )= (-1)21/8 +(0)2(1/2)+(2)2(3/8)=13/8,例: X2期望值,性质1.对任意常数c,E( c )= c。性质2.对任意常数a和b,E(aX+b)=aE(X)+b。性质3.如果 是常数而 是随机变量,则或者,利用求和符号,作为一个特例,取每个aj=1,我们有因此,和的期望值就是期望值之和。在数理统计的推导中常常用到这个性质。,2. 期望值的性质,令X1,X2和X3分别为比萨店在某日出售的小、中、大比萨个数。这些随机变量的期望值是E(X1)=25, E(X2)=57和E(X3)=40。小、中、大比萨的价格分别是5.50、7.60和9.15美元。因此,该日出售比萨的期望收入是E(5.5 X1 +7.60 X2 +9.15 X3 )= 5.50 E(X1)+7.60 E(X2)+9.15 E(X3) =5.525+7.6057+9.1540=936.70即936.70美元。这不过是期望收入,具体某一天的实际收入一般都会有所差异。,例: 求期望收入,度量集中趋势的另一种方法是用中位数。若X是连续的,则X的中位数(比方说m)就是这样一个数:pdf之下的一半面积在m之左,另一半面积在m之右。 当X是离散的且取有奇数个值时,中位数就是按大小排序后居中的一个数。若X可能取偶数个值,则实际上有两个中位数;有时取这两个数的平均,便得到唯一的一个中位数。 一般而言,中位数,有时记为Med( X ),和期望值E( X )是不相同的。作为集中趋势的度量,不能说哪一个比另一个更好,两者都是度量X分布中心的有效方法。,2.集中趋势的另一种度量:中位数,对一个随机变量X,令=E(X)。为了度量X离其期望值多远,有许多种方法,而最简单的一种代数方法就是用差异的平方(X-)2。(平方是为了消除距离度量的符号,由此得到的正值符合我们对距离的直观认识。)因这一距离随X的每一结果而变,故本身就是一个随机变量。正如我们需要用一个数来总结X的集中趋势那样,我们也需要用一个数来告诉我们X平均而言离有多远。一个这样的数就是方差(variance),它告诉我们X对其均值的期望距离:方差有时记为 ,由方程知方差必定非负。,3. 方差,方差S2的定义如下式(样本):,( 1)Var(c )=0 (2)Var(c+x)=Var(x ) (3)Var(cx)=c2Var(x) (4)x,y为相互独立的随机变量,则 Var(x+y)=Var(x )+Var(y )=Var(x-y) (5)Var(x)=E(x2)-(E(x)2,方差的重要性质,一个随机变量的标准差,记为sd(X),就是它的方差的正的平方根:sd(X)+ 。标准差有时又记做 。标准差有两个重要性质可从方差的两个性质中直接推出。 性质1. 对任意常数c,sd(c)=0 性质2. 对任意常数a和b,sd(aX+b)=|a|sd(X)特别是,若a0,则sd(aX)=asd(X)。,4. 标准差,标准差S的的定义分别如下式:,作为方差和标准差性质的一个应用而且本身也是有实际意义的一个问题假如给定随机变量X,我们将它减去其均值并除以其标准差,便定义了一个新的随机变量 Z这又可写为Z=aX+b,其中a=(1/)而b=-(/)。可得:E(Z)=aE(X)+b=(/)-(/)=0 Var(Z)=a2Var(X)=2/2 =1因此,随机变量Z的均值为零,方差(或者标准差)为1。这一过程有时被称为将随机变量X标准化,而Z则叫做标准化随机变量。,5. 标准化一个随机变量,1.关联度:协方差与相关 虽然两个随机变量的联合pdf完整地描述了它们之间的关系,但对于它们大致如何互相变动,仍需要一个扼要的度量手段。正如期望值和方差一样,这类似于用一个数字来概括整个分布的某一方面,现在要概括的便是两个随机变量的联合pdf。,四、联合与条件分布的特征,两个随机变量X和Y之间的协方差(有时也叫做总体协方差,以强调它考虑的是描述一个总体的两个随机变量之间的关系),被定义为乘积(X-X)(Y-Y)的期望值:有时又记为 。若 ,则平均而言,当X超过其均值时,Y也超过其均值;若 ,则平均而言,当X超过其均值时,Y低于其均值。,2.协方差,计算 的几个有用表达式如下: 协方差度量两个随机变量之间的线性相依性。一个正的协方差表示两随机变量同向移动,而一个负的协方差则表示两随机变量反向移动。,2.协方差,性质Cov.1:若X和Y相互独立,则注意:此性质的反命题并不成立:X和Y之间的协方差为零并不意味着X和Y相互独立。 性质Cov.2:对任意常数a1,b1,a2和b2,都有此性质的重要含义在于,两个随机变量之间的协方差会因为将两者或者两者之一乘以一个常数倍而改变。这在经济学中之所以重要,是因为诸如货币变量和通货膨胀率等,都可使用不同的度量单位进行定义而不改变其实质。,协方差的性质,取决于度量单位是协方差的一个缺陷。为克服这一缺陷,现引进X和Y的相关系数(correlation coefficient):X和Y的相关系数有时记做 (而且有时称总体相关)。 所谓相关系数是用来测量诸如收入与消费、气温和啤酒的消费量、汇率与牛肉的进口价格等两个变量X、Y之间的相互关系的大小和方向(正或负)的系数。通过计算相关系数,可以知道X与Y之间具有多大程度的线性(linear)关系。相关系数R的定义如下式:,3.相关系数,性质Corr.1 -1Corr(X,Y)1 若Corr(X,Y)=0,或等价地Cov(X,Y)=0,则X和Y之间就不存在线性关系,并称X和Y为不相关随机变量;否则X和Y就是相关的。 Corr(X,Y)=1意味着一个完全的正线性关系,意思是说,我们对某常数a和某常数b0可以写Y=a+bX。 Corr(X,Y)=-1则意味着一个完全的负线性关系,使得对某个b0有Y=a+bX。+1和-1两个极端情形很少出现。接近1或-1的 值便意味着较强的线性关系。,3.相关系数,性质Corr.2 对于常数a1,b1,a2和b2, 若a1a20, 则Corr(a1X+b1,a2Y+b2)=Corr(X,Y) 若a1a20, 则Corr(a1X+b1,a2Y+b2)=-Corr(X,Y) 作为一个例子,假定薪水和教育的总体相关系数是0.15.这一度量将与用美元、千美元或任何其他单位计算薪水都无关;与用年、季、月或其他单位来衡量受教育时间也无关。,3.相关系数,一旦定义了协方差和相关系数,就可以把方差的主要性质完整地列出来。 性质VAR.3 对于常数a和b,有由此可知,若X和Y不相关(从而Cov(X,Y)=0)则和在后一情形中,要注意为什么差的方差是(两个)方差之和,而不是方差之差。,4.随机变量之和的方差,例: 令X为星期五夜晚某酒店赚到的利润,而Y为接下来星期六夜晚赚到的利润。因此,Z=X+Y就是这两个夜晚赚的利润。假定X和Y都有一个300美元的期望值和一个15美元的标准差(因而方差为225)。两夜晚的期望利润将是E(Z)=E(X)+E(Y)=2300=600美元。若X和Y独立,从而它们也不相关,则总利润的方差便是两个方差之和:Var(Z)=Var(X)+Var(Y)=2225=450。于是总利润的标准差是 ,约为21.21美元。,4.随机变量之和的方差,从两个变量推广到多于两个变量的情形。 若随机变量 中的每一个变量与集合中其他任何一个变量都不相关,我们便称其为两两不相关的随机变量。也就是说,对所有的 ,都有,4.随机变量之和的方差,性质VAR.4 若 是两两不相关的随机变量且 是常数,则用求和符号便可写为此性质的一个特殊情形就是,对所有i都取ai=1.这时,对两两不相关的随机变量来说,和的方差就是方差之和:,4.随机变量之和的方差,协方差和相关系数都是对两个随机变量之间线性关系的度量,并且对称地处理两者。在社会科学中更多的情况是,我们想用一个变量X去解释另一个变量Y。而且,若Y和X有非线性形式的关系,则我们还希望知道这个形式。把Y叫做被解释变量,而X叫做解释变量。例如Y代表小时工资,而X代表受过正式教育的年数。 可以通过给定X下Y的条件期望(有时又称条件均值)来概括Y和X之间的关系。即,一旦我们知道X取了某个特定值x,就能根据X的这个结果算出Y的期望值。记作E(Y|X=x)或简记E(Y|x)。一般情形是,随着x的改变,E(Y|x)也会改变。,5.条件期望,当Y是取值为 的离散随机变量时,则有当Y连续时, E(Y|x)便由对 的y的所有可能值求积分来定义。好比无条件期望那样,条件期望也是对Y所有可能值的一个加权平均,只不过这时的权数反映了X已取了某个特殊值的情形。因此,E(Y|x)是x的某个函数,这个函数告诉我们Y的期望值如何随x而变化。,5.条件期望,例 令(X,Y)代表一个工人总体,其中X为受教育年数,Y为小时工资。那么,E(Y|x=12)便是总体中所有受了12年教育(相当于读完高中)的工人的平均小时工资。 E(Y|x=16)则是所有受过16年教育的工人的平均小时工资。跟踪各种教育水平的期望值,便为工资和教育之间的关系提供了重要信息。,5.条件期望,原则上,可以在每个教育水平上求出小时工资的期望值,然后将这些期望值列表。由于教育的变化范围很大且可度量为一年的某个分数所以用这种方法显示平均工资和受教育程度之间的关系很烦琐。计量经济学中的典型方法是,设定一些足以刻画这种关系的简单函数。作为一个例子,假设WAGE在给定EDUC时的期望值是如下线性函数: E(WAGE|EDUC)=1.05+0.45EDUC假定这一关系对工人总体成立,则受8年和16年教育者的平均工资分别是多少?EDUC的系数如何解释?,5.条件期望,条件期望的一些基本性质对计量经济分析中的推导颇为有用。 性质CE.1 对任意函数c(X),都有Ec(X)|X=c(X)。 这意味着,当我们计算以X为条件的期望值时,X的函数可视为常数。例如E(X2|X)=X2。直观上,这无非就是说,若知道了X,也就知道了X2。,6.条件期望的性质,性质CE.2 对任意函数a(X)和b(X), 有 例如,我们能很容易地计算像XY+2X2这种函数的条件期望:,6.条件期望的性质,性质CE.3 若X和Y相互独立,则E(Y|X)=E(Y)。 这个性质意味着,若X和Y相互独立,则Y在给定X时的期望值与X无关,这是E(Y|X)必定等于Y的(无条件)期望。在工资与教育一例中,假设工资独立于教育,则高中毕业生和大学毕业生的平均工资便相同。这几乎无疑是错误的,所以我们不能假定工资与教育是独立的。,6.条件期望的性质,性质CE.4 EE(Y|X)=E(Y)。 这个性质意味着,如果我们先把E(Y|X)看做X的函数,再求这个函数的期望值,那么结果就是E(Y)。 例:令Y=WAGE和X=EDUC,其中WAGE为小时工资,而EDUC为受教育年数。假定给定EDUC下WAGE的期望值是E(WAGE|EDUC)=4+0.6EDUC,且E(EDUC)=11.5。则有E(WAGE)=E( 4+0.6EDUC )=4+0.6 E(EDUC)=10.90美元/小时。,6.条件期望的性质,性质CE.5 若E(Y|X)=E(Y),则Cov(X,Y)=0(因而Corr(X,Y)=0。事实上X的每个函数都与Y不相关。 该性质的含义是,若对X的了解不能改变Y的期望值,则X和Y必然不相关。 注意:此性质的逆命题不成立。若X和Y不相关, E(Y|X)仍然可能取决于X。,6.条件期望的性质,1.正态分布 正态分布和由它衍生出来的分布是统计学和计量经济学中最广泛使用的分布。假定在总体上定义的随机变量是正态分布,将使概率计算得以简化。,五、正态及其有关分布,图 正态概率密度函数的一般形状,当连续的随机变量的概率密度函数形式为时,称X的分布为正态分布,记为X ,密度函数中 和 是X的数学期望和方差。当 和 时,称X服从标准正态分布,记为X 。,表正态分布与标准正态分布,图 标准正态分布的分布函数,卡方分布( 分布)是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。1.卡方分布的数学形式 设随机变量X1,X2,Xk,相互独立,且都服从同一的正态分布N (,2)。那么,我们可以先把它们变为标准正态变量Z1,Z2,Zk,k个独立标准正态变量的平方和被定义为卡方分布( 分布)的随机变量( 读作卡方),六、卡方分布,X即所谓具有n个自由度(degrees of freedom,df)的 分布。自由度概念在我们计量经济学中扮演着重要角色。,1.卡方分布的数学形式,t分布在经典统计学和多元回归分析中广为应用:它可以从一个标准正态和一个 分布得到。 设Z服从标准正态分布,而X服从自由度为n的 分布。于是,随机变量便服从自由度为n的t分布,记为Ttn。t分布的自由度得子分母中的 随机变量。 t分布的特点是:左右对称;当n很大时,非常接近正态分布。,七、t分布,如果随机变量X服从标准正态分布N(0,1);随机变量 服从自由度为n、方差为2n的 分布。并且X和 相互独立,则统计量:,服从t分布(注:可以将分子理解为符合正态分布的参数,分母看作其标准差。,对于从标准正态分布中的总体中抽的容量为n的简单随机样本,其样本均值 与样本标准差S构成如下统计量。,服从自由度为n-1的t分布,记为tt(n-1)。注意:这里的分母是子样标准差除以自由度,实际上是子样均值的标准差!只有这样才与分子保持一致性。分子被平均了,分母当然也要平均!,t分布在小样本(n30)统计推断中占有重要的地位。,T分布图形:正态分布相当于标准差为1的t分布。而t分布的标准差多小于1。因而出现这种尾部肥大的现象。,正态分布,T分布,统计学和计量经济学中的另一重要分布是F分布。特别是在多元回归分析中,要用F分布去检验假设。 为了定义F随机变量,令 和 ,并假定X1和X2独立,则随机变量服从一个自由度为(k1,k2)的F分布。记为 。F分布即是两个消去自由度的 分布变量的比值,八、F分布,如果随机变量Xi(i=1,2,3,n),Yi(i=1,2,3,n)是相互独立的,而且服从相同的正态分布 。令,则统计量,服从第一自由度,、第二自由度,的F分布。记为FF(,),注:F分布在方差分析中有着重要的作用。例如判断两个正态分布总体的方差是否有显著差异,需要利用F分布。其分子与分母其实是两个方差,在进行回归检验时正是利用F函数这个特点。,九、分位点,(1)标准正态分布双侧分位点,(1)标准正态分布单侧分位点,(2) 双侧分位点,(2) 单侧分位点,(3) T分布的双侧分位点,图2-9 T分布的双侧分位点,(3) T分布的单侧分位点,(4) F分布的双侧分位点,(4) F分布的单侧分位点,表 随机变量分布的比较,一、总体、参数与随机抽样 统计推断指利用来自总体的一个样本而获知该总体的某些情况。所谓总体,指任何定义完好的一组对象,这些对象可以是个人、企业、城市或其他诸多可能性。所谓“获知”,可以有很多含义,但大致归类为估计和假设检验两个范畴。,第三节 数理统计基础,1、点估计用某一数值作为参数的近似值2、区间估计在要求的精度范围内指出参数 可能的取值范围,例1:劳动经济学家想了解中国全体就业成人的教育回报,问再多受一年教育,工作平均增加的百分数是多少? 要获得中国全体就业人口的工资和教育信息既不现实又不经济,但我们可以获得总体中的一个子集的数据。利用收集到的这些数据,一位劳动经济学家也许能报告他对再受一年教育的回报的最好估计为7.5%。这就是点估计的一个例子。或者,他想报告一个范围,比方说“教育的回报在5.6%9.4%之间”。这是区间估计的一个例子。,一、总体、参数与随机抽样,例2:城市经济学家想知道邻里犯罪计划是否与低犯罪率有关。经过在取自总体的一个样本中比较了安排和不安排监控计划的邻里犯罪率,他可以得到两结论之一:邻里犯罪监控计划对犯罪率确实有影响,或者没有影响。这个例子就属于假设检验的范畴。,一、总体、参数与随机抽样,统计推断的第一步就是要明确所关注的总体,而且一定要使之非常具体。一旦明确了总体是什么,就可对所关注的总体关系建立或设定一个模型。这个模型将涉及一些概率分布或概率分布的特征,而这又取决于一些未知参数。所谓参数,就是决定变量关系之方向和强度的一些常数。 如劳动经济学的例子中,所关注的参数是总体中的教育回报(率)。,一、总体、参数与随机抽样,令Y为一个随机变量,代表着概率密度函数为f(y;)的一个总体,其中f(y;)依赖于单个参数 。假定除了值未知外,Y的概率密度函数pdf是已知的。不同的值将意味着不同的概率分布,因此我们对值感兴趣。如果我们能得到该总体的某种样本,就能了解的某些情况。最容易处理的抽样方案是随机抽样。,抽样,若Y1,Y2,Yn是具有同一概率密度函数f(y;)的独立随机变量,我们称 为来自f(y;)的随机样本或者说来自由所代表的总体的一个随机样本。 当 是来自密度f(y;)的一个随机样本时,我们又称Yi是取自f(y;)的独立同分布样本。,抽样,“有限样本”一词来自如下事实:无论样本容量如何,所讨论的性质对任何样本容量都成立。有时把这些性质叫做小样本性质。1.估计量与估计值 给定一个随机样本 ,它来自一个取决于某未知参数的总体分布, 的一个估计量就是赋予样本每个可能结果一个值的法则。这个法则在进行抽样之前就已经确立,具体而言,无论实际得到什么样的数据,这个法则都不会改变。,二、估计量的有限样本性质,作为估计量的一个例子,令 为取自均值为的总体的一个随机样本。的一个估计量,就是这个随机样本的均值 我们把 叫做样本均值,但是它不同于我们在代数知识中作为一个描述统计量而定义的一个数集的样本均值。这里是一个估计量。给定随机变量Y1,Y2,Yn的任何一种结果,我们都用同样的法则去估计 :取其平均。对于实际结果 ,估计值就是该样本的均值:,1.估计量与估计值,假设我们得到美国10个城市的如下失业率样本:,例:城市失业率,我们对美国平均城市失业率的估计值是 。 一般地说,每个样本都有一个不同的估计值,但是求估计值的法则是一样的,不管在样本中出现的是哪些城市,也不管样本中有多少个城市。,一个估计量的第一个重要性质就是关于它的期望值。 无偏估计量: 若的估计量W对一切可能的值,都有 E(W)= 则W是一个无偏估计量(unbiased estimator),2.无偏性,一个估计量若是无偏的,则其概率分布的期望值就等于它所估计的参数。无偏性并不是说我们用任何一个特定样本得到的估计值等于,或者很接近。而是说,如果我们能够从总体中抽取关于Y的无限多个样本,并且每次都计算一个估计值,那么将所有随机样本的这些估计值平均起来,我们便得到。由于在大多数应用中,我们仅使用一个随机样本,所以这个思维实验有点抽象。,2.无偏性,一个估计量的无偏性和可能偏误的大小取决于Y的分布和函数h。通常,Y的分布不是我们所能控制的(虽然我们常常为这个分布选择一个模型):它由自然规律或社会力量来决定。但法