计量经济学第二讲-计量经济分析的统计学基础.ppt
《计量经济学第二讲-计量经济分析的统计学基础.ppt》由会员分享,可在线阅读,更多相关《计量经济学第二讲-计量经济分析的统计学基础.ppt(109页珍藏版)》请在三一办公上搜索。
1、Friday,7 March 2008,CUFE,傅 强经济学博士经济社会仿真实验室主任电话:8610-62288971二八年三月七日,第二讲计量经济分析的统计学基础,计量经济学,Friday,7 March 2008,CUFE,计量经济分析的统计学基础,本章是对计量经济学所用到的统计学概念和方法作一概括性的回顾,这些概念和方法对理解本书后面的内容是至关重要的。,Friday,7 March 2008,CUFE,概率的概念:一枚硬币有正、反两面,在抛之前出现正面还是反面的结果是无法确知的,但却可以依据硬币的物理特征为可能出现的结果指定一个概率。如一枚完好的硬币,它的正面和反面都有同等机会出现,
2、从而出现正面或反面的概率是2种情况中的一种,所以是1/2。,第一节、概率和概率分布,数学概率和统计概率:数学概率:不靠试验而从理论上求得的概率。统计概率:从多次试验得到的概率。统计概率与数学概率相近的是大数法则。,Friday,7 March 2008,CUFE,一、概率的概念,随机试验和事件:随机试验是导致至少两种可能结果的过程,并且在此过程中将出现何种结果是不确定的。样本空间或总体:一个随机试验的所有可能结果的集合。样本点:样本空间的每个成员。事件:样本空间的子集。互不相容或互斥事件:两个事件中一个事件的发生排除另一个事件的发生。完备事件:若干个事件包罗了一个试验的所有可能的结果。,Fri
3、day,7 March 2008,CUFE,一、概率的概念,总体和样本:给定的一组观测值通常被视为是从某个更大的总体中抽取的一个样本。总体可以是有限的,也可以是无限的。有限总体可能很大,也可能很小。为计算方便,大总体有时可假定为无限总体。样本是总体的一部分。之所以需要抽取样本,是因为在有些情况下,当分析某个变量的特征时,涉及的总体容量太大,以至于不可能对整个总体进行检查;或者这样做耗费太大,因而只能使用观测样本。样本是总体的代表。假定样本能够反映要研究的总体特征,因此可以依据样本来推断总体。例如,为研究所有北京人的平均收入,很显然需要全体北京人(总体)的数据。可是,要收集每个人的收入是一件很困
4、难的事。在实践中,可以抽取一个由5000人组成的随即样本,然后计算这5000人的平均收入,作为北京人的真实平均收入的估计值。,Friday,7 March 2008,CUFE,一、概率的概念,Friday,7 March 2008,CUFE,一、概率的概念,概率的性质:0P(A)1对所有A成立。P(A)=0 表明事件A是不可能事件;P(A)=1 表明事件A是必然事件。一般情况下,概率值在01之间。,若A,B,C,是完备事件集,则P(A+B+C+)=1。其中:A+B+C的含义是A或B或C,等等。,若A,B,C,是互不相容事件,则P(A+B+C+)=P(A)+P(B)+P(C)+。,Friday,
5、7 March 2008,CUFE,二、随机变量与概率分布,随机变量:可以在一个特定的数集中按一定概率取值的变量。“A random variable is a variable that takes on alternative values,each with a probability less than or equal to 1.”Pindyck,R.S.et.Al.(1991,p.19),离散随机变量:只能取某些离散值。“A discrete random variable may take on only a specific number of real values”,Pin
6、dyck,R.S.et.Al.(1991,p.19)如:掷骰子所得点数(1,2,3,4,5,6)。,随机变量通常用大写字母X,Y,Z来表示,它们所取的值用小写字母x,y,z等表示。,连续随机变量:可以取一个有限(或无限)区间所有值。“A continuous random variable may take on any value on the real number line”,Pindyck,R.S.et.Al.(1991,p.19)如:零件的直径。,Friday,7 March 2008,CUFE,二、随机变量与概率分布,随机变量的概率分布和概率密度函数:一个随机变量的概率分布:是该随
7、机变量取给定值或属于一给定值集的概率所确定的函数。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布即完全被确定。“We can describe a random variable by examining the process which generates its values.This process,called a probability distribution,lists all possible outcomes and the probability that each will occur.”Pindyck,R.S.e
8、t.Al.(1991,p.19),Friday,7 March 2008,CUFE,二、随机变量与概率分布,Friday,7 March 2008,CUFE,二、随机变量与概率分布,连续随机变量的概率密度函数(PDF,probability density function):设X为连续随机变量,且满足下列条件:f(x)0 f(x)dx=1 f(x)dx=P(axb)则f(x)称为X的概率密度函数,其中P(axb)表示X位于区间(a,b之中的概率。,-,b,a,连续随机变量与离散随机变量不同,X取任何指定值的概率被认为是零,只有取某一范围(或区间)的值的概率值才有意义。,Friday,7 Ma
9、rch 2008,CUFE,三、概率分布的特征,概率分布常用两个概括性测度期望值(集中趋势测度)和方差(离散测度)来描述。,期望值(expected value):离散随机变量X的期望值,记作E(X),也叫做它的均值,记作x,定义为:xE(X)=p1X1+p2X2+pNXN=piXi 或xE(X)=xf(x)式中,pi=1,f(x)为X的概率分布函数。由上述定义不难看出,随机变量的期望值是其所有可能的值的加权平均,权数是这些值的概率。连续随机变量的期望值定义为:xE(X)=xf(x)dx 它与离散随机变量期望值的唯一区别是用积分号代替求和号。,N,i=1,x,-,Friday,7 March
10、2008,CUFE,三、概率分布的特征,期望的性质(properties of the expectations operator):若b为常数,则E(b)b;设X为随机变量,a和b为常数,则 E(aX+b)=aE(X)+b;设X为随机变量,a为常数,则E(aX)2=a2E(X2);若X和Y为独立随机变量,则 E(XY)=E(X)E(Y)。,Friday,7 March 2008,CUFE,三、概率分布的特征,方差(variance):一随机变量的方差通常用来度量该随机变量诸值对其均值的离散趋势。(The variance of a random variable provides a mea
11、sure of the spread,or dispersion,around the mean.)设X为一随机变量,且E(X)=,则X的方差,记作2,定义为:Var(X)=2=E(X-)2。2的正平方根称为X的标准差。方差和标准差都是用来描述随机变量诸值的分散程度。方差可用下式计算:若X为离散随机变量,则:Var(X)2=piXi-E(X)2;或Var(X)2=(X-)2f(x)。若X为连续随机变量,则:Var(X)2=(X-)2f(x)dx。,x,-,N,i=1,Friday,7 March 2008,CUFE,三、概率分布的特征,方差的性质(properties of the varia
12、nce):Var(X)E(X-)2=E(X2)-2;常数的方差为0;若a和b为常数,则Var(aX+b)=a2Var(X);若X和Y为独立随机变量,则 Var(X+Y)=Var(X)+Var(Y)。,Friday,7 March 2008,CUFE,三、概率分布的特征,联合概率是由对应于两随机变量发生的所有可能结果的一组概率来描述的。所有这些概率均为非负,且加总为1。,Friday,7 March 2008,CUFE,三、概率分布的特征,若X和Y为独立随机变量,则Cov(X,Y)=0。注:两随机变量的协方差可能为0,但彼此并不独立。,所有观测值假定拥有同一概率(1/5)。在这种情况下,E(X)
13、=0,E(Y)=2,且Cov(X,Y)=Xi(Yi-2)=0。但显然X和Y并不独立。实际上,Y=X2。,5,i=1,Friday,7 March 2008,CUFE,三、概率分布的特征,相关系数(correlation coefficient):两随机变量X和Y的总体相关系数xy定义为:xy,相关系数与变量单位无关,是度量两变量之间线性关系强度的测度,其值在1和1之间,即11。,Cov(X,Y)Cov(X,Y),Var(X)Var(Y)xy,_,0 xy1,-1xy0,xy=0,Friday,7 March 2008,CUFE,三、概率分布的特征,相关变量的方差设X和Y是两随机变量,则:Var
14、(X+Y)=Var(X)+Var(Y)+2Cov(X,Y);Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)。,证明:,Friday,7 March 2008,CUFE,四、样本均值、方差、协方差和相关系数,所谓无偏估计量是指待估计参数的估计量的期望值等于参数本身。,样本方差(sample variance)和标准差(sample standard deviation)随机变量X的方差及其标准差的一个无偏估计量定义为样本方差:样本标准差:,Friday,7 March 2008,CUFE,四、样本均值、方差、协方差和相关系数,Pindyck,R.S.and D.L.Rubinf
15、eld(1998),Econometric Models and Economic Forecasts 4th ed.,pp.24-5:“Why do we divide by N-1(rather than N)to get an unbiased estimate of the sample variance?an intuitive answer can be based on the concept of degrees of freedom.Our sample is known to contain N data points.However,in computing the sa
16、mple variance a necessary first step was the computation of the sample mean.This places one constraint upon the N data points,that the N observations sum to N times the computed mean.This leaves N-1 unconstrained observations with which to estimate the sample variance.”,Friday,7 March 2008,CUFE,四、样本
17、均值、方差、协方差和相关系数,样本协方差(sample covariance)测量X和Y的观测值共变(一起变动)程度的一个测度,定义为:,样本相关系数(sample correlation coefficient)更为常用,定义为:式中:Sxy为X和Y的协方差;Sx和Sy分别为X和Y的标准差。,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,二项分布(Binomial Distribution)普哇松分布(Poisson Distribution)正态分布(Normal Distribution)2分布(2 Distribution)t分布或学生分布(t Dist
18、ribution or Student Distribution)F分布(F Distribution),Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,二项分布(Binomial Distribution)若离散随机变量X取值0,1,n,并存在数p(0p1),使:P(X=k)=Cnkpk(1-p)n-k;k=0,1,n 则称X服从二项分布,此时有:E(X)=np;Var(X)=np(1-p)。,Friday,7 March 2008,CUFE,二项分布(Binomial Distribution),举例:柏努利试验:抛硬币n次,每次试验具有如下特征。每次试验出现
19、的结果是不确定的;每次试验有互相排斥的两种可能结果(H和T);每次试验与其他任何试验无关;正反两面出现的概率,P(H)=和P(T)=1-,在历次试验中保持不变。,Daniel Bernoulli(1700-1782,瑞士物理学家,数学家),X=出现正面的次数,p(X=2)=32(1-)。现考虑抛n次硬币出现k次正面的情形:HHH TTT 有概率(1-)(1-)(1-)=k(1-)n-k。,K,n-K,K,n-K,列出所有可能的次序(即组合)比如:当n=3,k=2时,,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,普哇松分布(Poisson Distributio
20、n)若离散随机变量X取值0,1,2,,并存在数(0),使:P(X=k)=e-;k=0,1,2,则称X服从普哇松分布,此时有:E(X)=;Var(X)=。,k,k!,Simon-Denis Poisson(1781-1840),法国数学家,Friday,7 March 2008,CUFE,普哇松分布(Poisson Distribution),举例:大连港区1979年载货500吨以上船只共到达1271艘(不包括定期到达的船舶),到达统计分布表列于下表上。首先根据原始资料做出船舶到达的分布表,然后按照统计学方法确定其符合于那种理论分布,并估计它的参数。,表2:船舶到达分布表,Friday,7 Ma
21、rch 2008,CUFE,图4:到达数经验分布,普哇松分布(Poisson Distribution),Friday,7 March 2008,CUFE,平均到达率()=3.48(艘/天)这种分布为泊哇松分布(推导略)。平均间隔1/3.48天有一艘船到达。,普哇松分布(Poisson Distribution),到达总数,总天数,1271,365,Friday,7 March 2008,CUFE,泊哇松分布的故事他怎么啦?,Friday,7 March 2008,CUFE,十九世纪时,巴特开惠茨根据普鲁士骑兵队的统计报告,对十个骑兵连中的骑兵在二十年中被马踢死的记录作了分析。这样,他的观察数
22、值有10*20=200个(每年对每个连队作一个记录),他作了一个表,列出死亡人数的分布情况。问题:你也能列个表吗?,泊哇松分布的故事,Friday,7 March 2008,CUFE,从这个表里可以看出,死亡事件共 0*109+1*65+2*22+3*3+4*1=122(人次)。平均每连队每年死亡人次为=Ex=122/200=0.61可见,被马踢死的概率很小啊!为单位时间内的平均死亡人数。,泊哇松分布的故事,Friday,7 March 2008,CUFE,再依据POISSON PROCESS计算其频率:P(X=k)=e-;k=0,1,2,P(X=0)=e-0.61=0.544P(X=1)=0
23、.61e-0.61=0.331P(X=2)=0.612e-0.61/2!=0.101P(X=3)=0.613e-0.61/3!=0.021P(X=4)=0.614e-0.61/4!=0.003简直太相似了!,k,k!,泊哇松分布的故事,Friday,7 March 2008,CUFE,五、几个重要的理论概率分布,正态分布(Normal Distribution)若一个连续随机变量X的概率密度函数为:(0);-X+则称X服从正态分布,并记为XN(,2),此时有:、e是常数。,Friday,7 March 2008,CUFE,正态分布的性质(Properties of the Normal)关于其
24、均值()的对称性,正态分布(Nominal),正态分布(Normal Distribution),Lower Spec Limit,Upper Spec Limit,对称钟型,X,-3,-2,-,2,3,Friday,7 March 2008,CUFE,正态分布的性质(Properties of the Normal)正态曲线下的面积:大约68的面积位于之间,大约95的面积位于2之间,大约99.7的面积位于3之间。,95.46%,68.26%,正态分布(Nominal),正态分布(Normal Distribution),Lower Spec Limit,Upper Spec Limit,99
25、.74%,X,-3,-2,-,2,3,34%,34%,14%,14%,2%,2%,Friday,7 March 2008,CUFE,Mean,2 Parts per Billion,Cp(Process Capability Index)=2,Lower Specification Limit,Upper Specification Limit,Six Sigma Is Virtual Perfection,Defects,Defects,99.9999998%,Friday,7 March 2008,CUFE,正态分布的性质(Properties of the Normal)正态分布完全被它
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 经济学 第二 经济 分析 统计学 基础
链接地址:https://www.31ppt.com/p-6343174.html