《统计基础知识》PPT课件.ppt
《《统计基础知识》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《统计基础知识》PPT课件.ppt(141页珍藏版)》请在三一办公上搜索。
1、第2章 统计基础知识,学习目标 知识目标:系统复习概率论与数理统计基础知识,为计量经济学的学习打下基础。技能目标:通过本章复习,能以有效地方式获得、整理和分析受到随机性影响的数据,并以这些数据为依据,建立有效地数学模型,去揭示所研究问题的统计规律性。能力目标:本章先后阐述了数据特征数以及统计学中的参数估计、假设检验和经济指数,通过学习本章知识,能构建概率统计基本知识框架,理解相关概念,为计量经济学知识的学习做好知识储备。,第2章 统计基础知识,2.1 数据特征数 2.2 总体特征数的点估计与区间估计 2.3 参数估计 2.4 假设检验 2.5 经济指数,2.1 数据特征数,2.1.1 数理统计
2、的基本概念2.1.2 画图2.1.3 算数平均数2.1.4 几何平均数2.1.5 中位数2.1.6 极差,2.1.7 方差2.1.8 标准差2.1.9 偏度2.1.10 峰度2.1.11 协方差2.1.12 相关系数,2.1.1 数理统计的基本概念,总体:在数理统计中,常把被考察对象的某一个(或多个)指标的全体称为总体(或母体)。个体:总体中的每一个单元称为个体。总体容量:总体中所含个体的个数。样本:我们把从总体中抽取的部分样品称为样本。,样本容量:样本中所含个体的个数称为样本容量,一般用n表示。特征数:用于描述一组数据(总体或样本)特征的数值称为特征数。事件:在随机试验中,可能出现也可能不出
3、现,而在大量重复试验中具有某种规律性的事件叫做随机事件,简称事件。,概率:如果在n次试验中(或n个观察值中),事件A出现了m次,假定试验的次数n足够多,那么事件A发生的概率P(A)就等于m/n。,随机变量:在设=为随机试验的样本空间,对于每一个样本点,有一个实数X=X()与之相对应,这样,就得到一个定义在上的单值实函数 X=X(),且对任何一个实数x,|X=X()x,是随机事件,称 X()为随机变量。,累计求和算子:对于T个观测值,x1,x2,xT,累计求和可以简化地表示为,其中()称为累计求和算子,用大写希腊字表示。的下标t=1和上标T表示xt从x1累计加至xT。,累计求和算子的运算规则有以
4、下几个方面:(1)观测值倍数的累加和等于观测值累加和的倍数。,式中,k是常数,xt是观测值。(2)两组观测值相应求和(或差)的累加和等于它们分别求累加和后再相加(或相减)。,(3)T个常数k求和等于该常数k与T的乘积。,式中,k是常数。(4)用双下标表示的TT个观测值的累加和可以用双重累加和符号表示为,(5)两组观测值相应求和的双重累加和等于它们各自双重累加和的和。,(6)两组不同单下标观测值积的双重累计求和等于它们各自累计求和的乘积。,2.1.2 画图,直方图 直方图分频数直方图和频率直方图两类。直方图用横轴表示观测值,并把横轴分成若干个区间(每个区间的宽度称为组距);用纵轴表示落在相应区间
5、内的观测值频数(个数)或频率,并用矩形(长方形)表示组频数或组频率。,画直方图的步骤是先依据原始数据大小排序,然后制作分组数据频数(频率)分布表,然后按频数(频率)分布表画图。,例2-1 20个新生儿体重值(克)数据见表2-1,画20个新生儿体重值的频数(频率)直方图。,表2-1 20个新生儿体重值分组数据频数(频率)分布,首先把这20个新生儿的体重值按从小到大顺序排列。把观测值的取值范围按22502500,2500 2750,27503000,3000 3250,,32503500,35003750,37504000分成7组。,记录这20个观测值分别落在这7个组内频数(个数)。结果分别是1,
6、2,2,8,3,3,1。用总观测值个数20除每个组频数,得组频率值分别是0.05,0.10,0.10,0.40,0.15,0.15,0.05。用上面的结果制成频数(频率)分布表(见表2-2)。,表2-2 20个新生儿体重值分组数据频数(频率)分布,以组距为一条边,以频数(频率)值为另一条边,画矩形(长方形)构成的图就是直方图。,图 2-1 频数分布直方图 图2-2频率分布直方图,注意:(1)频数、频率直方图所展示的数据分布特征是一样的,只不过前者的纵轴表示的是频数、后者纵轴表示的是频率。,(2)当观测值正巧等于组边界值时,注意不要在相邻两组中重复记录频数。(3)同样一组数据由于分组数不同,因此
7、所画频数、频率直方图的特征会不一样。(4)很多专用软件都具有画直方图的功能,非常方便。用EViews软件画直方图的步骤是:打开单数据窗口,点击View/descriptive Statistics&Tests/Histogram and Stats功能。,折线图 折线图:把观测点按序号或时间顺序用直线连接起来的图形。对于截面数据,横轴表示观察值的序号,纵轴表示观测值。对于时间序列数据,横轴表示时间,纵轴表示观测值。时间序列折线图也称时间序列图。,图2-3是1976至1995年中国基本建设投资额变化时间序列图,通过这张图可以清晰地看到在该期间中国基本建设投资额一直处于上升的大趋势中。,图2-3
8、1976至1995年基本建设投资额变化时间序列图,用Eviews软件画折线图的步骤:打开数据窗口,点击View/Graph功能。在随后打开的Graph Options(画图选择)窗口中的Specific(图类设定)选项中选Line&Symbol(折线图),点击确定键。,散点图 散点图分平面(二维)散点图和空间(三维)散点图。散点图:用两个变量的成对观测值画出的观测点图。通过散点图可以分析两个变量之间是否存在某种关系。如果存在关系,那么这种关系是线性的,还是非线性的。,图2-4 1978-2000年GDP与CONS散点图,图2-4给出的是1978-2000年中国GDP(国内生产总值)与CONS(
9、居民消费支出)数据的散点图。通过散点图可以看出GDP高的年份,CONS也更高,GDP与CONS呈线性关系,为建立线性回归模型提供依据。,用Eviews软件画折线图的步骤:打开数据窗口,点击View/Graph功能。在随后打开的Graph Options(画图选择)窗口中的Specific(图类设定)选项中选Scatter(散点图),点击确定键。Quick,Eviews 5,2.1.3 算数平均数,按不分组数据和分组数据两种情况介绍算术平均数。对于样本,算术平均数简称为平均数;对于总体则称为期望或均值。对于不分组数据,均值和算术平均数分别定义如下。,均值:一组数据,如果是总体,用x1,x2,xN
10、表示,容量为N,则均值定义为,(),式中,表示均值,x表示观测值,N表示总体容量。,算术平均数:一组数据,如果是样本,x1,x2,xn,容量为n,则算术平均数 定义为,(),式中,表示算术平均数,表示观测值,n表示样本容量。,算术平均数的性质:(1)观测值的和等于其平均数与观测值个数的乘积。,(),(2)一组观测值与其算术平均数的离差之和等于零,即,(),(3)一组观测值x1,x2,xn与某一定值A的离差平方和 的值以 时为最小。,这些性质对总体均值也适用。,用Eviews软件求算术平均数的操作:打开数据窗口,点击View键,选Descriptive Statistics/histogram
11、and Stats功能。计算结果中的mean就是算术平均数的值。如果输入数据是总体数据,则计算结果是的mean就是均值的值。,2.1.4 几何平均数,几何平均数定义:一组环比数据r1,r2,rk,个数(或称容量)为k,则几何平均数,(),例2-2 中国人口自然增长环比数据见表2-3。按式()计算,即20002004年期间中国人口自然增长年平均环比值是1.006 32,年平均增长率为6.32。,表2-3 中国人口自然增长环比数据,资料来源:中国统计年鉴2005,几何平均数有以下性质:(1)k个环比数据相乘等于k个几何平均数相乘,即,(2)对于环比数据,几何平均数 有代表性。若r0期观测值为x0,
12、则k个 与x0相乘等于k个环比数据 与x0相乘,即,2.1.5 中位数,中位数的定义(不分组数据情形):一组n个观测值,按数值大小排列,x1,x2,xn。处于中央位置的观测值称为中位数用Md表示。,(),中位数的性质:(1)当观测值出现重复的现象不多时,中位数意味着比它小的观测值个数有一半,比它大的观测值个数也有一半。(2)一组数据xi与某一定值A的绝对离差之和 以A=Md 时取值最小(证明略),即 取最小值。(3)用中位数评价一组数据时,不易受离群值影响。,注意:(1)中位数是观测值(在横轴上)的特征数,而不是指观测值的频数,初学者容易混淆。(2)求中位数之前,应先将观测值按大小顺序排列。,
13、用Eviews软件求中位数的操作:打开数据窗口,点击View键,选Descriptive Statistics/histogram and Stats功能。计算结果中的median就是中位数的值。,2.1.6 极差,极差定义:设一组数据为x1,x2,xn,则极差R定义为,(),式()中,xmax,xmin分别表示该组数据中的极大值和极小值。极差也称全距。极差表示一组数据的最大取值范围。,Eviews软件求极差的操作:打开数据组窗口。点击View键,选Descriptive Statistics/histogram and Stats功能。用得到的极大值与极小值相减。,运用极差评价一组数据分散程
14、度的优点是计算简便,缺点是极差没有考虑到一组数据处于中间位置的各观测值得分布情况。见图2-5,两组数据的极差相等,但数据分布并不一样。,图2-5 极差相同的两组数据,2.1.7 方差,方差分总体方差和样本方差。总体方差:对于不分组数据x1,x2,xN,总体方差定义是,(),式中,2表示总体方差,表示总体均值,N表示总体容量。,总体方差定义的是一组数据对其均值的平均离差平方和。方差考察的是一组数据的平均离散程度。,样本方差:对于不分组数据x1,x2,xn,样本方差的定义是,(),式中,s2表示样本方差,表示样本均值,n表示样本容量。,Eviews软件求方差的操作:Eviews计算的是样本方差。打
15、开数据组窗口,点击View,选Covariances功能。处于主对角线上的元素是方差。或者选Descriptive Statistics/histogram and Stats功能。计算结果中Std.Dev(标准差)的平方就是方差的值。当n=N时,则数据x1,x2,xn就是总体数据。根据总体方差、样本方差的定义,知:总体方差为,其中s2是样本方差。,2.1.8 标准差,总体标准差:,(),式中,表示总体标准差,xi表示观测值,表示总体均值,N表示总体容量。,样本标准差定义:,(),式中,s表示样本标准差,xi表示观测值,表示样本均值,n表示样本容量。,标准差考察的也是一组数据的平均离散程度,而
16、且测量单位与观测值的测量单位相同。Eviews软件求样本标准差的操作:打开数据组窗口,点击View,选Descriptive Statistics/histogram and Stats功能,Std.Dev.就是样本标准差的值。,偏度,总体偏度:对于单峰分布数据,总体峰度的定义是,(),式中,S表示总体偏度,xi表示观测值,表示xi的均值,表示xi的总体标准差,N表示总体容量。,偏度S是xi的3阶矩。由公式知,若分布是以对称的,则偏度为0,所以若xi服从正态分布或t分布,则偏度为0;若分布式右偏倚的,如2分布,则偏度S0;若分布式左偏倚的,则偏度S0。,样本偏度:对于单峰分布数据,样本偏度的定
17、义是,(),式中,表示样本偏度,xi表示观测值,表示样本平均数,表示样本标准差的估计值,n表示样本容量。,样本偏度 是对总体偏度S的有偏估计。偏度描述观测值(数据)分布的不对称程度。,Eviews软件求样本偏度的操作:打开数据组窗口,点击View,选Descriptive Statistics/histogram and Stats功能,Skewness就是偏度值。,2.1.10 峰度,当一组数据的分布为对称态时,峰值的高低、尾部的薄厚也是一个值得关注的特征。总体峰度:对于单峰分布数据,总体峰度定义是,(),式中,K表示总体偏度,xi 表示观测值,表示xi的均值,表示xi的总体标准差,N表示总
18、体容量。,峰度是xi的4阶矩。峰度K用来描述数据分布在尾部的厚薄程度。可以证明,峰度值为3。如果一个分布的两侧尾部比正态分布的两侧尾部“厚”,则该分布的峰度值K3,反之则K3。,样本峰度:对于单峰分布数据,样本峰度的定义是,(),式中,表示样本峰度也称样本峭度,xi表示观测值,表示样本平均数,表示样本标准差的估计值,n表示样本容量。,样本峰度是总体峰度的有偏估计。,Eviews软件求样本峰度的操作:打开数据组窗口,点击View,选Descriptive Statistics/histogram and Stats功能,Kurtosis对应的就是峰度值。,2.1.11 协方差,总体协方差:设有一
19、组成对数据,xi,yi,i=1,2,N,则总体协方差定义是,(),式中,Cov表示总体协方差,xi,yi表示观测值,x,y分别表示xi,yi的均值,N表示总体容量。,样本协方差:设有一组成对数据,xi,yi,i=1,2,n,则样本协方差定义是,(),式中,表示样本协方差,是对总体协方差的估计。xi,yi 表示观测值,分别表示xi,yi的样本平均数,n表示总体容量。,Eviews软件求样本协方差的操作:打开数据组窗口,点击View,选Covariances功能。非主对角线上的数值是样本相应两个变量的协方差。,2.1.12 相关系数,相关分析是研究两组或多组数据间相互关系的最基本方法。从相关分析中
20、引出的相关系数是一个重要的特征数。,(1)相关的定义与分类 相关:指两个或两个以上变量(两组或两组以上数据)间相关关系的程度或强度。相关按强度分为4类:完全相关;高度相关(强相关);弱相关;零相关。,完全相关意味着两个变量存在函数关系。如Y=2X,Y与X为完全相关关系(如图2-6)。高度相关意味着两个变量(两组数据)间存在近似线性函数关系。如我国家庭收入与支出的关系,相关性非常强(如图2-7)。,图 2-6 完全相关 图2-7 高度相关,弱相关意味着两个变量(两组数据)间有关系但不明显。如近年来我国耕地面积与农作物产量之间的关系属于弱相关关系(见图2-8)。零相关意味着两个变量(两组数据)间不
21、存在任何关系。如一个班级中学生的学习成绩与年龄的关系属于零相关关系(见图2-9)。,图 2-8 弱相关 图2-9 零相关,相关按变量个数可以分为简单相关和复相关。简单相关是指两个变量间的相关。两个变量间的相关又可以分为线性相关(见图2-7)和非线性相关(见图2-10);按符号可分为正相关、负相关、零相关,分别见图2-7、图2-11和图2-9。,图 2-10 非线性相关 图2-11 负相关,复相关(或称多重相关、偏相关)是指三个或三个以上变量间的相关。,(2)简单线性相关度量 相关系数是反映两个变量间相互的直线关系,并可以判断两个变量的密切程度。用简单线性相关系数,简称相关系数,可以衡量两个变量
22、间的线性相关程度。,总体简单线性相关系数用表示,样本相关系数用r表示。总体相关系数的统计定义是,(),式中,N是总体容量,xi,yi是变量的观测值,x,y 是变量的均值。,样本相关系数r的定义是,(),式中,分别表示xi,yi的均值,n表示总体容量。样本相关系数r是对总体相关系数的估计。,(3)相关系数性质;,即表示两个变量严格服从线性相关;,表示两个变量完全不存在线性关系。,(4)线性相关系数的局限性 线性相关系数只适用于考察变量间的线性相关关系。变量不相关与变量相互独立在概念上是不同的。,相关系数的计算是一个数学过程。所以在计算相关系数的同时,还要强调对实际问题的分析与理解。,一般来说,两
23、个变量相关时,可能属于以下情形之一:a)两个变量属于单向因果关系。b)两个变量属于双向因果关系。c)隐含因素同时影响两个变量变化。d)两个变量属于虚假相关。,Eviews软件求相关系数的操作:打开数据窗口。点击View,选Correlations功能。,2.2 总体特征数的点估计与区间估计,2.2.1 抽样的基本概念 几何统计量的抽样分布,2.2.1 抽样的基本概念,为研究某个经济问题,需要收集数据。收集数据的方式有两种,一种是做全面调查,一种是做抽样调查。全面调查就是把研究对象的全部逐一进行调查而获得全部信息,全面调查也称普查。抽样调查就是调查研究对象的一部分,通常是一小部分,而通过这一小部
24、分推断研究对象的总体信息。,取得样本的过程叫做统计抽样,简称抽样。样本存在两重性:(1)样本特征在某种程度是反映了总体特征;(2)样本又不能完全精确地反映总体特征。要想让样本最大限度地反映总体特征,就必须从两个方面努力:一是抽样方法,即解决怎样抽样(包括方式和容量)才能更合理地反映出总体特征的问题;二是统计推断,即利用样本如何对总体的特征数进行科学的推断。,2.2.2 几何统计量的抽样分布,统计量:样本X1,X2,Xn的函数f(X1,X2,Xn)称为统计量。统计量的分布称作抽样分布。,样本平均数 的期望与方差分别是:,其中、2是总体均值和方差。,若样本用X1,X2,.,Xn表示,则样本平均数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计基础知识 统计 基础知识 PPT 课件
链接地址:https://www.31ppt.com/p-5568400.html