《统计学复习》PPT课件.ppt
统计学 Statistics for Business and Economics,什么是统计学?,不列颠百科全书 统计学是一门收集、分析、表述和解释数据的科学。,统计学的特点,以归纳为主要思维方式的统计不是以演绎为主的数学。从整体观念出发,研究大量普遍存在的整体特征,说明事物的规律性。研究客观事物数量方面的方法论科学。,统计学的分科,统计学的分科,总体、个体和样本,总体(population),所研究对象的全体。分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的个体(individual),或总体单位,组成总体的元素。样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量,参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值只要总体不发生改变,总体参数不会改变总体参数通常用希腊字母表示 统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数大小取决于所抽取的样本样本统计量通常用小写英文字母表示,参数和统计量,平均数标准差比例,统计数据是对客观现象计量的结果。,数据的计量尺度,一、数据的计量尺度,由低级到高级分为四个层次,二、抽样调查,从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。,抽样方法,简单随机抽样,分层抽样,整群抽样,系统抽样,多阶段抽样,概率抽样,非概率抽样,抽样方式,误差,抽样误差由抽样随机性造成,只存在于概率抽样中。(样本的特征不一定和总体完全一样,这种差异不是错误而是必然会出现)非抽样误差覆盖误差被调查总体范围被人为减小无响应误差调查回收率太低响应误差没有反映真实观点(理解有误,有意欺瞒)道德误差调查人员缺乏业务培训或职业道德测量误差测量工具不准确,一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。(一)实际抽样误差:,抽样误差(Sampling Error),(二)抽样极限误差,一定概率下抽样误差的可能范围(也称允许误差,误差幅度):,统计数据的收集方法,1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;3、电话调查:调查者利用电话同受访者进行语言交流以获取信息;4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。,调查方案设计,1、确定调查目的Why?2、确定调查对象和调查单位 Who?3、拟订调查项目和调查表What?-调查项目要少而精;-调查项目含义要明确;-尽可能做到各个调查项目之间有一定的联系。4、确定调查时间和期限 When?-调查时间是指调查资料所属的时间(时点或时期);-调查期限是指调查工作的起讫时间。5、编制调查的组织计划How?,第三章 描述性统计:数据的图表展示,第四章 描述性统计II:数值描述,数据分布的特征,集中趋势的度量,位置平均数,集中趋势的度量,离散程度的度量(变异度),异众比率极差四分位差方差和标准差离散系数,偏态,峰态,偏态与峰态分布的形状,推断统计,统计量和估计值,样本的(不包含未知总体参数的)函数称为统计量;统计量是随机变量,并有其分布。如果样本已经得到,把数据带入之后,统计量就有了一个数值,称为该统计量的一个实现(realization)或取值,也称为一个估计值(estimate)。,三种不同性质的分布,总体分布 样本分布 抽样分布,一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 样本统计量是随机变量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本,抽样分布(sampling distribution),考察样本均值的概率分布形式。分两种况:1)总体分布已知且为正态分布;2)总体分布未知;,(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值都为正态分布。,样本均值的抽样分布,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),(2)当总体分布未知时,需要用到中心极限定理(Central limit Theorem),经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本(large-sample-size)。,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值非正态分布,样本方差的分布,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的2分布,即,3、比例的抽样分布,1、期望值:,有限总体:,无限总体,2、标准差:,3、样本比例抽样分布的形状(Form of the sampling distribution of p)根据中心极限定理有:当样本容量增大时(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布。,区间估计则是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。,区间估计(Interval Estimation),抽样极限误差,一定概率下抽样误差的可能范围(也称允许误差,误差幅度):,置信区间的一般形式,点估计(临界值)(标准误差)临界值:根据置信水平和抽样分布确定标准误差:根据抽样分布确定,将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 表示为(1-为是总体参数未在区间内的比例常用的置信水平值有 99%,95%,90%相应的 为0.01,0.05,0.10,置信水平(置信度)(confidence level),置信区间(95%的置信区间),重复构造出的20个置信区间,点估计值,样本容量的确定,估计总体均值时样本容量的确定,估计总体均值时样本容量n为样本容量n与总体方差 2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与误差幅度的平方成反比与置信水平成正比 样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等,定义:误差幅度(边际误差)E=,根据比例区间估计公式可得样本容量n为,估计总体比例时样本容量的确定,未知时,可以选取试验样本估计总体比例;也可取使方差最大值p=0.5(此时波动性p(1-p)达到最大,可确保样本量满足要求。如果抽样水平超过了承受能力,只能牺牲置信水平或增加误差幅度E。),其中:,假设检验,什么是假设检验?(hypothesis test),先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理,假设检验的基本思想,.因此我们拒绝假设=50,样本均值,m,=50,抽样分布,H0,假设检验中的两类错误,1.第类错误(弃真错误)原假设为正确时拒绝原假设第类错误的概率记为被称为显著性水平2.第类错误(取伪错误)原假设为错误时未拒绝原假设第类错误的概率记为(Beta),显著性水平(significant level),1.是一个概率值2.原假设为真时,拒绝原假设的概率抽样分布的拒绝域3.表示为(alpha)常用的 值有0.01,0.05,0.104.由研究者事先确定,假设检验需要借助样本统计量进行统计推断,称为检验统计量。标准化结果原假设H0为真点估计量的抽样分布,检验统计量(test statistic),标准化的检验统计量,决策规则,给定显著性水平,查表得出相应的临界值z或z/2,t或t/2将检验统计量的值与 水平的临界值进行比较作出决策双侧检验:I统计量I 临界值,拒绝H0左侧检验:统计量 临界值,拒绝H0,一个总体参数的检验,方差分析,什么是方差分析(ANOVA)?(analysis of variance),检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等研究分类型自变量对数值型因变量的影响 一个或多个分类型自变量一个数值型因变量有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量,方差分析的基本思想和原理(两类误差),组内误差(within groups)因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差 组间误差(between groups)因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差,问题的一般提法,设因素有k个水平,每个水平的均值分别用1,2,k 表示要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0:1 2 k H1:1,2,,k 不全相等设1为零售业被投诉次数的均值,2为旅游业被投诉次数的均值,3为航空公司被投诉次数的均值,4为家电制造业被投诉次数的均值,提出的假设为H0:1 2 3 4 H1:1,2,3,4 不全相等,分析步骤提出假设构造检验统计量统计决策,单因素方差分析表(基本结构),关系强度的测量,变量间关系的强度用自变量平方和(SSA)占总平方和(SST)的比例大小来反映自变量平方和占总平方和的比例记为R2,即其平方根R就可以用来测量两个变量之间的相关性,方差分析中的多重比较(multiple comparison procedures),多重比较的步骤,提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)检验统计量:,相关分析和回归分析,相关分析及其假定,相关分析要解决的问题变量之间是否存在关系?(散点图)如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?(相关系数)样本所反映的变量之间的关系能否代表总体变量之间的关系?(显著性检验)为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量,相关系数(计算公式),样本相关系数的计算公式,或化简为,总体相关系数的计算公式,回归,回归是计量经济学的主要工具回归是研究一个因变量对一个或多个自变量的依赖关系的过程,其用意在于通过后者的设定去估计或预测前者的均值(总体均值)。,模型假定的简化,1)E()=0;(E(yi)=xi)2)对于所有的 i,Var()=.3)是服从正态分布N(0,)的.4)、(ij)是相互独立的.术语:这些假定意味着来自n个相互独立的同方差、但是期望不同的正态总体。,最小二乘估计(method of least squares),德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,线性回归模型的检验分二大类:,统计检验,计量经济检验,从统计学的角度检验所估计的样本回归函数的有效性,拟合优度检验,显著性检验,一元线性回归模型的检验,判定系数(coefficient of determination)的取值范围:0,1,越接近1,说明实际观测点离样本线越近,拟合优度越高。,样本拟合优度可用下面的判定系数测度:,判定系数等于相关系数的平方,即R2r2,估计标准误差(standard error of estimate),对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小 计算公式为,注:k为自变量的个数。方差的一个无偏估计。即E(s2)=,显著性检验,显著性检验包括,对各回归系数的检验,对整个回归方程的检验,整个回归方程的显著性检验主要是要考察所选择的变量是否从总体上对被解释变量起线性作用,即各解释变量前的参数是否不全为零。因此,整个线性关系的检验是通过如下F检验进行的,整个回归方程的显著性检验,其中,k表示模型中自变量的个数,n为样本容量。,回归系数的检验(检验步骤),提出假设H0:b1=0H1:b1 0计算检验的统计量,确定显著性水平,并进行决策 tt,拒绝H0;tt,不拒绝H0,残差分析解决的问题,是线性关系吗?对误差项作的假定适合吗?1)等方差;2)相互独立;3)正态分布;哪些数据属于异常值?哪些观测属于对回归模型有很大影响的?,异常值(outlier),如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型如果完全是由于随机因素而造成的异常值,则应该保留该数据在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除,利用回归方程进行估计和预测,利用回归方程进行估计和预测,根据自变量 x 的取值估计或预测因变量 y的取值估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计,多元线性回归,1.回归模型、回归方程、估计的回归方程2.回归方程的拟合优度回归方程的显著性检验多重共线性问题及其处理利用回归方程进行估计和预测虚拟自变量的回归问题非线性回归用 Excel 进行回归分析,时间序列分析和预测,1、时间序列的概念和分解(times series),1.同一现象在不同时间上的相继观察值排列而成的数列2.形式上由现象所属的时间和现象在不同时间上的观察值两部分组成3.排列的时间可以是年份、季度、月份或其他任何时间形式,时间序列的分类,平稳序列(stationary series)基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是随机的 非平稳序列(non-stationary series)有趋势的序列线性的,非线性的 有趋势、季节性和周期性的复合型序列,时间序列的成分,预测方法的选择,是,否,时间序列数据,是否存在趋势,否,是,是否存在季节,是否存在季节,否,平滑法预测简单平均法移动平均法指数平滑法,季节性预测法季节多元回归模型时间序列分解,是,趋势预测方法线性趋势推测非线性趋势推测,统计指数,统计指数的分类,