如何学习统计研究方法最终版.ppt
如何学习统计研究方法,和传媒大学同学的一次交流 祝迎春 2006,5,引言,个人的介绍主题:分享学习统计的一些心得(理论方法的知识地图)回归应用的问题(个案学习),统计是一门致力于研究:收集数据(抽样理论),分析数据(统计算法),解释数据(背景知识与理论)的学科。-我个人的心得.外加计算机操作,研究什么?-经过数据计算后产生出有意义的信息事物之间的相关关系(包括因果关系)事物之间的差异(先找出它们的差异然后再找出它们的共性)事物的结构(层次水平),统计是以帮助描述,验证思想的工具性学科,统计是什么?,统计的两个应用领域,思维过程领域,研究方法领域,生活,学术,数字背后的心理活动过程,普通人做统计问题时的思维过程-处理随机事件的能力,数字背后的心理活动过程,研究者做学术研究时,逻辑的推理过程,关于随机性规律,观察数据 调查数据 抽样数据 试验数据统计中的形象思维:使看不见的随机性被看见 的意义,赋值和建立、描述相关关系,基本知识回顾,总体的描述(随机变量的数字特征:X,)与样本的描述(样本分布的数字特征:,s)之间连接点是:随机变量的分布。,.估计量的性质:无偏性(Unbiasedness):样本均值在真值附近摆动而没有系统误差。有效性(Efficiency):在所有的不同估计量中的方差最小。一致性(Consistency):当n,估计量在真值附近的概率接近1。最小离差平方(Mean Square Error):离差最小or方差最小?如果估计量是无偏时此标准等价于有效性。,.对估计量的检验:假设检验,统计学习分三个部分,学习归纳统计方法的一个案例,2.相关,独立样本,1.差异,非独立样本,组类相关系数Intraclass correlation coefficient,Pearson相关系数,独立样本t检验,配对样本t检验,在同一对象上两个重复测量值之间的相关系数。Pearson相关系数研究的是不同变量之间产生的。,研究中要注意的一些问题,假定(Assumption):在研究中被人为控制(设定,定义)的变量或者常量。针对的是一个变量(常量是特殊的一种变量)。,假设(Hypothesis):可验证性的;陈述两个或多个数个变量间的可能关系,为一种假设性陈述。,变量产生,操作化(operational definition):用变量代替概念。,验证过程,数据管理,数据分析,数据呈现,数据收集,数据格式的转换储存位置,抽样设计研究设计问卷设计执行管理,变量选择加权统计模型的选择统计量的含义检验标准(显著性水平),报表表格符号(公式,文字)图形,客观的世界,主观的世界,观察,解释,理论和现象的关系,物理活动(声,光,机械)化学变化(无机物变化)生物活动(新陈代谢)心理活动(意识与认知)社会变化(文化,人际,阶层,传播),不具有运算功能的符号:绘画,音乐.具有运算功能的符号:逻辑,文字,数字,随机变量的分布,随机性,估计,变量分布的特征,我们在做什么,科学本质:试验性(包含了证伪性的命题)在错误中不断求真(广泛的解释性和高度一致的预测性),理论是怎样产生的呢?波普尔认为,科学只能从问题开始,理论是为解决问题而做出的尝试,是对问题的猜测,波普尔说:“一种科学理论,一种解释性理论,只不过是解决一个科学问题的一种尝试”。因此,理论是大胆的猜测,即使是那些己经充分确认的科学理论也终究还是一种猜测,一种假说。正因为理论是猜测,它们就具有不确定性和暂时性,最终会被推翻,被新理论所替代。我们是一群问题提出者和企图解答者。,波普尔认为,衡量一个理论真的程度的标准即看该理论是否具有高解释力和高预测力,而这又是由理论所包含的信息量来决定的。一般说来,理论所包容的信息量越多,其可解释的范围越广,其预测的力度便越强。但与此同时,科学理论所包容的信息愈多,它接受的范围愈广,其可错性或被证伪的概率便越高。也就是说:科学理论真的概率增大的过程,也是科学理论被证伪的可能性增大的过程,换言之,它是科学理论中可错成分逐渐增多的过程。,理想的理论,回答现象为什么机制 可验证性,及可以证伪和重复的 与相关之既有知识或理论一致,不宜抵触,不是孤立理论 简约,若为统计模型,参数要尽量少 对应研究之问题 量化形式,不仅是文字建模也是可以数字建模和图形建模 具相当广度(有助推论),具有普适性,一个好的社会学理论(实证性):解释控制变量的产生原因明确指出解释现象的产生原因和结果,以及因果关系的方向性,(没有大小why?),连续性(条件变化后结果的变化,即预测功能),Staw and Sutton(1995):“What theory is not?”,1.参考文献不是理论.不要被文献驾驭2.数据不是理论3.变量的列表或建造不是理论4.图表不是理论-不要用AMOS5.假设(或预言)不是理论,周雪光的见解:什麼是“有力的理論”?理論應該回答“為什麼”的問題:泛泛描述性的研究沒有深度理論關心的是現象之間的關係,即我們觀察到的行為、事件、結構或思想為什麼產生的因果關係。“在我們看來,理論的任務是深入地探討解釋導致某一事件或行為發生的內在過程,從而幫助我們理解這一現象產生的系統的原因”(378頁)。實證研究的設計應該為這個基本目的服務。集中在“因果關係”上研究的深入性、系統性,统计学习的路径:基础统计 社会统计 多元统计,不懂统计原理,胡乱调用些proc,得出的P值不是“屁“才怪呢!,不教(写)原理只教技术,“菜谱式”学习只能是制造数据垃圾和伪实证的理论。,clxia:计算机和软件只是辅助思维的工具,不是思维本身。,在使用某一种方法之前,应该认真读一下有关的统计书籍,对所用方法的目的对象和条件有所了解,一些有用的统计观点,统计学家发展了许多测量变量关联强度大小的方法;一定条件下,某种方法的选择依赖于所含变量的多少,所使用的量表及关联的本质等等,但大多都遵守一条基本原则:都试图通过与这些特定变量间最大可能关联比较来估计实际关联强度的大小。从统计学上讲,估计关联的常用方法是观察变量值的差异,然后计算所研究的两个或多个变量含有共同差异时解释总差异的比例。通俗地说,就是将变量中共同部分比成如果变量完全相关时应潜在相同的部分。,注意研究中的随机性现象的影响。,计量经济学家在无偏性和一致性的取舍上一般要求一致性。,一些有用的统计观点,SPSS14,STATA9,统计学习的“老师”向谁学,学什么:统计软件 统计专著 论文 交流。,方差齐性 线性关系 效应累加 变量无测量误差 变量服从多元正态分布 观察独立 模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)误差项独立且服从(0,1)正态分布。,第二部分:回归技术的学习,为什么要学习:回归模型是实证分析中最广泛使用的工具。作业答案:回归的8个假设:,最小二乘法的本质:点估计,统计意义:回归技术就是估计回归系数及其标准误的点估计。,回忆一下,回归的一些基础知识复习“回归”一词的由来-父亲和儿子的身高关系(起源)1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式。后来发展为从误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。,共线性,无法估计,最小二乘法的性质,1拟合残差之和等于零2Y的真实值和拟合值的均值相等3拟合残差与自(解释)变量不相关4残差与拟合值不相关,不存在自相关,高斯马尔可夫定理,最好线性无偏,高斯马尔可夫定理(Gauss-Markov theorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。,当模型参数估计完成,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的统计量,可从三个方面考察其优劣性:(1)线性性(linear):即是否是另一随机变量的线性函数;(2)无偏性(unbiased):即它的均值或期望值是否等于总体的真实值;(3)有效性(efficient):即它是否在所有线性无偏估计量中具有最小方差。,关于经典回归模型的假定1,关于经典回归模型的假定2,关于经典回归模型的假定3,关于经典回归模型的假定4,随机扰动项 垂直波动(Vertical Error Jumps),关于随机扰动项的古典假设,其数据生成过程叫变量误差模型,残差分布均值为零(Zero Mean Error Displacement),关于随机扰动项的古典假设,使用最小二乘法一定会保证这个假设满足,随机扰动项的方差为同方差(Homoskedasticity),关于随机扰动项的古典假设,异方差(Heteroskedasticity),同方差假定的意义是指每个i围绕其零平均值的变差,并不随解释变量X的变化而变化,不论解释变量观测值是大还是小,每个i的方差保持相同,即,异方差,关于随机扰动项的古典假设,Homoskedastic,Heteroskedastic,后果,出现异方差之后,最小二乘法的最优性就失效。在社会科学中是必然的。,识别,Goldfeld-Guandt检验:这种检验的思想时,如果整个总体或经济过程在研究期间都是同方差的,这意味着报研究期间划分为两个时期来考虑和研究总体或经济过程所得到的误差项方差的差异不应该是显著的。Breuch-Pagan检验:如果异方差的形式不与某个解释变量的观测值,或观测次数有关,而是与一组解释变量有关,此时无法使用Goldfeld-Guandt检验。White检验,处理,交互回归加权回归稳健回归(似然法),异方差,共线性,当两个或两个以上解释变量之间高度(但非完全相关)时,乘模型中出现多重共线性。多重共线性的后果:使参数估计值的标准误差增大,导致参数估计值的t统计量减少,从而使参数估计值无法通过t检验。,整体拟合很好,但个体估计很差。其含意是:整体的拟合有度R2很大,但个体参数估计值的t统计量却很小,并且无法通过检验。此时我们称模型中出现多重共线性。相关矩阵 自变量之间回归,按照实际理论意义删除自变量(看模型设定问题)忽略增加样本(未必减少标准误反而增加变量相关)主成分回归(社会科学中不可取),偏最小二乘法,岭回归,后果,识别,处理,自相关,后果,相关会导致用最小二乘法求出的参数估计值不是线性估计中方差最小的估计值。,识别,Durbin-Watson检验,处理,通过广义差分变换消除异方差(计算),模型设置,自变量存在随机误差非线性和不可相加性遗漏变量或者添加不相关的变量(自变量的选择问题)过度设定对我们的参数估计没有影响,OLS仍然是无偏的。但它对OLS估计量的方差有不利影响。遗漏变量将违反“零条件均值”E(u|xp)=0.OLS估计是有偏的遗漏X2偏误方向(二元特例)谨慎使用:逐步回归 信息准则(eg.AIC),问题完了吗?你确定你会回归了?,回顾以上其实我们只是讨论了模型设定除了问题的情况,模型的元素不仅是模型的模型的形式,还包括了样本本身:如果样本并不完备又如何?,样本不完备包括(1)存在测量误差(2)存在分组情况(3)样本存在缺失值,存在测量误差(变量误差&方程误差模型),模型变了,更加广义了!,处理,对误差的设定:彼此独立,为均值为0的正态分布;且不存在自相关;也独立与回归的随机扰动项,1.工具变量估计:寻找一个Z替代X使得 与 不相关,仅与 相关,越高越好。,2.组平均法:1的一种特例。,识别,3.加权回归:必须知道自变量和因变量的误差方差比值为常数。,存在分组情况,变量不是来自同一总体的情况,变量存在分组:按一个变量来标定分类叫单向分组数据;按两个变量来标定分类叫双向分组数据。,带有虚拟变量的模型,样本存在缺失值,极大的一个课题,不是我现在可以讲的。,极大似然法EM算法(期望步;极大化步,使用迭代直至达到收敛)贝叶斯统计多重插补,Eg.零回归估计(使用缺失值的样本均值内插估计是有偏的),处理,我对建立回归模型的建议,回归是建立在研究者对所有变量的性质,关系有很好的把握的基础之上。变量的选择和要解释的事实联系起来不断“拷问”回归的假设为什么?:现实是复杂的,模型是我们对真实的简化,为了让它更加接近刻画真实的规律,所以我们要在理想的回归模型上加一些贴近真实数据产生过程的约束(假设),再进行对现实的预测,这才体现了实证主义的精要!我们在做一件不可能达到的事情:追求理论和实际的统一,理论-实际=0,但是我们不要灰心,我们可以做到lim理论-实际=已知的某种统计分布,这意味,差距是我们可以理解,把握,更重要的是我们用来解释和预测事实。最后一句:千万小心形式(模型建模与估计)替代内容(理论)!,