对数线性模型课件.ppt
《对数线性模型课件.ppt》由会员分享,可在线阅读,更多相关《对数线性模型课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、对数线性回归,多元社会统计分析,12/26/2022,1,一、对数线性模型简介,1、对数线性模型基本思想对数线性模型分析是把列联表资料的网格频数的对数表示为各变量及其交互效应的线性模型,然后运用类似方差分析的基本思想,以及逻辑变换来检验各变量及其交互效应的作用大小,12/26/2022,2,12/26/2022,3,2、列联表的四种类型,双向无序列联表;单向有序列联表;双向有序且属性不同的列联表;双向有序且属性相同的列联表,12/26/2022,4,3、列联表的优势,约束条件少清晰可以快速准确进行判断,12/26/2022,5,4、列联表的劣势:对于多关系变量(两个以上)研究:不能被清晰解读,
2、失去了对多变量之间的交互联系的分析进行两变量间关联分析时缺乏统计控制不能准确定量描述一个变量对另一个变量的作用幅度,12/26/2022,6,5、对数线性模型:多维度列联表解决之道,以及模型自身特点,通过数学方法(方差分析+逻辑变换)来描述多元频数分布。 综合性:同时囊括多个变量于一个模型之中。 控制性:可以在控制其他变量的条件下研究两个分类变量之间的关联。 饱和性:将多元频数分布分解成具体的各项主效应和各项交互效应,以及高阶效应,不会漏项。(饱和模型与不饱和模型)定量性:以发生比的形式来表示自变量的类型不同反映在因变量频数分布上的差异。 可检验性:不仅可以对所有参数估计进行检验,使抽样数据可
3、以推论总体,且能够通过不同模型的统计检验结果,对备选模型进行筛选和评价,进而确定具有最大解释能力且最简单的模型。消除抽样波动所带来的明显的不规则性,12/26/2022,7,6、对数线性模型的缺点,对数线性模型更强调的是变量之间的交互效应,它不能直接将因变量用自变量的函数表示出来。对数线性模型抽象复杂,特别是高维模型,不如线性回归模型易理解,12/26/2022,8,二、对数线性模型的基本原理,1、与方差分析相关的 在多元方差分析中,以二元方差为例:每一个观测值yij=+Ai的效果+Bj的效果+(AB)ij交互作用+ij,12/26/2022,9,2、比数比,比数比是对数线性模型的基础,而比数
4、比又是由比数计算而来。那么什么叫做比数呢?比数是一个事件发生的概率与其不发生概率之比,测量了一个事件发生的可能性。这个数值越高说明结果2相对于结果1发生的可能性就越高。,12/26/2022,10,Fij代表某模型fij的期望值,令ij 代表与单元格(i , j)有关的期望概率上表可转化为,12/26/2022,11,12/26/2022,12,1=12/112=22/21同理我们可以测量两个两个类别间的比值,称作比数比。= 1/ 2=2221/1221=F11 F22/ F12 F21 一个大于1的比数比意味着行变量和列变量的第二个(或者第一个)存在正相关;等于1无关;小于1负相关。,12/
5、26/2022,13,比数比的不变性,不随1)总样本量2)行边缘分布3)列边缘分布的变化而变化。所以,只要关心比数比的估值,那么适用于简单随机样本的最大似然估计就可以被直接应用到分层样本中了。,12/26/2022,14,3、与逻辑变换有关的:对数线性模型的出现,令R表示行,C表示列,fij表示第i行第j列的观测频次。那么期望频次Fij被设定为一个乘积的函数Fij=RiCjRCij代表概率里面的总概率值1,R 和C分别代表R和C的边缘效应,RC代表R与C的二维交互效应,而交互效应实质上测量的就是R与C之间的比数比,当RCij=1的时候就是我们熟悉的独立模型。相乘形式的不好计算,我们将其取对数,
6、12/26/2022,15,上两式的数学变换使各种效应项相乘的关系被转换成相加的关系,使各项效应独立化了。 常数效应; A因素效应; B因素效应;(主效应) A、B两因素的交互效应;,12/26/2022,16,主效应和多元交互列表涉及因素数量相等;交互效应的总数则为所有因素各阶组合数之和。对数线性模型有一个限制条件:模型中每一项效应的各类参数之和等于0;如果每项效应中只有一类的参数未知,那么可以由已知参数推算出来。,12/26/2022,17,通过上组式子,我们可以计算出线性模型等式右侧的所有参数值。A因素效应是行平均值与总平均值之差B因素效应是列平均值与总平均值之差交互效应计算结果表示在除
7、去所有其他分布效应之后两个因素之间的净关联。,12/26/2022,18,常数项只受样本规模和交互单元数的影响;主效应项反映的是各因素内部类别频数分布的特征,是在总平均频数基础上的“补差”;如果模型中所有交互效应都等于0,我们将会看到虽然每行(列)频数不同,但行(列)频数分布比例却是相同的,都等于原来分类变量的类别分布比例。,12/26/2022,19,泊松分布多项分布乘积-多项分布所以我们不能直接应用最小二乘法对模型、总体、参数进行估计,但幸运的是,三个抽样模型下的极大似然估计是等同的。但是可以通过迭代再加权最小二乘法,可是运算起来比较繁琐。,4、分布,12/26/2022,20,5、估计,
8、参数估计通俗的来讲:根据抽样结果来合理地、科学的猜测一下总体的参数大概是什么?或者是在什么范围?点估计就是用样本计算出来的一个参数来估计未知参数;区间估计就是通过样本计算出来一个范围来对位置参数进行估计。,12/26/2022,21,极大似然法与最小二乘法的区别于联系,最小二乘法所要解决的问题是:为了选出似的模型输出与系统输出尽可能接近的参数估计,用误差平方和即离差平方和的大小来表示接近程度。使离差平方和最小的参数值即为估计值。简单来说,已知点,自己拟合模型也即分布函数(概率密度函数的积分),进行预测。 极大似然估计所要解决的问题是:选择参数,使已知数据在某种意义下最可能出现。某种意义指的是似
9、然函数最大,此处似然函数就是概率密度函数。也就是经常提到的“模型已知,参数未定”。,12/26/2022,22,二者的区别就是,后者需要知道概率密度函数。最小二乘法要的是求出最优的那个参数,而极大似然要求出概率最大(最可能出现的)参数。举个例子,生活中我们一个着眼最合理是哪一个,一个着眼于最可能的是哪一个(极大似然法)当总体服从正态分布时,二者是一样的。对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据;而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该是使得从模型中抽取该n组样本观测值的概率最大。,12/26/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 对数 线性 模型 课件
链接地址:https://www.31ppt.com/p-1930922.html