【大学课件】统计方法建模.ppt
《【大学课件】统计方法建模.ppt》由会员分享,可在线阅读,更多相关《【大学课件】统计方法建模.ppt(129页珍藏版)》请在三一办公上搜索。
1、统计方法建模,http:/,3.1 多元回归与最优逐步回归 3.2 主成份分析与相关分析3.3 判别分析3.4 聚类分析3.5 模糊聚类分析3.6 马尔可夫链及其应用3.7 存贮论,3.1 多元回归与最优逐步回归,一、数学模型二、模型的分析与检验 三、回归方程系数的显著性检验四、回归方程进行预测预报和控制五、最优逐步回归分析,一、数学模型,设可控或不可控的自变量;目标函数,已测得的n组数据为:(1.1)其中 是系统的测试数据,相当于如下模型:设多目标系统为:,为简化问题,不妨设该系统为单目标系统,且由函数关系,可以设:(1.2)可得如下线性模型(1.3)为测量误差,相互独立,。令,可得(1.4
2、)(1.4)称为线性回归方程的数学模型。利用最小二乘估计或极大似然估计,令 使,由方程组(1.5)可得系数 的估计。令 方阵可逆,由模型可得:即有(1.6)可以证明(1.6)与(1.5)是同解方程组的解,它是最优线性无偏估量,满足很多良好的性质,另文补讲。,二、模型的分析与检验,设目标函数 的平均值,则由公式可计算得总偏差平方和,回归和剩余平方和:,假设检验:至少有一个不为零结论是:当 当 被拒绝以后,说明方程(2)中系数不全为零,方程配得合理。否则在被接受以后,说明方程配得不合适,即变量 对目标函数都没有影响,则要从另外因素去考虑该系统。,三、回归方程系数的显著性检验,假设 备选假设 可以证
3、得:(1.8)或者 的对角线元素。,.,当 时,显著不为零,方程(1.2)中 第 j个变量作用显著。若有某一个系数 假设被接受,则应从方程中剔除。然后从头开始进行一次回归分析工作。,四、回归方程进行预测预报和控制,经过回归分析得到经验回归方程为(1.9)设要在某已知点上进行预测,可得点估计:(1.10)下面对预测预极值进行区间估计,可以证得 其中,得 的预测区间:,五、最优逐步回归分析,在线性回归分析中,当经过检验,方程(1.2)作用显著,但 为显著,说明 不起作用,要从方程中剔除出去,一切都要从头算起,很麻烦。这里介绍的方法是光对因子 逐个检验,确认它在方程中的作用的显著程度,然后依大到小逐
4、次引入变量到方程,并及时进行检验,去掉作用不显著的因子,依次循环,到最后无因子可以进入方程,亦无因子被从方程中剔除,这个方法称为最优逐步回归法。从方程(1.2)中,为方便计,设变量个数,记 可得(1.12),此时仍可得 是回归估计值回归方程为(1.13)分别是 的系数估计。为了减少误差积累与放大,进行数据中心化标 准化处理:,(1.14)可得数学模型为:(1.15)经推导可得:,,称为系数相关矩阵 由此可得经验回归方程:(1.16)然后以变换关系式代入可得,将(17)式与(13)式进行比较,可得:(1.18)只要算得(16)式的 即可。注意到 其中 是对于因子 的偏回归平方和,可以证明线性方程
5、中对变量 的多元线性回归方程中 的偏回归平方和为(是原方程中的偏回归平方和):,把系数矩阵R变成加边矩阵,记为比较,设,则相应变量 作用最大,但是否显著大,要进行显著性检验,可以证得,当 时,可将变量 引入方程中去。现将这个循环步骤介绍如下:第一步:挑选第一个因子对 计算 的偏回归和 找出 决定 F检验 当 时引入,一般总可以引入的。,第二步:挑选第二个因子首先变换加边矩阵 则,因子 的偏回归平方和 记 决定可否引入,步骤:1.对,计算 的偏回归平方 和。2.找 出中最大的一个,记为。3.对 作显著性检验:当 时,要 引入。,第三步:当引入 时,是否要剔除呢?即已有方程:检验 的偏回归平方和:
6、,当 时因子 不剔除。同样的方法以 时因子 不剔除。第四步:重复进行第二步到第三步。一直到没有可引入的新因子,也没有可剔除的因子。最后方程为:(1.19)并把(1.19)式换算成类似的(1.13)式。,3.2 主成份分析与相关分析,一、数学模型,二、主成份分析,三、主成份的贡献率,这是一个将多个指标化为几个少数指标进行统计分析的问题,设有 维总体有 个随机指标构成一个 维随机向量,它的一个实现为;而且这个 指标之间往往相 互有影响,是否可以将它们综合成少数几个指标,使它们尽可能充分反映原来的 个指标。例如加工上衣,有袖长、身长、胸围、肩宽、领围、袖口、袖深,等指标,是否可以找出主要几个指标,加
7、工出来就可以了呢?例如主要以衣长、胸宽、型号(肥瘦)这样三个特征。,一、数学模型,设 为 维随机向量,为期望向量,为协方差矩阵,其中 设将 综合成很少几个综合性指标,如,不妨设,则有 要使 尽可能反映原来的指标的作用,则要使 尽可能大,可以利用 乘子法:要对a加以限制 否则加大,增大无意义。令 设 并使,可得方程组(2.1)的解为(2.2)以 左乘(2.2)之两边,得 即 由(2.2)式可得(2.3)要使满足(2.3)的a非零,应有,即入是 的特征根,设 是 的 个特征根,只要取,再由,求出V的属于 的特征向量,在条件 是唯一的 维特征向量。于是得(2.4),二、主成份分析,一般协方差方阵为非
8、负定,对角线上各阶主子式都大于等于零,即特征值有:设前m个都大于零,依次为,相应的特征向量为,则,即为第一,第二,第 个主成份,由线性代数知识可知,不同的特征根对应的不同的特征向量线性无关,由于V是实对称阵,则,变换后的各主成份 相互无关。即对 进行了一次正交变换。,在实际应用中,V阵往往是未知的,需要用V的估计 值来代替,设有 组观测值 则取(2.5)(2.6)其中 是 的 子样方差,的子样协方差。需要求出 的特征值。,由于不同的度量会产生量纲问题,一般建议作如下变换:用标准变量 代替以 前的,即可以运算。此时的协方差矩阵即相关矩阵 从R出发,可求主成份。,三、主成份的贡献率,为了尽可能以少
9、数几个主成份 来代替P个指标,那么要决定取多少个主成份才够呢 由于 则可得 是 的方差,可得 亦是V的全部特征值之和:,由于,则令 表明方差 在全部 方差中所占的比重,称 是第i个主成份的贡献率,显然有,不妨取一个阈值为d(0d1),当 时,即舍去,此时可取 为主成份。以贡献率来决定它的个数。,一、数学模型,二、关于计算中应注意的问题,三、关于误判率及多个总体的判别,3.3 判别分析,一、数学模型,根据所研究的个体的观察指标来推断个体所属于何种类型的一种统计分析方法,称为判别分析。例如某精神病院有精神病患者256名,诊断结果将它们分成六类(相当于6个总体)设 服从三维联合正态分布 i=1,2,
10、6,其中,为协方差矩阵,一般这六种类型可分为焦虑状、癔病、精神病、强迫观念型、变态人格、正常,若有如下子样:子样 子样 子样,注意到每个子样 都是三维向量。现有一个新的精神病患者前来就医,测得三个指标:,试判断该患者病情属于哪一类。,(一)两点的距离,设 维空间中有两点,则其欧氏距离为:,(3.1),由于数据的量纲不同,不采用欧氏距离,用马氏距离有:定义1:设X,Y是从总体G中抽取的样品,G服从P维正态分布,,定义X,Y两点间的距离为马氏距离:,(3.2),定义2:X与总体G的距离为D(X,G)为,(3.3),(二)距离判别法 设有两个协方差相同的正态总体,且,对于一个新的样品,要判定它来自哪
11、一个总体,有一个很直观的方法:计算,若,(三)线性判别函数 由,令,记,则有:当 时,否则,当 为已知时,令,,可得:,(3.4),称 为线性判别函数,a为判别系数,因为,,即,解线性方程组可得解,此时的判别规则为:,X是新的一个点,将其代入即可判别。,(3.5),二、关于计算中应注意的问题,实际上,均未知,要用样本值的估计公式来计算出,。其方法如下:,设子样,来自总体,子样,来自,可由,(在本节的开头的例子中P=3),得到,(3.6),(3.7),判别函数为,(3.8),判别系数为,三、关于误判率及多个总体的判别,这里提及一个回报的误判率问题。在构造判别函数W(X)时,是依据样本,现在已知,
12、均属于,从道理上来说,经过判别公式(3.8),可得出,但也可能出来某几个不属于,这,便是误判。若有 存在,使得,说明,这就产生了一个误判。所谓误判率,即是出现误判的百分数,我们应该有所控制。当两个总体的协方差不相等时,可用如下方法:,(3.9),(3.10),当,当,未知时,用下列估计代替:,在,个总体,时,均值为,协方差阵为,(,维),设,都已知时,X为样品,计算,选择一个,最小的值例如,则,设,未知,但独立,可以分别以估计值来计算。,当上述 未知,但,亦可以用上述类似方法。上述解决方法中,可以扩展到非正态分布。,时,,3.4 聚类分析,物以类聚,人以群分,社会发展和科技的进步都要求对于某些
13、物体进行分类。由于早期的定性分类已不能满足需要,于是数值分类学便应运而生。,一、数学模型,二、应用类例,一、数学模型,某种物品有n个:,指标,如何将其分成若干类,基本的思路是把距离较近的点归成一类。这里的距离可分为如下三类:,它有m个数值量化,1.距离,的距离,本文中的距离常用欧氏或马氏距离,公式在前几节中已述,还有一种用绝对距离:,应该提及马氏距离,可以克服数据相关性的困难。,2.数据正规化处理,当,的分量中,大,要经过正规化标准化处理,令,个指标量纲不一致时,相差很,(4.1),其中,(4.2),(4.3),将经过(1)式处理的数据,重新视作,(为记号上的方便),3.相似系数法,的相关系数
14、,(4.4),可以将相关愈密切的归成一类。,4.最短距离聚类法(系统聚类法,逐步并类法),先将n个样本各自为一类,计算它们之间的距离,选择距离小的二个样本归为一个新类,再计算这个新类与其它样本的距离,选择距离小的二个样本(或二个新类)归为一个新类,每次合并缩小一个以上的类,直到所有样本都划为一个类为止。这里规定两点间距离为:,两类间的距离,即,的距离为:,步骤如下:1.数据正规化处理 要视各指标的量纲是否一致,相差是否太大,并选择一种距离计算法,为了方便计,一般都选择欧氏距离法。2.计算各样本间的两两距离,并记在分类距离对称表中,并记为D(0),第0步分类,此时,(每一个样本点为一个类),3.
15、选择表D(0)中的最短距离,设为,则将,合并成一个新类,记为,(4.5),4.计算新类,与其它类之间的距离,定义,(4.6),表示新类,与类,之间的距离。,5.作D(1)表,将D(0)中的第p,q行和p,q列删去,加上第r行,第r列。第r行,第r列与其它类的距离按(4.6)式判断后记上,这样得到一个新的分类距离对称表,并 记为D(1),D(1)表示经过一次聚类后的距离表,要注意的是Dr类是由哪两类聚类得到应在D(1)表下给以说明。6.对D(1)按3,4,5重复类似D(0)的聚类工作,得D(2)。7.一直重复,直到最后只剩下两类为止,并作聚类图。,二、应用类例,现有8个样品,每个样品有2个指标(
16、m=2,2维变量),它们的量纲相同,(否则要经过正规化处理),试用系统聚类方法对这8个样品进行聚类。,解:采用欧氏距离(1)最短距离法,首先用表格形式列出D(0),表示第i个样品,i=1,2,8,在D(0)中,最小值是1.0,相应的距离是D(3.4),与D(6,7)。则,合并为新类,把,合并成,。,(2)把D(0)中去掉,并计算得下表,后两行重算,其余照D(0)照抄。,视D(1)中,最小值为1.4,相应的是D(5,10)将,合并成新类,。,3)同法构造D(2)表,其中,最小值D(1,2)=D(2,9)=2.0,则把,,在D(2)中,其中,D(3)中,最小值D(11,12)=4.1,因此把,,在
17、,(见D(0)第8行),3.把上述聚类过程用聚类图表示:,说明:聚类到一定程度即可结束,一般可以选取一个阈值T,到D(K)中的所有非零元素都大于T,即结束(表中的值T值)设T=2.5:则到D(3)时结束,此时的共聚为三类:,如下图:,3.5 模糊聚类分析,二、数学模型,一、问题的提出,三、一个实例,一、问题的提出,客观事物分成确定性和不确定性两类,处理不确定性的方法为随机数学方法。在进行随机现象的研究时,所表现的现象是不确定的,但对象事物本身是确定的。例如投一个分币,出现哪一面是随机的,但分币本身是确定的。如果所研究的事物本身是不确定的,这就是模糊数学所研究的范畴。例如,一个人年龄大了,称年老
18、,年小,或年青,但到底什么算年老,什么算年青呢?又如儿子象父亲,什么是象?象多少?再说儿子象父亲,儿子又象母亲(部分象),难道父亲象母亲?1965年由I.A.Zadeh提出模糊数学,它可以广泛地应于图象识别,聚类分析,计算机应用和社会科学。,例如洗衣机和空调器已用上模糊控制,本节将把模糊数学的一套方法引入聚类分析中来,称为模糊聚类分析。,http:/,二、数学模型,设E为分明集(集合)1.定义:称为隶属度函数(分得很清楚)要末是,要末不是对A为不分明集,可以取0到1之间的任意一个实数值.当 愈接近于1.则 的程度愈大.愈接近于0.则的程度愈小.,2.模糊数学的运算法则 如A和B为不分明集,则有
19、:并,记为,交,记,补,记为,3.模糊聚类 模糊聚类同于一般聚类法(相似系数法或最小距离法)以相似系数(相关系数)法为例:思路:先算相似系数矩阵(相似矩阵)将相似矩阵改造成模糊矩阵:即将原相似矩 阵的元素压缩到0,1之间 改造成模糊等价矩阵,取不同的标准,可以得 到不同的聚类标准.,计算步骤:第一步:计算相似的系数 先将 数据 标准化 令得到标准化的数据为 显然(标准化数据的平均值一定为0)得标准化后比数据的相关系数为,相似矩阵 第二步:将相似系数压缩到0,1之间 令 建立模糊矩阵,第三步:建立模糊等价矩阵 由于上述模糊矩阵不具有传递性:即要通过褶积将模糊矩阵改造成模糊等价矩阵:矩阵的褶积与矩
20、阵乘法类似,只是将数的加.乘运算改成并 和交:则褶积为:,于是有:于是有:一直到 为止此时 即满足模糊等价矩阵,具有传递性 此时记它为:CR第四步:进行聚类:将矩阵CR的元素 依大小次序排列,从1开始,沿着 自大到小依次取 值,定义:可以得到若干个0,1元素构成的CR 矩阵,其中之1的表示这二个样本划为一类,三、一个实例=-上海4月平均气温;-北京3月雨量-5月地磁指数;-5月500毫巴W型环流型日数 予报对象:华北五站(北京、天津、营口、太原、石家庄)7-8月降水量,仅用61-67年 7年的资料(略)第一步:计算相似系数 经过标准化计算相似系数矩阵R,第二步:建立模糊矩阵 将相似系数压缩到0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学课件 大学 课件 统计 方法 建模

链接地址:https://www.31ppt.com/p-5680263.html