统计方法建模课件.ppt
《统计方法建模课件.ppt》由会员分享,可在线阅读,更多相关《统计方法建模课件.ppt(148页珍藏版)》请在三一办公上搜索。
1、统计方法建模,1 相关分析2 多元回归3 曲线回归4 主成份分析5 判别分析6 聚类分析7 模糊聚类分析8 偏最小二乘回归分析,第一节 相关分析,一、相关关系的概念(注意相关关系与函数关系的区别),(一)函数关系,它反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。若两个现象x、y有严格的直线依存关系,则其函数关系还可用右图表示。,函数关系的例子,某种商品的销售额(y)与销售量(x)之间的关系可表示为(p 为单价)圆的面积(S)与半径之间的关系可表示为企业的原材料消耗额(y)与产量()、单位产量消耗()、原材料价格()之间的关系可表示为,(二)
2、相关关系,它反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:,1.现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;,2.现象之间的这种依存关系是不严格的,即无法用数学公式准确表示。,若现象间的这种不严格的依存关系近似于一种直线关系,则其相关关系的图示如右。,相关关系的例子,商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)
3、之间的关系,商品消费量与居民收入之间,当居民收入发生变动,商品消费量也会随之发生变动。所以,居民收入为自变量X,而商品消费量为因变量Y。,在具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用X表示;发生对应变化的变量称因变量,一般用y表示。,商品价格和商品销售量?(请同学分析),1.按相关关系涉及的因素多少来分,可分为:单相关和复相关。,在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为偏相关。,二因素之间的相关关系称单相关,即只涉及一个自变量和一个因变量。,三个或三个以上因素的相关关系称复相关,或多元相关,即涉及二个或二
4、个以上的自变量和因变量。,二、相关关系的种类,2.按相关关系的性质来分,可分为:正相关和负相关,正相关是指两相关现象变化的方向是一致的。负相关是指两相关现象变化的方向是相反的。,3.按相关关系的形式来分,可分为:直线相关和曲线相关,直线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。,曲线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。,4.按相关程
5、度分,可分为:完全相关、不完全相关和不相关,完全相关就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。不相关是指两现象之间在数量上的变化上各自独立,互不影响。不完全相关就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关关系。,三、相关分析的任务和内容,(一)相关分析的主要任务,概括起来是两个方面:,一方面,研究现象之间关系的密切程度,即相关分析,这也称狭义的相关分析。另一方面,研究自变量与因变量之间的变动关系,用一个合适的数学模型近似地表达其相关关系,即回归分析。显然,相关分析与回归分析既有区别,也有联系。,相关分析与回归分析的区别,1.在相关分析中
6、,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。2.相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。3.相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。,相关分析与回归分析的联系,相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现
7、象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。,相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。,(二)相关分析的主要内容包括以下五个方面:,1.判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;2.确定相关关系的密切程度;3.测定两个变量之间的一般关系值;4.测定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;5.相关系数的显著性检验。,第二节 简单线性相关分析,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。,定量分析
8、,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。,一、相关关系的判定,(一)相关表 将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。,二、相关表和相关图,简单相关表,分组相关表,单变量分组相关表,双变量分组相关表,又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。当有三个变量存在相关关系时,如何用相关图表示呢?,(二)相关图,某市1996年 2003年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。从表可看出,随着工资性
9、现金支出的增加,城镇储蓄存款余额有明显的增长趋势。所以,资料表明(如图)有明显的直线相关趋势。,三、相关系数与应用,相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般用样本数据计算,记为r;若用总体全部数据计算,则称为总体相关系数,记为。,(一)相关系数定义,(二)相关系数r的测定方法:,1、r的计算,简化后为:,2、对r的解释如下:(即r的特点),(1)r取正值或负值决定于分子协方差;(2)r的绝对值,在0与1之间;(3)r的绝对值大小,可说明现象之间相关关系的紧密程度。,r,用例1的数据计算如下:,三、简单线性相关分析的特点,通过对r的计算方法的讨论,可
10、看出二个明显特点:,2.相关关系中只能计算出一个相关系数r。,1.相关关系中,两个变量不必定出哪个是自变量,哪个是因变量,因此,相关的两个变量都是随机变量;,2 多元回归,一、数学模型二、模型的分析与检验 三、回归方程系数的显著性检验四、回归方程进行预测预报和控制五、最优逐步回归分析,在回归分析中,两个变量之间的回归称为简单回归,两个以上变量之间的回归称为复回归。无论是简单回归还是复回归,数学模型均有线性(直线)回归和非线性(曲线)回归之分。,回归模型的类型,一、直线回归,(一)简单直线回归分析,1、简单直线回归方程的一般形式为:yc=a+bx,yc 因变量的估计值;x 自变量;a 回归直线在
11、y轴上的截距;b 回归直线的斜率,称回归系数,表明x每增加 一个单位,因变量yc的平均变化值 b0,x与y为正相关 b0,x与y为负相关,2、a、b的确定:,在简单直线回归方程中,a、b为待定系数,常用最小平方法来确定,即(y-yc)2=最小值。,3.简单直线回归方程建立的步骤为:,确定自变量x和因变量y;计算x2、xy、x、y、x2、xy;代入公式,先求b,再求a。写出回归方程,4、简单直线回归分析的主要特点:,1.直线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。,2.在两个现象互为根据的情况下,可以有两个回归方程:yc=a+bx 称y倚x回归直线 xc=c+d
12、y 称x倚y回归直线,多元线性回归分析可以看作是一元线性回归分析的扩展。,一、数学模型,设可控或不可控的自变量;目标函数,已测得的n组数据为:(1.1)其中 是系统的测试数据,相当于如下模型:设多目标系统为:,为简化问题,不妨设该系统为单目标系统,且由函数关系,可以设:(1.2)可得如下线性模型(1.3)为测量误差,相互独立,。令,可得(1.4)(1.4)称为线性回归方程的数学模型。利用最小二乘估计或极大似然估计,令 使 由方程组(1.5)可得系数 的估计。令 阶方阵可逆,由模型可得:即有(1.6)可以证明(1.6)与(1.5)是同解方程组的解,它是最优线性无偏估计量,满足很多良好的性质。,二
13、、模型的分析与检验,设目标函数 的平均值和估计值分别为:则由公式可计算得总偏差平方和,回归和剩余平方和:,假设检验:至少有一个不为零结论是:当 当 被拒绝以后,说明方程(2)中系数不全为零,方程配得合理。否则在被接受以后,说明方程配得不合适,即变量 对目标函数都没有影响,则要从另外因素去考虑该系统。,三、回归方程系数的显著性检验,假设 备选假设 可以证得:(1.8)或者 的对角线元素。,.,在 成立的条件下 或者查F检验临界值 或t检验临界值 当 时,显著不为零,方程(1.2)中 第 j个变量作用显著。若有某一个系数 假设 被接受,则应从方程中剔除第 j个变量。然后从头开始进行一次回归分析工作
14、。,四、回归方程进行预测预报和控制,经过回归分析得到经验回归方程为(1.9)设要在某已知点上进行预测,可得点估计:(1.10)下面对预测值进行区间估计,可以证得其中,得 的预测区间:,以我国19731983年11年手表价格和手表销售量的实际资料为例,拟合一元线性回归方程为:yc=9643-65x此时,回归系数b表明,手表平均价格每降低1元/只,销售量约平均增长65万只。一元线性回归模型只列入了手表平均价格对销售量的影响,而忽略了居民收入这一很重要的因素,因此,现对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展为二元线性回归模型进行回归分析。,列成计算表如下:,由表中数据有:,
15、b1表明在手表平均价格固定时,人均货币收入每增加元,手表销售量平均增长18.6368万只;b2表明在人均货币收入固定时,手表平均价格每上升元/只,手表销售量平均减少8.0328万只。这里的b2比原一元线性回归模型中的同一回归系数b=-65要大得多,是因为一元线性回归模型只列入了手表平均价格对销售量的影响而忽略了居民收入这一很重要的因素,在手表平均价格的影响中渗入了居民收入的影响。,3 曲线回归,一 曲线的类型与特点二 曲线方程的配置三 多项式回归,曲线回归(curvilinear regression)或非线性回归(non-linear regression):两个变量间呈现曲线关系的回归。曲
16、线回归分析或非线性回归分析:以最小二乘法分析曲线关系资料在数量变化上的特征和规律的方法。,曲线回归分析方法的主要内容有:确定两个变量间数量变化的某种特定的规则或规律;估计表示该种曲线关系特点的一些重要参数,如回归参数、极大值、极小值和渐近值等;为生产预测或试验控制进行内插,或在论据充足时作出理论上的外推。,第一节 曲线的类型与特点,一、指数函数曲线二、对数函数曲线三、幂函数曲线四、双曲函数曲线五、S型曲线,一、指数函数曲线,指数函数方程有两种形式:图11.1方程 的图象,二、对数函数曲线对数函数方程的一般表达式为:图11.2 方程=a+blnx 的图象,三、幂函数曲线幂函数曲线指y是x某次幂的
17、函数曲线,其方程为:图11.3 方程 的图象,四、双曲函数曲线双曲函数因其属于变形双曲线而得名,其曲线方程一般有以下3种形式:图11.4 方程 的图象,五、S型曲线S型曲线主要用于描述动、植物的自然生长过程,故又称生长曲线。Logistic曲线方程为:,第二节 曲线方程的配置,一、曲线回归分析的一般程序二、指数曲线方程 的配置三、幂函数曲线方程的配置四、Logistic曲线方程的配置,一、曲线回归分析的一般程序,曲线方程配置(curve fitting):是指对两个变量资料进行曲线回归分析,获得一个显著的曲线方程的过程。由试验数据配置曲线回归方程,一般包括以下3个基本步骤:,1根据变量X 与Y
18、 之间的确切关系,选择适当的曲线类型。2对选定的曲线类型,在线性化后按最小二乘法原理配置直线回归方程,并作显著性测验。3将直线回归方程转换成相应的曲线回归方程,并对有关统计参数作出推断。,表11.1 常用曲线回归方程的直线化方法,应用上述程序配置曲线方程时,应注意以下3点:(1)若同一资料有多种不同类型的曲线方程配置,需通过判断来选择。统计标准是残差平方和 最小的当选。(2)若转换无法找出显著的直线化方程,可采用多项式逼近,(3)当一些方程无法进行直线化转换,可采用最小二乘法拟合。,二、指数曲线方程 的配置,(111)两边取对数:(112)令,可得直线回归方程:(113)若 与x的线性相关系数
19、:(114),显著,就可进一步计算回归统计数:(115)三、幂函数曲线方程 的配置(116),当 y 和 x 都大于0时可线性化为:(117)若令,即有线性回归方程:(118)若线性相关系数:(119),显著,回归统计数:(1110)四、Logistic曲线方程的配置(a、b、k均0)(1111),K 可由两种方法估计:如果y是累积频率,则显然k=100%;如果y是生长量或繁殖量,则可取3对观察值(x1,y1)、(x2,y2)、和(x3,y3),代入(1111)得:,若令,解得:移项,取自然对数得:,(1113),(1112),令 可得直线回归方程:(1114)和 x 的相关系数:(1115)
20、回归统计数 a 和 b 由下式估计:,(1116),第三节 多项式回归,一、多项式回归方程 二、多项式回归的假设测验,一、多项式回归方程,(一)多项式回归方程式多项式回归(polynomial regression):当两个变量间的曲线关系很难确定时,可以使用多项式去逼近。二次多项式,其方程为:(1117),三次多项式的方程式为:(1118),多项式方程的一般形式为:(1119)(二)多项式方程次数的初步确定多项式回归方程取的次数:散点所表现的曲线趋势的峰数谷数。若散点波动较大或峰谷两侧不对称,可再高一次。,(三)多项式回归系数的计算可采用类似于多元线性回归的方法求解多项式回归系数。令,(11
21、19)可化为:(1120),可采用矩阵方法求解。即由和,求得、和()-1,并由 b=()-1()获得相应的多项式回归统计数。(四)多项式回归方程的估计标准误 y 的总平方和 SSy 可分解为回归和离回归两部分:SSy=Uk+Qk,(1121),k 次多项式的离回归标准误可定义为:即是多项式回归方程的估计标准误。,(1122),(1123),二、多项式回归的假设测验多项式回归的假设测验包括三项内容:总的多项式回归关系是否成立?能否以k-1次多项式代替k次多项式,即是否有必要配到k次式?在一个k次多项式中,X 的一次分量项、二次分量项、k-1次分量项能否被略去(相应的自由度和平方和并入误差)?,(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 方法 建模 课件
链接地址:https://www.31ppt.com/p-3741153.html