多元回归补充-已读.ppt
多元线性回归分析,目的,回顾一元线性回归应用场合了解回归的几种类型了解多元线性回归的应用场合掌握多元线性回归的分析方法直接利用回归先利用逐步回归寻找合适的自变量,再进行回归先利用最佳子集回归寻找合适的自变量,再进行回归掌握多元共线性问题的解决办法,多元回归,一元回归的方法很容易就可以推广到多元的问题。这在实际工作中是经常出现的,因为对于一个事物来说,影响它的因素是多方面的,当这些因素中每一个都很重要,或者说有几个是很重要的,而不是只有一个因素最重要,这时我们就需要用到多元回归分析的方法。如在预测销售量时,在最简单的情况下,可以认为它只与你的广告预算有关,但在实际工作中,如果要比较准确地预测销售量,可能还需要考虑其他因素,如:季节因素,库存情况,销售能力、产品质量等。多元回归又分为多元非线性回归和多元线性回归。,回归模型的类型,一元非线性回归,多元线性回归,多元非线性回归,一元线性回归,范例1:巴特勒运输公司,巴特勒是美国加利福利亚州的一家独立运输公司,其主营业务地域为本地,为了建立更好的工作日程表,经理们计划为他们的驾驶员估计日常行驶时间。经理们认为日常行驶时间跟行驶距离有关,试根据所学知识,求:两者之间的关系式。,打开文件:“12_A_ 多元回归 Muliti Regression.Mpj”中:“运输公司.mtw”,范例1:巴特勒运输公司数据,范例1:巴特勒运输公司,范例1:巴特勒运输公司,R2=66.4%,只能解释66.4%的变异比例。,范例1:巴特勒运输公司,经理们这时开始考虑,也许日常行驶时间不仅跟行驶距离有关,还跟运货次数有关,试求:行驶时间与行驶距离及运货次数之间的关系式。我们可以考虑使用多元回归!,范例1:巴特勒运输公司,范例1:巴特勒运输公司,这时,R2由原来的66.4%上升到现在的90.4%,现在能解释90.4%的变异比例。模型拟合得更好了!,范例1:巴特勒运输公司,由于增加自变量的数量将会影响到因变量中的变异性被估计的回归方程解释的变异比,为了避免高估这一影响,所以许多分析学家提出用自变量的数量去修正R 的值,R调整的计算公式如下:,n=数据的行数;前面案例中n=10.,p=项数(包含常数项,如Y=kx+b;则p=2,前面案例中p3),R 调整值越大说明通常说明该方程式越合适。,R调整值,范例1:巴特勒运输公司,S越小越好,当S=0时,R2100,范例1:巴特勒运输公司,在方差分析表中的P值小于0.05,代表整个方程是统计上显著的,也就是行驶时间至少与与行驶距离或运货次数之间的一个或两个因子间的数学关系是显著的。,范例1:巴特勒运输公司,行驶距离和送货次数的P值都小于0.05,说明两个因子都属于显著因子。,练习1:多元回归,练习 1:一家广告公司的老板打算将客户的每周总营业收入作为电视广告费和报刊广告费的函数来估计,8周的历史数据见:“广告费用.mtw”,请分析回归方程式,如果电视广告费为3500美元,报刊广告费为1800美元,试估计该周总收入。,打开文件:“12_A_ 多元回归 Muliti Regression.Mpj”中:“广告费用.mtw”,练习1:多元回归,练习1:多元回归,家电商品的需求量Y与其价格X1及居民家庭平均收入X2有关,下表给出了某市10年中某家电商品需求量与价格和家庭年平均收入水平间的数据。求该商品年需求量Y关于价格X1和家庭年平均收入X2的回归 方程。预计下一年度该商品的价格水平为3500元,家庭年平均收入为18000元,希望预测该商品下一年的需求量,练习2:多元回归,打开文件:“12_A_ 多元回归 Muliti Regression.Mpj”中:“家电.mtw”,多元回归的使用时机,当流程或噪音输入变量为计量型数据(连续型数据),且输出变量的类型也是计量型(连续型数据)时,而且输入变量的个数超过一个时,可用多元回归分析来研究输入变量和输出变量间的关系。,在计划经济时期,我国钢材产量Y主要与以下因素有关:原油产量X1,生铁产量X2,原煤产量X3,电力产量X4,固定资产投资X5,国民收入消费额X6,铁路运输能力X7。下表给出了我国自1975年到1986年12年间上述各项经济指标数据。试建立计划经济时期影响我国钢材产量最合适的回归模型。,范例2:多元回归,打开文件:“12_A_ 多元回归 Muliti Regression.Mpj”中:“钢材产量.mtw”,钢材产量与其他经济变量数据,范例2:钢材产量与其他经济变量,范例2:钢材产量与其他经济变量,在方差分析表中的P值小于0.05,代表整个方程是统计上显著的,R2=99.8%,代表方程式能够解释的变异比例很高。,范例2:钢材产量与其他经济变量,有些X的P值大于0.05,代表该X可能对Y不显著。我们需要把P值大于0.05的一个一个进行判断和排除,先从P值最大的开始排除。再次进行回归,把X7不要考虑进回归模型,因为X7的P值=0.975,最大。,范例2:钢材产量与其他经济变量,再次进行回归,把X7不要考虑进回归模型,把X1X6放到预测变量中。,范例2:钢材产量与其他经济变量,再次进行回归,把X6不要考虑进回归模型,(因为X6的P值最大);把X1X5放到预测变量中。,范例2:钢材产量与其他经济变量,依次进行回归,直到回归模型中所有的预测变量的P值小于0.05为止。,多元回归选择合适模型的其他方法,在上题中使用 Minitab 中的回归程序,来看看我们如何找到合适数量的输入变量预测Y。七个变量中哪些变量与Y的关系密切,最佳回归模型中应该包含哪些因子?显然使用回归的方法效率太低!那是否存在更好的缩减因子,选择最佳拟合模型的方法呢?我们可以考虑如下步骤:步骤1:我们将讨论 多元回归时选择最佳模型的两种不同的方法:方法1:逐步 此程序筛选所有输入,以产生“最佳”的模型 方法2:最佳子集 此程序提供最佳单变量、双变量、三变量等模型,但在处理多输入变量时会耗費大量时间。步骤2:回归 一旦最佳模型被选定后,回归程序将用该模型实施更详细的分析,我们同时会执行残差分析,步骤1的方法1:逐步回归,逐步回归分析菜单,响应是我们需要预测的Y值,预测变量X1X7全部选入。,若大于,则从模型中删除该变量,再重复上述操作过程。如果没有任何自变量可以删除,则会尝试再加入一个新的自变量,重复上述操作,直至不能再引入也不能再删除为止。,逐步回归分析法就是让计算机自动进行多元回归分析中的自变量筛选工作。主要有三种方法:(1)逐步(向前或向后)的方法是:自变量逐个引入,边引入边检查已引入自变量中最大的p值是否已大于指定的“删除值”,,逐步回归,逐步回归,(2)前进法是:逐个引入自变量,先引入对y影响最大(p值最小者),再从其余自变量中寻找影响次大者,(p值次最小者),直到无任何变量p值小于指定的“选入值”可以被引入为止,在前进法中,一旦被加进回归模型中,就不能再被删除。,逐步回归,(3)后退法:一开始引入全部自变量,对于p值大于指定的“删除值”,逐个删除,直至不能再删除为止。常用的删除值使用0.1,上案例中使用的是 逐步(向前或向后)方法,范例2:钢材产量与其他经济变量,逐步回归结果,此处显示 X1,X2,X4是最佳的模型中的预测变量;注意:回归步骤停在三个变量的模型,表示第四或更多变量对于提高预测度并无帮助,此行显示每增加一个变量后,R-sq值的变化。通过增加第三个变量,R-sq值从99.31增至99.71%R-sq调整值最大为99.60%,Mallows Cp,用来帮助在多个候选回归模型之间进行选择的一个统计量。Mallows Cp 会将整个模型的精确度和偏倚与具有最佳预测变量子集的模型进行比较。它可帮助您在模型中的预测变量数方面实现重要平衡。具有过多预测变量的模型的精确度相对较差,而预测变量过少的模型又会产生偏倚的估计。接近预测变量数加上常量数的 Mallows Cp 值表明模型在估计真实回归系数和预测未来响应时比较精确且无偏倚。,Mallows Cp 入选自变量个数+常量数,最佳模型的判定参考,在有多个回归方程显著时,权衡使用哪一个?您可以参照以下参考:1.选择R-Sq(调整值)最大的模型2.选择Mallows Cp接近变量个数的模型3.工程上容易实现4.控制成本较低您可以在软件分析结果的基础上结合工程上的经验做出选择!,步骤1的方法2:最佳子集回归,放入所有的因子,最佳子集,输入变量,筛选出的最佳入选变量,根据Mallows Cp,R2调整值,S值等判断标准,选择三个变量的回归模型作为最佳回归模型,X1,X2,X4入选,步骤2:回归,确定最佳模型变量后,我们接着执行回归程序得到用来Y的最终回归方程式,回归分析结果,此模型解释了Y的99.7%的变异来源,回归模型显著,回归方程式,P0.05,属于显著的自变量!,残差分析,接下来进行残差分析,判断模型是否存在异常情况。,残差分析,选择“四合一”,画残差的四张图。,残差图的判断,残差应该符合正态分布,残差与拟合值的关系应该随机,残差与时间顺序的关系应该随机,残差应该符合正态分布,残差图没有出现异常,所以回归模型在数学上成立,接下来您可以在实际工作中进行检验和应用。,范例3:多元回归,打开文件:“12_A_ 多元回归 Muliti Regression.Mpj”中:“逐步回归范例.mtw”,六西格玛小组推测了4种化学成分可能对混凝土在凝固放热过程中的散热量有影响。现在希望知道在4种化学成分中,哪个或哪些是我们要寻找的关键的X。在混凝土凝固放热试验中,记录了13组数据,其中y为散热量,为混凝土中种化学成分请进行变量的筛选,得出合适的回归模型。,范例3:多元回归,在会话窗口中观察结果,?,回归模型显著,所有的自变量都不显著,对X1单独进行回归分析,对X1单独回归,对X1单独进行回归分析,P0.05,X1显著!,对X2单独进行回归分析,P0.05,X2显著!,同理对X3,X4单独进行回归,也出现了P0.05,显示X3和X4是显著的。为什么出现单独的X显著,而一起放到回归模型中反而一个也不显著?,相关性检验,对X1X4进行相关性分析看看。,相关性检验,原来如此!X1与X3,X2与X4之间存在相关性!这种现象叫做X之间存在自相关,对X1X4进行相关性分析看看。,逐步回归分析,对于X之间存在自相关,在回归前进行逐步回归或最佳子集回归先去寻找最佳模型,再进行回归是较好的解决办法。,逐步回归分析,您有两种选择方案:第一种方案是模型中包含两个变量,X4和X1;第二种方案是模型中包含三个变量,X4和X1,X2,还记得吗?模型选择的依据,在有多个回归方程显著时,权衡使用哪一个?您可以参照以下参考:1.选择R-Sq(调整值)最大的模型2.选择Mallows Cp接近变量个数的模型3.工程上容易实现4.控制成本较低您可以在软件分析结果的基础上结合工程上的经验做出选择!,继续回归,假定我们依据实际工程经验,选择模型一:X1和X4,再进行回归,得到回归方程式。,继续回归,此模型解释了Y的97.2%的变异来源,回归模型显著,回归方程式,P0.05,属于显著的自变量!,残差分析,残差应该符合正态分布,残差与拟合值的关系应该随机,残差与时间顺序的关系应该随机,残差应该符合正态分布,残差图没有出现异常,所以回归模型在数学上成立,接下来您可以在实际工作中进行检验和应用。,检查自相关的另一种方法,在回归中选择“选项”,再选择“方差膨胀因子”,方差膨胀因子,方差膨胀因子(VIF)表示回归分析中存在多重共线性(预测变量之间的相关性)的程度。多重共线性会产生问题,因为它可以增大回归系数的方差,从而使其不稳定或难以解释 方差膨胀因子(VIF)度量相对于预测变量不线性相关时,估计回归系数的方差膨胀多大。使用以下准则解释 VIF:方差膨胀因子多重共线性的判别,预测变量为.VIF=1 不相关1 5 至 10 高度相关VIF 值大于 10 可能表明多重共线性过度影响了回归结果。在此情况下,可能要通过从模型中去除不重要的预测变量来减小多重共线性。,方差膨胀因子(VIF)给出了多重共线性(multi collinearity)的度量。若 X 之间不存在任何相关性,则 VIF=1;若 VIF 值为 5 或更高,X之间的相关性很高,所以您需要接下来使用逐步回归或最佳子集回归寻找合适的自变量,再进行回归。,方差膨胀因子,练习,美国出售的每一辆汽车都需要标明油耗水平,即该车在城市路面和高速公路路面的行驶时每加仑汽油预期达到的英里数,现在美国能源部收到230辆汽车的数据,您的任务是建立一个能用来估计在城市路面时的油耗的回归方程和和能用来估计在城市路面时的油耗的回归方程自变量有:X1:发动机的排量X2:气缸数量,打开文件:“12_A_ 多元回归 Muliti Regression.Mpj”中:“汽车.mtw”,练习,一项研究提供了与制造业失业的周数可能有关的一些变量的数据,在这些变量中,自变量有:X1:工人的年龄X2:受教育的年限X3:结婚与否,结婚则取值为“1”,否则为“0”X4:户主吗?如果是户主则“1”,否则为“0”X5:工龄X6:管理岗位吗?如果是管理岗位为“1”,否则为“0”X7:销售工作吗,如果是则为“1”,否则为“0”,打开文件:“12_A_ 多元回归 Muliti Regression.Mpj”中:“失业.mtw”,要点回顾,回顾一元线性回归应用场合了解回归的几种类型了解多元线性回归的应用场合掌握多元线性回归的分析方法直接利用回归先利用逐步回归寻找合适的自变量,再进行回归先利用最佳子集回归寻找合适的自变量,再进行回归掌握多元共线性问题的解决办法,