统计回归模型举例.ppt
《统计回归模型举例.ppt》由会员分享,可在线阅读,更多相关《统计回归模型举例.ppt(60页珍藏版)》请在三一办公上搜索。
1、统计回归模型举例,1、用plot(x,y,*)作出散点图,与常见函数曲线作比较,确定回归模型曲线;2、用MATLAB求出相关参数,得到回归曲线;3、讨论回归曲线模型的显著性。,几个常见回归命令,1、多元线性回归命令:b,bint,r,rint,stats=regress(y,x,alpha)2、一元多项式回归命令:p,s=polyfit(x,y,m)3、多元二项式回归命令:rstool(x,y,model,alpha)线性(linear),完全二次(quadratic),纯二次(purequadratic),交叉(interaction)4、非线性回归命令:beta,r,j=nlinfit(x
2、,y,model,beta0),几个常见回归命令,例1 牙膏的销售量,问题,建立牙膏销售量与价格、广告投入之间的模型,预测在不同价格和广告费用下的牙膏销售量,收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,令y表示公司牙膏的销售量,x1表示其它厂家与本公司价格差,x2 表示公司广告费用,则数据如下:x1=-0.05 0.25 0.6 0 0.25 0.2 0.15 0.05-0.15 0.15 0.2 0.1 0.4 0.45 0.35 0.3 0.5 0.5 0.4-0.05-0.05-0.1 0.2 0.1 0.5 0.6-0.05 0 0.05 0
3、.55;x2=5.5 6.75 7.25 5.5 7 6.5 6.75 5.25 5.25 6 6.5 6.25 7 6.9 6.8 6.8 7.1 7 6.8 6.5 6.25 6 6.5 7 6.8 6.8 6.5 5.75 5.8 6.8;y=7.38 8.51 9.52 7.5 9.33 8.28 8.75 7.87 7.1 8 7.89 8.15 9.1 8.86 8.9 8.87 9.26 9 8.75 7.95 7.65 7.27 8 8.5 8.75 9.21 8.27 7.67 7.93 9.26;,下面探讨y与x1、x2的关系:用matlab软件作图:plot(x1,y,*
4、);plot(x2,y,*)运行得如下图形:,从右图看出,y与x1成线性关系,y与x2成二次曲线关系。,x3=x2.2;x=ones(30,1)x1 x2 x3;b,bint,r,rint,stats=regress(y,x)运行结果:b=17.3244,1.3070,-3.6956,0.3486bint=5.7282 28.9206 0.6829 1.9311-7.4989 0.1077 0.0379 0.6594stats=0.9054,82.9409,0.0000,0.0490,模型求解,MATLAB 统计工具箱,结果分析,y的90.54%可由模型确定,F远超过F检验的临界值,P=0.0
5、5,2的置信区间包含零点(右端点距零点很近),x2对因变量y 的影响不太显著,由于x22项显著,可将x2保留在模型中,模型从整体上看成立,销售量预测,价格差x1=其它厂家价格x3-本公司价格x4,估计x3,调整x4,控制价格差x1=0.2元,投入广告费x2=650万元,x1=0.2;x2=6.5;Y=b(1)+b(2)*x1+b(3)*x2+b(4)*(x2.2)运行结果:Y=8.2933,即预测牙膏销售量为8.2933百万支。,上述模型中的回归变量x1,x2对因变量y的影响是相互独立的。即牙膏销售量y的均值与广告费x2的二次关系由回归系数2和3确定,而不必依赖于差价x1,同样y的均值与x1的
6、线性关系仅由回归系数1确定,不依赖于x2.根据直觉和经验可以猜想,x1和x2之间的交互作用也会对y有影响,不妨简单地用x1,x2的乘积来表示他们的相互作用,于是上述模型中增加一项,得到:,模型改进,x=ones(30,1)x1,x2(x2.2)(x1.*x2);b,bint,r,rint,stats=regress(y,x)b=29.1133 11.1342-7.6080 0.6712-1.4777bint=3.7013 44.5252 1.9778 20.2906-12.6932-2.5228 0.2538 1.0887-2.8518-0.1037stats=0.9209,72.7771,0
7、.0000,0.0426,模型比较,x1和x2对y的影响独立,由于R2有所提高,所以模型(*)比模型(*)有所改进,并且参数的置信区间不再包含0点,所以有理由认为模型(*)比模型(*)更符合实际。预测比较:x1=0.2;x2=6.5;Y=b(1)+b(2)*x1+b(3)*x2+b(4)*(x2.2)+b(5)*(x1.*x2)Y=8.3272,两模型销售量预测比较,(百万支),区间 7.8230,8.7636,区间 7.8953,8.7592,(百万支),控制价格差x1=0.2元,投入广告费x2=6.5百万元,预测区间长度更短,略有增加,完全二次多项式模型,x=x1 x2;rstool(x,
8、y,quadratic)运行结果:beta=2.0984 14.7436-8.6367-2.1038 1.1074 0.7594rmse=0.2083,剩余标准差为0.2.83较小,说明回归模型的显著性比较好。,问题:一家高技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型,以便分析公司人事策略的合理性,并作为新聘人员的薪金的参考。他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据。于是调查了46名软件开发人员的档案资料,如下表,其中资历一列指从事专业工作的年数,管理一列中:1表示管理人员,0表示非管理人员,教育一列中:1表示
9、中学程度,2表示大学程度,3表示更高程度(研究生)。,例2 软件开发人员的薪金,分析与假设按照常识,薪金自然随着资历(年)的增长而增加,管理人员的薪金应高于非管理人员,教育程度越高薪金也越高。令y表示薪金,x1表示资历,x2表示是否管理人员,x3表示学历,基本模型假设薪金y与资历x1、管理x2、学历x3成线性关系:,y=13876 11608 18701 11283 11767 20872 11772 10535 12195 12313 14975 21371 19800 11417 20263 13231 12884 13245 13677 15965 12366 21352 13839 2
10、2884 16978 14803 17404 22184 13548 14467 15942 23174 23780 25410 14861 16882 24170 15990 26330 17949 25685 27837 18838 17483 19207 19346;x1=1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 6 7 8 8 8 8 10 10 10 10 11 11 12 12 13 13 14 15 16 16 16 17 20;,x2=1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 0 1
11、 1 0 1 1 0 0 0 1 1 1 0 0 1 0 1 0 1 1 0 0 0 0;x3=1 3 3 2 3 2 2 1 3 2 1 2 3 1 3 3 2 2 3 1 1 3 2 2 1 2 1 3 1 1 2 3 2 3 1 2 3 1 2 2 3 2 2 1 2 1;x=ones(46,1),x1,x2,x3;b,bint,r,rint,stats=regress(y,x)b=1.0e+003*6.9333,0.5659,6.5936,1.6134bint=1.0e+003*5.6612 8.2054 0.4911 0.6406 5.8134 7.3737 1.1111 2.115
12、6stats=0.9327 194.0169 0 1603719.76601,由于R2=0.9327接近于1,F=194.0169大于临界值,p0.05 所以模型的显著性较好。回归模型为:,残差分析:Rcoplot(r,rint),模型修正在上述模型中,资历、管理、学历对薪金的影响都是独立的。事实上,管理与学历对薪金应具有交叉影响,为此增加交叉项x2x3,得模型:,模型求解,x=ones(46,1),x1,x2,x3,(x2.*x3);b,bint,r,rint,stats=regress(y,x)b=8135.915 538.366 4525.249 1077.139 1019.748,bi
13、nt=6410.849 9860.982 461.000 615.732 2311.748 6738.750 351.363 1802.914-6.314 2045.810stats=0.9387 157.012 0 1495857.511,R2=0.93870.9327,所以,该模型较好。,为了表示三种教育程度,也可引进两个01变量来表示:,y=13876 11608 18701 11283 11767 20872 11772 10535 12195 12313 14975 21371 19800 11417 20263 13231 12884 13245 13677 15965 12366
14、 21352 13839 22884 16978 14803 17404 22184 13548 14467 15942 23174 23780 25410 14861 16882 24170 15990 26330 17949 25685 27837 18838 17483 19207 19346;x1=1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 6 7 8 8 8 8 10 10 10 10 11 11 12 12 13 13 14 15 16 16 16 17 20;x2=1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 0
15、0 0 1 0 1 0 1 1 0 1 1 0 0 0 1 1 1 0 0 1 0 1 0 1 1 0 0 0 0;,X3=1 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 1;X4=0 0 0 1 0 1 1 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 1 1 0 1 0 0 0 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0 1 0;,x=ones(46,1),x1,x2,x3,x4;b,bint,r,rint,stats=regre
16、ss(y,x),b=11032.7343011281 546.1276492977 6882.53291698754-2994.17834433349 147.737980069428stats=0.956691811962102 226.425798835777 0 1057144.84841479,R2=0.956691811962102 F=226.425798835777 p0.05,所以模型的显著性较好。,残差分析:rcoplot(r,rint),模型修正在上述模型中,资历、管理、学历对薪金的影响都是独立的。事实上,管理与学历对薪金应具有交叉影响,为此增加交叉项x2x3,x2x4,得
17、模型,模型求解:X=x(x2.*x3)(x2.*x4);b,bint,r,rint,stats=regress(y,X),b=11203.7537822278 96.863929912392 7047.99973466834-1726.5041924628-348.392543178968-3070.59618801279 1835.9676370463stats=0.998829102890402,5544.79903960134,0 30047.093445917,R2=0.9988291028904020.956691811962102 所以,该模型较好。,例3 投资额与国民生产总值和物
18、价指数,问题,建立投资额模型,研究某地区实际投资额与国民生产总值(GNP)及物价指数(PI)的关系,2.0688,3073.0,424.5,20,1.0000,1185.9,195.0,10,1.9514,2954.7,474.9,19,0.9601,1077.6,166.4,9,1.7842,2631.7,401.9,18,0.9145,992.7,144.2,8,1.6342,2417.8,423.0,17,0.8679,944.0,149.3,7,1.5042,2163.9,386.6,16,0.8254,873.4,133.3,6,1.4005,1918.3,324.1,15,0.79
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 回归 模型 举例
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5299638.html