相关分析与一元线回归模型.ppt
《相关分析与一元线回归模型.ppt》由会员分享,可在线阅读,更多相关《相关分析与一元线回归模型.ppt(96页珍藏版)》请在三一办公上搜索。
1、第八章 相关分析与一元线性回归模型,相关系数(Correlation Coefficient)一元线性回归模型(Simple Linear Regression Model),8.1 随机关系,函数关系(Deterministic Relationship)Y=f(X)每一个 X 值都唯一地对应一个 Y值.随机关系(Stochastic Relationship)当 X 的值给定时,Y 的取值服从一个分布,函 数 关 系,例1:一台计算机售价为960美元。X 计算机的销售量 Y 总销售收入 Y=960X例2:租车固定费用为100美元。每行驶一公里收费0.2$X 行驶公里数 Y 租用车辆的费用
2、Y=100+0.20X,随 机 关 系,随机关系(Stochastic Relationship):例:钢材消费量与国民收入 Y 钢材消费量(万吨)X 国民收入(亿元)问题:如何测量X与Y的相关性大小?,钢材消费量与国民收入,随机关系(Stochastic Relationship):当 X 的值给定时,Y 的取值服从一个分布,发电量与工业增加值(19952007),1-1.北京市人口变化情况,图为19782009年北京常住人口变化情况。户籍人口增长比较缓慢,年平均增长率为1.24%,外来人口(指居住半年以上外来人口),随着北京经济的发展,增长迅猛,年平均增长率为15.74%。,1.北京市人口
3、预测,1-2.北京市的人口规划与实际情况,根据北京城市总体规划(2004-2020)的要求,到2020年,北京的常住人口为1800万左右,户籍人口为1350万。而实际情况是:截止2009年底,北京的常住人口已经达到了1755万人。,图4 指数预测模型的拟合图,从图中看出,近10年内,北京市的常住人口基本接近指数增长。,1-3.北京市人口预测,选取了2000-2009年的总常住人口数据来预测未来人口变化。选取该段数据原因是(1)2000-2009年北京人口的变化比较有规律;(2)北京市统计局从2001年开始正式对外来人口进行统计。,不同年份常住人口预测结果,表1 按指数函数预测的北京市未来10年
4、的常住人口数,2006年中国城市生活质量报告中,北京在全国仅排名第14 位,比上一年下降10 位。交通问题满意度则排在所有城市的最后一位,也是造成北京排名下滑的最主要的原因。(中国汽车资源网引用法制晚报报道),2.全市交通承载力分析,2-1.北京市交通现状:机动车保有量,从图中可以看出,北京市的机动车保有量增长迅速,特别是2000年以来,增长极为迅猛。,图10,2-2.北京市人口出行总量预测(六环以内),从图12可以看出,随着人口的增长,出行总量也随之增长。预计到2020年,六环内的出行总量将达到4300万人次/日以上,是2009年的1.6倍。,3-3.全市交通出行比例分析,右图显示:自行车出
5、行比重下降,公共交通出行比例不断增加,同时,小汽车出行比例也持续增加。目前,北京市公共交通出行比例仅为38.9%,而东京大于64%以上。北京的小汽车使用强度为45车公里/日,远高于东京(19)、香港(39)、伦敦(30)。北京市机动车的80%以上集中在六环范围内。北京机动车呈现高速度增长、高强度使用、高密度聚集的态势。,交通出行比例,到2020年,即使公交能够承担50%的出行数量,小汽车承担的出行比例降到24%(乐观估计)。小汽车所承担的出行量也高于2009年的出行量,这意味着,届时,在路上行驶的小汽车的数量将高于目前的数量至少10个百分点。,小汽车和公共交通承担的出行量分析,2009年,北京
6、公交出行比例接近39%,小汽车接近35%。如果2020年,公交承担的比例为50%,并认为增加的部分主要来自小汽车的承担量,则小汽车承担的比例降为24%。,Y 每周支出($)Xi 每周税后收入($)解:b1=0.9232 b0=-8.1622,8.2 相关系数(The Correlation Coefficient),Pearson 相关系数:r(x,y)记,r(x,y)的性质,(1)-1 r 1(2)0 r 1:正线性相关(3)-1 r 0:负线性相关(4)r=0:线性无关(5)r=1:完全正线性相关(6)r=-1:完全负线性相关,四个散点图,总体相关系数,1.总体方差2.总体协方差3.总体相
7、关系数,关于总体相关系数的假设检验,H0:=0 H1:0检验统计量:,(总体上有相关关系),例题:,X 钻井深度Y 钻井费用 n=6,r(x,y)=0.953H0:=0 H1:0(右尾检验),Spearman秩相关系数,注意:样本相关系数只能测量两个随机变量之间是否存在线性相关关系!问题:如何测量非线性相关关系?xi 1,2,3,4,5,6,7,8,9,10yi 12,22,32,42,52,62,72,82,92,102,计算得到:r=0.975,思路1.,X:2,4,6,8,10,12,14,16,18,20 rank 1,2,3,4,5,6,7,8,9,10 Y:22,42,62,82,
8、102,122,142,162,182,202 rank 1,2,3,4,5,6,7,8,9,10,思路2:,(1)求两组秩的差:Di=ui-vi(2)为防止正负号抵消:(3)(a)如果:ui=vi,i=1,2,n 取到最小值(等于零)。(b)如果:两组秩取值完全相反,取到最大值。ui n(n-1)(n-2)3 2 1 vi 1 2 3(n-2)(n-1)n,计算:显然,l 的取值范围为 0,1 两组秩完全一致 两组秩完全相反(4)定义Spearman秩相关系数当 l=0:R=1(正相关)当 l=1:R=1(负相关)一般认为:为相关程度比较高。,例:对某地区 12 个街道进行调查,并对经济发展
9、水平与卫生条件按规定的标准打分。评价与计算结果见下表:,编号 经济水平 卫生水平 u(经济)v(卫生)D=u-v D2 1 82 86 6 9-3 9 2 87 78 9 6 3 9 3 60 65 1 2-1 1 4 98 88 12 10 2 4 5 75 64 3 1 2 4 6 89 90 10 11-1 1 7 84 80 7 7 0 0 8 78 77 4 5-1 1 9 80 76 5 4 1 1 10 94 96 11 12-1 1 11 85 85 8 8 0 0 12 68 70 2 3-1 1合计 32,计算Spearman秩相关系数该地区的经济水平与卫生水平存在正相关关
10、系!,例7.1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。,Pearson相关,非参数相关,讨论1:从相关关系发现因果关系,案例:2006年北京市的福寿螺事件5月20日 蜀国演义酒楼将“凉拌螺肉”的原料海水螺改为福寿螺。5月23日 前后 广州管圆线虫病患者开始出现症状,但病因难查。6月24日 首例广州管圆线虫病在友谊医院确诊。(热带病研究所)6月25日 友谊医院临床医生先后2次到蜀国演义酒楼暗访、明查,检测出福寿螺携带广州管圆线虫幼虫。8月17日 北京市卫生局通报因食用凉拌螺肉染上“广州管圆
11、线虫病”情况。2008年05月12日 新华网报道,100多位曾在蜀国演义酒楼食用凉拌螺肉的顾客患上广州管圆线虫病。该病严重者出现头痛、发热、颈部强硬等症状,严重者可致痴呆,甚至死亡。经场历时一年半的 赔偿案审理,160多名患者共获赔偿近1000万元。酒楼总损失则为2320万元。,讨论2:相关关系 因果关系 西班牙医生Gasper Casal 与18世纪在欧洲首次发现糙皮病是非常贫困的居民中体弱多病、伤残、夭折的一个重要原因。十九世纪初这种疾病在欧洲蔓延,二十世纪头十年,在美国泛滥。患病者家庭贫困,环境条件恶劣,到处有苍蝇。而在欧洲,一种吸血蝇与糙皮病有同样的地理分布范围;而吸血蝇在春天最为活跃
12、,恰恰是糙皮病发生病历最多的季节。许多流行病专家认为这种疾病是传染性的由昆虫传染。1914年初,美国医生Joseph Goldberger通过实验研究证实,糙皮病是由于不良饮食引起的,可以通过食用含P-P因子(烟酸)的食物而预防和治疗。烟酸天然存在与肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大部分面粉中添加了P-P因子。苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不等于因果关系。,(4)航空运量的增长在1996年以前是经济增长的线性趋势。,还有一些例子:(1)闪电是打雷的原因吗(2)公鸡打鸣,天就亮(相关关系?反因果关系?)(
13、3)哲学家罗素(Bertrand Russell)讨论因果问题 在一只鸡看来:农妇到来,饲料会被放在钵子里,有相关关系,不一定有因果关系;没有相关关系,就一定没有因果关系。,8.3 一元线性回归模型(Simple Linear Regression Model),回归模型:研究因变量与自变量之间的因果关系Y因变量(dependent variable)Xj 自变量(independent variable)例:总体参数:0,1,p 随机误差:,Sir Francis Galton1889,Natural Inheritance,T 8,Y 4C 8,Y 64,应用实例:美国航空公司的零件预测,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 分析 一元 回归 模型
链接地址:https://www.31ppt.com/p-5803829.html