相关关系与回归分析.ppt
probability,第九章回 归 分 析,9.1 相关关系与回归分析,9.2 一元回归分析,1 相关关系与回归分析,Ex.1 球的直径 X 与球的体积 V 之间有确定的函数关系,在现实世界中存在大量的变量,它们有相互依存、相互制约的关系,一般分为两类:确定性关系与非确定性关系.,一.相关关系与回归函数,Ex.2 随机信号,由振幅 和初相角确定.,Ex.3(救救长江)江河上游地区森林覆盖面积Y与下游的水流量X之间的关系.,还有另一类变量关系,如:,Ex.4 农作物产量Y与降雨量 X1,氮、磷、钾的施肥量X2、X3、X4 之间的关系.,EX.5 产品的价格X与需求量M之间存在关系.,特点 变量间的关系无法用确定的函数来明确表述.,问题 如何描述变量间的各类关系?,将作为考察目标的变量称为因变量(记为Y),而将影响它的各个变量称为自变量或可控变量,记为,(X1,X2,.Xk),1.确定性的函数关系,用第三章方法可求随机变量函数的分布.,若已知随机变量X的分布就可以确定函数,的分布.,由振幅和初相角的分布可以完全确定随机信号,的分布.,2.非确定性的相关关系,EX.6 已测得SCS系统的输入和输出信号,如何确定输入和输出之间的关系?(P228非线性交调的频率设计),设想 构造某种函数来描述输入和输出之间的非确定关系.,考虑单个因变量Y与单个自变量X的情形.,1)(x)可理解为在“X=x”的条件下,随机变量Y 取值的集中点;,随机变量的相关关系引进:,在“X=x”时,Y(连续型)的条件数学期望为,对于X的不同取值x1,x2,xn,x1,x2,x3,方程y=(x),将可控变量X1,X2,.Xk的取值记为x1,x2.,xk,存在,称Y 与X1,X2,.Xk具有相关关系.,若条件数学期望:,2)方程 y=(x)描述了Y 与 X 间非确定性的关系.,相关关系是一种非确定性关系,定义9.1.1 称,为Y 关于X1,X2,.Xk的回归函数,,称为Y 对 X1,X2,.Xk的回归方程.,方程,注 回归函数是确定性的函数.,回归分析是从回归函数出发处理相关关系的方法.,高尔顿,生物统计学派的奠基人,他的表哥达尔文的巨著物种起源问世以后,触动他用统计方法研究智力遗传进化问题,第一次将概率统计原理等数学方法用于生物科学,明确提出“生物统计学”的名词.统计学上的“相关”和“回归”的概念是由高尔顿首先引进。,“回归”一词的由来,高尔顿的学生卡尔皮尔逊(Karl Pearson)测量了1078个父亲及其成年儿子的身高.,1870年,高尔顿在研究人类身长的遗传问题时,发现下列关系:1.高个子的父亲有着较高身材的儿子,而矮个子父亲的儿子身材也比较矮;2.高个子父母的子女,其身高有低于其父母身高的趋势;3.而矮个子父母的子女,其身高有高于其父母的趋势;即有“回归”到平均值的趋势,这就是统计学上最初出现“回归”时的涵义.,得数学模型:,设想:Y=+随机误差,可视为随机误差,通常要求:,其它未知的、未考虑的因素以及随机因素的影响所产生.,3.回归模型的引进,若Y 关于X1,X2,.Xk的回归函数为,建立模型涉及三个问题:,2 是用回归函数近似因变量Y产生的均方误差.,1)确定对因变量Y 影响显著的自变量;,2)确定回归函数(x)的类型;,3)对参数进行估计.,1)E()=0;,2)D()=E(2)=2 尽可能小.,本章内容,二.回归函数类型的估计确定,实际问题中,通常未知回归函数形式.,回归分析的基本思想:根据自变量X1,X2,.Xk与因变量Y的观察值去估计回归函数.,本节仅讨论最简单的情形:可控变量Y关于单个因变量X的回归函数存在,为估计回归函数,可依据问题的背景,确定或假定回归函数的形式.称,问题的提法 对两个变量X、Y 间的回归函数 y=(x),选择某个函数S(x)作为其估计函数:,常通过分析数据散布图获得对变量间相关关系的初步认识.,为Y关于X的经验回归方程.,例9.1.1 身高体重关系,希望根据某地区人的15对身高h 和体重数据m,用简洁的函数关系式描述该地区人的身高体重的对应关系.,呈现幂函数的增长趋势,可设,其中a,b是待定参数.,例9.1.2 施肥效果分析,某地区作物生长所需的营养素主要是氮(N)、钾(K)、磷(P).某作物研究所在某地区对土豆做了一定数量的实验,实验数据如下列表所示,其中ha表示公顷,试分析施肥量与土豆产量之间关系.,N P K,土豆产量氮肥量数据散布图,土豆产量磷肥量数据散布图,可选,思考 是否能由数据散布图完全确定回归函数的类型和形式?,结论 仅是初步感性的认识,需进行检验.,问题 观察法的依据?,根据小概率实际推断原理,做一次试验得到的数据最可能密集在其回归曲线及其附近.,因回归函数(x)为在“X=x”的条件下Y的数学期望,随机变量Y 取值的集中点.,