数据处理专题一元数据处理方法课件.ppt
《数据处理专题一元数据处理方法课件.ppt》由会员分享,可在线阅读,更多相关《数据处理专题一元数据处理方法课件.ppt(232页珍藏版)》请在三一办公上搜索。
1、一. 一元数据处理方法,二. 多元数据处理方法,三.如何写好建模竞赛论文,数据处理专题,1,谢谢观赏,2019-8-23,数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。,2,谢谢观赏,2019-8-23,1.插值 2.拟合及线性回归,1. 一元数据处理方法,在解决实际问题的生产(或工程)实践和科学实验过程中,通常需要通过研究某些变量之间的函数关系来帮助我们认识事物的内在规律和本质属性,而这些变量之间的未知函数关系又常常隐
2、含在从试验、观测得到的一组数据之中。因此,能否根据一组试验观测数据找到变量之间相对准确的函数关系就成为解决实际问题的关键,3,谢谢观赏,2019-8-23,例如在工程实践和科学实验中,常常需要从一组试验观测数据(xi ,yi ) ,i = 0,1,.,n之中找到自变量x与因变量y 之间的函数关系,一般可用一个近似函数y = f (x)来表示。函数y = f (x)的产生办法因观测数据和要求不同而异,通常可采用数据拟合与函数插值两种办法来实现。 数据拟合主要是考虑到观测数据受随机观测误差的影响,进而寻求整体误差最小、能较好反映观测数据的近似函数y = f (x),此时并不要求所得到的近似函数y
3、= f (x)满足yi= f (xi) , i = 0,1,n。 函数插值则要求近似函数y = f (x)在每一个观测点 xi 处一定要满足y i= f (xi) , i = 0,1,n ,在这种情况下,通常要求观测数据相对比较准确,即不考虑观测误差的影响。,4,谢谢观赏,2019-8-23,在实际问题中,通过观测数据能否正确揭示某些变量之间的关系,进而正确认识事物的内在规律与本质属性,往往取决于两方面因素。其一是观测数据的准确性或准确程度,这是因为在获取观测数据的过程中一般存在随机测量误差,导致所讨论的变量成为随机变量。其二是对观测数据处理方法的选择,即到底是采用插值方法还是用拟合方法,插值
4、方法之中、拟合方法之中又选用哪一种插值或拟合技巧来处理观测数据。插值问题忽略了观测误差的影响,而拟合问题则考虑了观测误差的影响。但由于观测数据客观上总是存在观测误差,而拟合函数大多数情况下是通过经验公式获得的,因此要正确揭示事物的内在规律,往往需要对大量的观测数据进行分析,尤为重要的是进行统计分析。统计分析的方法有许多,如方差分析、回归分析等。,5,谢谢观赏,2019-8-23,数据拟合虽然较有效地克服了随机观测误差的影响,但从数理统计的角度看,根据一个样本计算出来的拟合函数(系数),只是拟合问题的一个点估计,还不能完全说明其整体性质。因此,还应该对拟合函数作区间估计或假设检验,如果置信区间太
5、大或包含零点,则由计算得到的拟合函数系数的估计值就毫无意义。这里所采用的统计分析方法就是所谓的回归分析。另外还可用方差分析的方法对模型的误差作定量分析。 对于插值方法,本文简单介绍最常用的插值法的基本结论及其Matlab实现问题。由于数据拟合问题必须作区间估计或假设检验,所以除了介绍最基本的数据拟合方法最小二乘法的基本结论及其Matlab实现问题外,我们专门介绍了对数值拟合问题进行区间估计或假设检验的统计方法。,6,谢谢观赏,2019-8-23,即介绍回归分析方法及其Matlab实现。 数据处理问题通常情况下只是某个复杂实际问题的一个方面或部分内容,因而这里所介绍的数据处理方法函数插值和数据拟
6、合的方法(包括回归分析)通常只能解决实际问题中的部分问题计算问题。一般来说,对实际问题进行数学建模需要用到多方面知识,只有很少的情况下可以单独使用本章所介绍的内容,故我们最后以修改后的美国91年数学建模A题为例说明如何使用数值计算知识建立数学模型,从而解决实际问题的方法。,7,谢谢观赏,2019-8-23,1、插 值 法,在生产和实验中,常常需要根据一张表格表示的函数推算该表中没有的函数值.解决此类问题的简单途径之一利用插值法。,插值在数学发展史上是一个老问题,它是和Gauss, Lagrange, Newton等在著名数学家连在一起的。它最初来源于天体计算由若干观测值计算人一时刻星球的位置。
7、现在,插值法在工程技术和数据处理有许多直接应用,而且也是数值积分、数值微分的基础。,8,谢谢观赏,2019-8-23,1.1 插值概念与基础理论,1.1.1 插值问题的提法,对于给定的函数表,(其中 在a,b上连续, x0,x1,xn 是 a,b上的 n+1个互异的点),在某函数类(x) 中求一个函数(x) ,使,(xi)=yi , (i=0,1,2,n) (2),(1),并用函数(x) 作为函数 y=f(x) 的近似函数,即y= f(x) (x) , ( xa,b ),9,谢谢观赏,2019-8-23,这类问题称为插值问题。 a,b称为插值区间, x0 , x1, . , xn 称为插值节点
8、,(2)称为插值条件,插值条件是选择近似函数的标准,满足此条件的近似函数 (x) 称为插值函数, f(x) 称为被插值函数。,函数类(x) 有多种取法,常用的有代数多项式、三角函数和有理函数。,最简单的插值函数是代数多项式,相应的插值问题称为多项式插值。,最简单的插值函数是代数多项式,相应的插值问题称为多项式插值。,10,谢谢观赏,2019-8-23,11,谢谢观赏,2019-8-23,1.2 插值多项式的求法,在前面讨论插值多项式的存在唯一性时,实际上已提供了它的一种求法,即通过求解线性方程组来确定其系数ai (i=0,1,2,n),但是这种方法不仅计算量大,而且因不能获得简明的表达式而给理
9、论和应用研究带来不便。在这里我们学习两种简便而实用的求答。,1.2.1 拉格朗日插值多项式,在线性代数中知道,所有次数不超过n次的多项式构成一个n+1维线性空间。其基有各种不同的取法。因此尽管满足条件(4)的n次插值多项式是唯一的,然而它的表达式可以有多种不同的形式。如果取满足条件:,12,谢谢观赏,2019-8-23,的一组n次多项式,作为上述,线性空间的基,则容易看出,因此,由n+1个代数多项式,线性生成的多项式(10)就是满足插值条件的n次插值多项式。,(10),(9),满足条件(9)的多项式,称为n+1个节点的n次基本插值多项式(或n次基函数),13,谢谢观赏,2019-8-23,显然
10、,求拉格朗日多项式的关键是求n次插值基函数。,因此,可设,因为,为n次多项式,且,14,谢谢观赏,2019-8-23,两种特殊的Lagrange插值多项式,1.线性插值(两点插值),最简单的插值是线性插值(此时n=1), 这时插值问题就是求一次多项式,P1(x)=a0+a1x,使它满足条件,P1(x0)=y0 , P1(x1)=y1 ,这时,于是线性插值多项式为,即,它就是通过M0(x0,y0)和M1(x1,y1)两点的线段.,15,谢谢观赏,2019-8-23,2.抛物插值,线性插值仅仅用两个节点以上的信息,精确度较差。为了提高精确度,我们进一步考察以下三点的插值问题(n=2):,这时,由此
11、得到抛物插值多项式,抛物插值又称三点插值.,16,谢谢观赏,2019-8-23,例1 已知,的函数表,并估计误差。,分别用拉格朗日线性和抛物线插值求,的近似值,,%lagrange插值法的程序function y=lagrange(x0,y0,x);n=length(x0);m=length(x);for i=1:mz=x(i);s=0.0;for k=1:np=1.0;for j=1:nif j=kp=p*(z-x0(j)/(x0(k)-x0(j);endends=p*y0(k)+s;endy(i)=s;end,clearx0=10 11 12 13 14 ;y0=2.3026 2.3979
12、,2.4849,2.5649 2.6391;x=10:0.1:15;y=lagrange(x0,y0,x);plot(x0,y0,+,x,y),17,谢谢观赏,2019-8-23,1901年龙格(Runge) 给出一个例子: 定义在区间-1,1上,这是一个光滑函数,它的任意阶导数都存在,对它在-1,1上作等距节点插值时,插值多项式情况,见图:,从图中,可见,在靠近-1或1时,余项会随n值增大而增大,如P12(0.96)=36!但f(0.96)=0.25,18,谢谢观赏,2019-8-23,从图中,还可发现,在0附近插值效果是好的,即余项较小,另一种现象是插值多项式随节点增多而振动更多。 这种插
13、值多项式当节点增加时反而不能更好地接近被插之数的现象,称为龙格现象。,上述现象和定理,告诉我们用高次插值多项式是不妥当的,从数值计算上可解释为高次插值多项式的计算会带来舍入误差的增大,从而引起计算失真。那么如何提高插值精度呢?采用分段插值是一种办法。实践上作插值时一般只用一次、二次最多用三次插值多项式。,19,谢谢观赏,2019-8-23,分段线性插值的构造:,设f(x)是定义在a,b上的函数,在a,b上节点 a= x0 x1x2xn-1xn=b, 的函数值为 y0 , y1 ,y2 ,yn-1 ,yn 。,(x)在每个子区间xi , xi+1(i=0,1,2,n-1)上是一次插 值多项式;,
14、这种分段低次插值称为分段线性插值.在几何上就是用折线段带代替曲线,故分段线性插值又称为折线插值.,1.2.2 分段线性插值,分段线性插值:matalb调用格式:yi=interp1(x,y,xi,linear),x,y为插值节点,xi为待求节点,20,谢谢观赏,2019-8-23,分段线性插值曲线图:,曲线的光滑性较差,在节点处有尖点,但如果增加节点的数量,减小步长,会改善插值效果,21,谢谢观赏,2019-8-23,例1 已知,的函数表,并估计误差。,分别用拉格朗日线性和抛物线插值求,的近似值,,clearx0=10 11 12 13 14 ;y0=2.3026 2.3979,2.4849
15、2.5649 2.6391 ;x=10:0.1:15;y1=interp1(x0,y0,x,linear);yy1=interp1(x0,y0,11.5,linear); y2=interp1(x0,y0,x,cubic);yy2=interp1(x0,y0,11.5,cubic);subplot(1,2,1)plot(x0,y0,+,x,y1,11.5,yy1,rO)title(Piecewise linear)subplot(1,2,2)plot(x0,y0,+,x,y2,11.5,yy2,rO)title(Piecewise cubic),22,谢谢观赏,2019-8-23,分段二次插值
16、即:选取跟节点x最近的三个节点xi-1,xi, xi+1进行二次插值,即在区间xi-1, xi+1,取:这种分段的低次插值叫分段二次插值,在几何上就是用分段抛物线代替y=f(x),故分段二次插值又和分段抛物插值。,matlab调用格式yi=interp1(x,y,xi,cubic) %二次多项式插值,23,谢谢观赏,2019-8-23,什么是样条:,是 指飞机或轮船等的制造过程中为描绘出光滑的外形曲线(放样)所用的工具,样条本质上是一段一段的三次多项式拼合而成的曲线,在拼接处,不仅函数是连续的,且一阶和二阶导数也是连续的,1946年,Schoenberg将样条引入数学,即所谓的样条函数,1.3
17、 三次样条插值,24,谢谢观赏,2019-8-23,-(1),定义1.,1.4.1、三次样条插值函数,25,谢谢观赏,2019-8-23,26,谢谢观赏,2019-8-23,27,谢谢观赏,2019-8-23,28,谢谢观赏,2019-8-23,clearx0=0 1 2 3;y0=0 0.5 2 1.5;x=0:0.1:3;pp1=csape(x0,y0,complete);y3=ppval(pp1,x);%计算插值函数在x处的值plot(x0,y0,+,x,y3,r),29,谢谢观赏,2019-8-23,30,谢谢观赏,2019-8-23,31,谢谢观赏,2019-8-23,32,谢谢观赏
18、,2019-8-23,33,谢谢观赏,2019-8-23,34,谢谢观赏,2019-8-23,35,谢谢观赏,2019-8-23,36,谢谢观赏,2019-8-23,37,谢谢观赏,2019-8-23,38,谢谢观赏,2019-8-23,一维插值总结 插值函数一般是已知函数的线性组合或者称为加权平均。在已知数据点较少时,插值技术在工程实践和科学实验中有着广泛而又十分重要的应用。例如在信息技术中的图像重建、图像放大过程中为避免图像失真、扭曲而增加的插值补点,建筑工程的外观设计,化学工程试验数据与模型分析,天文观测数据、地理信息数据的处理,社会经济现象的统计分析等方面,插值技术的应用是不可或缺的。
19、插值技术(或方法)远不止这里所介绍的这些,但在解决实际问题时,对于一位插值问题而言,前面介绍的插值方法已经足够了。剩下的问题关键在于什么情况下使用、怎样使用和使用何种插值方法的选择上。拉格朗日插值函数在整个插值区间上有统一的解析表达式,其形式关于节点对称,光滑性好。但缺点同样明显,这主要体现在高次插值收敛性差(龙格现象);增加节点时前期计算作废,导致计算量大;一个节点函数值的微小变化(观测误差存在)将导致整个区间上插值函数都发生改变,因而稳定性差等几个方面。因此拉格朗日插值法多用于理论分析,在采用拉格朗日插值方法进行插值计算时通常选取n 7。分段线性插值函数(仅连续)与三次样条插值函数(二阶导
20、数连续)虽然光滑性差,但他们都克服了拉格朗日插值函数的缺点,不仅收敛性、稳定性强,而且方法简单实用,计算量小。因而应用十分广泛。,39,谢谢观赏,2019-8-23,2、数 据 拟 合,在科学计算中经常要建立实验数据的数学模型。给定函数的实验数据,需要用比较简单和合适的函数来逼近(或拟合)实验数据。这种逼近的特点是:(a) 适度的精度是需要的;(b) 实验数据有小的误差;(c) 对于某些问题,可能有某些特殊的信息能够用来选择实验数据的数学模型。逼近离散数据的基本方法就是曲线拟合,常采用最小二乘拟合,曲线拟合问题的数学描述是,已知一组(二维)数据(xi,yi ) ,i = 1,2,。,n(即平面
21、上的n个点(xi, yi ) ,i = 1,2,。,n), x i 互不相同。寻求一个函数(曲线) y = f (x),使f (x)在某种准则下与所有数据点最为接近,即曲线拟合得最好。最小二乘拟合分为线性最小二乘拟合和非线性最小二乘拟合。,40,谢谢观赏,2019-8-23,2.1线性最小二乘拟合(多项式拟合)方法在线性最小二乘拟合中,用的较多的是多项式拟合。如果取 r1( x), , rm+1( x) =1, ,xm ,即用m 次多项式拟合给定数据,则Matlab中有现成的函数 a=polyfit(x0,y0,m),其中输入参数x0,y0为要拟合的数据,m为拟合多项式的次数,输出参数a为拟合
22、多项式y=amxm+a1x+a0系数a= am, , a1, a0。多项式在x处的值y可用下面的函数计算 y=polyval(a,x)。例4 某乡镇企业1990-1996年的生产利润如下表:,年份 1990 1991 1992 1993 1994 1995 1996利润(万元) 70 122 144 152 174 196 202试预测1997年和1998年的利润。,41,谢谢观赏,2019-8-23,解 作已知数据的的散点图,x0=1990 1991 1992 1993 1994 1995 1996;y0=70 122 144 152 174 196 202;plot(x0,y0,*)发现该
23、乡镇企业的年生产利润几乎直线上升。因此,我们可以用y = a1 x + a0 作为拟合函数来预测该乡镇企业未来的年利润。编写程序如下:x0=1990 1991 1992 1993 1994 1995 1996;y0=70 122 144 152 174 196 202;a=polyfit(x0,y0,1)y97=polyval(a,1997)y98=polyval(a,1998)求得a1 = 20 ,a0 = -4.0705104 ,1997年的生产利润y97=233.4286,1998年的生产利润y98=253.9286。,42,谢谢观赏,2019-8-23,2 非线性最小二乘拟合Matla
24、b的优化工具箱中提供了两个求非线性最小二乘拟合的函数:curvefit和leastsq。使用这两个命令时,都要先建立M文件fun.m,但它们定义f (x)的方式是不同的。,1 curvefit设已知xdata=(xdata1,xdata2,xdatan ),ydata=(ydata1,ydata2,ydatan ),curvefit用以求含参量x(向量)的向量值函数F(x,xdata)=(f(x,data1), ,f(x,xdata n ) T中的参变量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,输入格式为:(1)x=curvefit(fun,x0,xdata,yd
25、ata);(2)x=curvefit(fun,x0,xdata,ydata,options);(3)x=curvefit(fun,x0,xdata,ydata,options, grad);(4)x,options=curvefit(fun,x0,xdata,ydata,);(5)x,options,funval=curvefit(fun,x0,xdata,ydata,);(6)x,options,funval,Jacob=curvefit(fun,x0,xdata,ydata,).输出目标函数值格式:f=fun(x,xdata).其中x0为迭代初值,options为控制参数。,43,谢谢观赏
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 专题 一元 方法 课件

链接地址:https://www.31ppt.com/p-1625479.html