毕业设计论文回归分析在股票预测中的应用.doc
成都理工大学毕业设计(论文)回归分析在股票预测中的应用作者姓名: 专业班级:应用数学 2005070101 指导老师: 摘 要回归分析预测被广泛应用于经济学、社会科学、工程技术和生物学等许多领域当中,进行各专业指标变量的统计分析和预测控制。本文从回归分析预测与其他预测方法的简单算法对比出发,系统的讨论了线性回归分析和非线性回归分析的基本算法,再以八一钢铁股票的历史价格为例,对比多元线性回归和非线性回归分析预测,得出非线性回归分析拟合能力更强、拟合优度更高的结论。关键字:回归分析预测;非线性回归;线性回归;拟合度Regression analysis in the stock of the use of forecastAbstract: The regression analysis forecast is widely applied in the economic, the social sciences, the engineering technology and the biology and so on the middle of many domains, carries on each specialized target variable the statistical analysis and the predictive control. This article embarks from the regression analysis forecast with other forecast technique's simple algorithm contrast, system's discussion linear regression analysis and non-linear regression analysis's primary algorithm, again take 81 steel and iron stock's historical price as the example, the contrast multi-dimensional linear regression and the non-linear regression analysis predict that obtained the non-linear regression analysis fitting ability to be stronger, a goodness of fit higher conclusion.Keywords: Forecast regression analysis,Non-linear regression,Linear regression,Fit目 录第1章 前 言11.1 选题背景和意义11.2 股票的可预测性21.3 回归的发展概况31.4 文章结构4第2章 预测方法概述62.1 趋势分析法62.2 时间序列法72.3 灰色预测法72.4 模糊数学法82.5 回归分析法9第3章 回归分析103.1 线性回归分析113.1.1 一元回归模型113.1.2 多元回归线性分析模型123.1.3 线性相关程度测定及相关性检验预测163.2 非线性回归分析173.2.1 非线性回归分析173.2.2 参数估计和模型检验193.2.3 非线性回归分析存在的问题21第4章 实例分析234.1 用回归分析进行预测的步骤234.2 数据的选取234.3 线性回归分析的程序实现244.3.1 回归方程求解244.3.2 运行结果264.3.2 模型预测273.3.3 结果分析274.4 非线性回归分析的程序实现274.4.1 模型拟合294.4.2 差分运算294.4.3 模型定阶314.4.4 建立模型314.4.5 模型检验314.4.6 模型预测324.4.7 绘图324.4.8 结果分析33结 论34致 谢35参考文献36附 件37IV39第1章 前 言1.1 选题背景和意义股票价格是中国绝大多数公民关心的问题,也是经济、系统科学领域研究的热点问题。目前,证券市场的成熟程度己经成为衡量一个国家经济总体发展水平的重要指标。西方发达国家证券化比率(股票市场总市值占GDP的比重)高达50%-100%。新中国的证券市场虽然起步较晚,但有了较快发展,主要表现在股票市场的总市值和上市公司数目的不断增长。我国加入WTO,所有经济元素都在向国际看齐,诸如法律法规,关税水平等。但随着贸易制度的完善,股市作为经济的“晴雨表”与国际接轨,逐步走向成熟、规范是必然趋势。随着国家对证券市场的开放,政策调控水平以及投资集团群体思维能力的提高,人们在交易行动之前对证券市场的未来加以预测也会成为一种自觉的思维活动。投资者们时刻在关心股市、分析股市、试图预测股市的发展趋势,然而影响股票价格的因素很多,其作用机制也相当复杂,其走势的预测非常困难。主要因为我们缺乏信息对市场影响的传导系统的结构和系统模型,并且不能准确把握金融政策、利率政策、公司状况、国际市场及投资者心理承受能力等因素的变化及其对市场的影响方式和作用。因此,对我国证券投资预测的研究,不仅可以使投资者获得风险既定下的最大收益或收益最大下的最小风险,而且对研究证券价格的形成机制、评价证券市场效率以及对证券市场实施有效监管都具有重要作用。也正因为如此,如何判断或预测股票市场价格走势引起了众多经济金融学家和市场分析人员的极大兴趣,各种预测方法相继涌现,证券投资领域可以说是研究和运用各种预测方法最多的领域之一。股市预测是经济预测的一个分支,它是以准确的调查统计资料和股市信息为依据,从股票市场的历史现状和规律性出发,运用科学的方法,对股票市场的未来发展前景做出测定。股市的可预测性问题与有效市场假说(三ffieientMarketHypothesis,简称EMH)密切相关。如果有效市场理论或有效市场假说成立,股票价格充分反映了所有相关的信息,价格变化服从随机游走,股票价格的预测则毫无意义。从中国股票市场的特征来看,大多数学者的结论支持中国的股票市场尚未达到弱势有效,也就是说,中国股票市场的股票价格时间序列并非序列无关,而是序列相关的,即历史数据对股票的价格形成起作用,因此,可以通过对历史信息的分析预测价格。随着计算机技术、混沌、分形理论的发展,人们开始将股票的市场行为纳入非线性动力学研究范畴。我国学者闰冀楠、张维和美国学者AF.Darart和MZhong等分别采用非参数检验等方法,发现我国股市的指数收益中,存在经典线性相关之外的非线性相关,从而拒绝了随机游走的假设,指出股价的波动不是完全随机的,它貌似随机、杂乱,但在其复杂表面的背后,却隐藏着确定性的机制,因此存在可预测成分。当然,认为股价可预测,并不等于说可以100%的准确预见,而是指可以使用经济预测的方法,建立起能在一定误差要求之下的预测股价变动的预测模型。一批学者先后证实了证券市场的确存在着一些可利用的规律,其成功率之高和稳定性之久,远远超出了“随机行走理论”可以解释的范围,因此,最近二十年,持证券市场缺乏效率观点人越来越多,证券市场预测的研究也再次成为人们关注的热点,应用技术分析等方法进行证券投资预测分析研究中逐渐成为证券投资的主要手段之一1。1.2 股票的可预测性通过对已知事实的分析总结,得到对客观世界的认识和规律。这些规律可以帮助人类认识现有的世界,同时帮助人类对未知的现象做出正确的预测和判断,预测不能直接观测的事实。预测是指从已知事件测定未知事件。预测理论作为一种通用的方法论,既可以应用于研究自然现象,也可以应用于研究社会现象。将预测理论应用于各个领域,就产生了预测的各个分支,如医学预测、电力预测、经济预测、气象预测等等。在金融经济学的发展上,人们对金融预测作了大量的探索,取得了丰硕的成果。典型的金融预测是回归分析预测。回归分析预测就是在大量观测数据的基础上,找出这些变量之间的内部规律,从而定量的建立起一个变量与其它变量的数学表达式。为了研究这种规律性,人们提出了许多预测模型,并对这模型的性质及分析方法进行了深入的研究2。这些在理论上很成功,但它们都是建立在很理想的假设上,而这些假设与市场的实际情况有很大差距,所以这些理论在实际效果中并不理想。另一种方法是从统计角度对金融时间序列进行研究。这种方法直接从实际数据出发,应用概率统计推断出市场未来的变化规律。虽然这种方法从经济学角度来讲缺乏理论性,但是在实际应用中效果较好。而且,统计方法还可以对经济模型的好坏进行检验和评价。股市预测,是金融经济预测的一个重要分支。它对股票市场所反映的各种资讯进行收集、整理、综合等工作,从股市的历史、现状和规律性出发,运用科学的方法,对股市未来发展前景进行测定11。1.3 回归的发展概况 回归分析方法通常分为线性和非线性回归方法两大类,其中线性回归方法己经发展成为数理统计学的一个相对成熟的重要分支之一,并被广泛应用于经济学、社会科学、工程技术和生物学等许多领域当中,进行各专业指标变量的统计分析和预测控制,并取得可喜成绩。随着回归分析方法研究的逐步深入以及具体实践遇到的大量复杂的非线性问题,在线性统计的基础上,非线性回归分析研究也逐渐发展起来并成为处理非线性问题的主要手段之一,起到传统线性回归方法不可替代的重要作用。 统计学理论的预测方法,主要是基于模型拟合和最小二乘原理建立各种回归、自回归、混合回归模型进行预测。此类方法,具有严格的数学基础,应用也最广泛,近年也有相当的发展。如Nelder,JA和城dderburn,R·w·M提出了广义线性模型13,它放松了经典线性模型的假设,极大地丰富了回归分析的理论。Aarno,Li和Duan对假设进一步放松,提出了一般回归模型,该领域研究具有十分惊人的前景,但由于其仅能辨识参数的方向,应用起来十分不便,仅能对建模提供指导。在计量经济研究中,Ichimura则提出了一类十分重要的模型一单指标模型。研究的重点在于使之更适合于实际社会经济系统建模。非参数建模,数据驱动式建模所考虑的重要问题是,在事先对模型完全不了解的情况下,如何提出一个适当的模型。这方面研究的一个重要论题是非参数建模。Friedman和Stuetzle提出了pp回归模型;Breioan和Friedman提出了建模的ACE方法,Hastie和TibS于lirani提出了广义加性模型;Buja,Hastie和Tibshiran对加性建模进行了全面的评述与讨论;Breiman提出了高维数据建模的MARS方法。它们共同的特点是模型形式灵活,建模过程涉及很少假定。但计算量大,解释困难,在指导变量选择及模型设定方面深入的研究是必不可少的。至于估计问题,NL2SLS(非线性二阶段最小二乘)、NL3SLS(非线性三阶段最小二乘)和NLFIML(NLLIML)(非线性完全(有限)信息极大似然)估计方法是通常采用的方法,AmemiyA和Gallani均给予了总结与评述14。解决的关键在于辅助变量的选取,另外,有效初始点设置及考虑全局最小参数估计一方法的研究也是值得考虑的。1.4 文章结构首先介绍论文研究背景和研究的可行性,并讨论了回归的简单发展。股票预测已成为越来越多的股民和学者关注的问题,股票理论的可预测性被越来愈多的人认可。回归分析和非线性回归分析已越来越广泛的使用于股票研究中,进行不断的研究和改善,意图得到更稳定更符合规律的算法结构。其次对各种预测方法进行了简单的概述介绍。包括理论定义和基本算法,并简单阐述了各种预测方法的优缺点。可以看到各种方法都有它的优缺点和需要注重改善的地方。各种预测方法的对比中,可以发现回归分析预测有操作简单,容易理解等方面的优点,但也有选不准自变量的困扰。再次仔细介绍了回归分析的两部分,线性回归分析和非线性回归分析算法的算法结构步骤和具体算法,从最基本的一元线性回归分析着手,介绍与一元线性回归分析算法相似度跟高的多元线性回归,并进一步的引出非线性回归分析,提出非线性回归分析的分析结果依赖于人为地设定出合理的期望函数和接近真实的初估值的缺点。最后,实例分析中简单讨论了数据处理的方法步骤,解决数据来源,选定八一钢铁历史数据数量95期,分别做了线性和非线性回归分析的程序对比,线性回归分析中使用matlab程序以开盘价、最高价、最低价、成交额、成交量为自变量,做出多元线性回归函数,并进行相关性程度分析,进行了10期收盘价格预测;非线性回归模型中,实现通过对每日收盘价的统计和规范化建立使用garch模型 ,先对数据进行差分规范化,使得数据达到平稳序列,绘制时序图,确定随机波动比较平稳,考查差分后序列的自相关图确定其相关性,建立模型,检验模型,实现模型拟合成功后成功预测10天的预测收盘价,数据用程序处理成功。第2章 预测方法概述预测作为一门实用学科,它所研究的内容就是如何对未来事物的发展进行科学的估计。所谓经济预测,就是指人们根据对客观经济发展事物及规律的认识,在观察和分析经济发展过程的历史与现状的基础上,对未来的经济发展趋势做出合理的判断和估计。以个别经济单位生产经营发展的前景作为考察对象,研究其各项有关指标之间的联系和发展变化状况的,则属于微观经济预测,如对工业企业所生产的具体商品的生产量、需求量和市场占有率的预测等。微观经济预测,是企业制定生产经营决策以及编制和检查计划的依据。经济预测的方法大体可分为两大类:一类是定性分析法(又称经验判断法),它是人们通过对事物的性质、特点和已占有情况的分析,依靠主观判断和逻辑分来析预测事物未来发展状况的其结果只是定性描述和大体估计。常用的定性预测方法有:市场调查预测法、专家评估法、主观概率法等。另一类是定量分析法(又称分析计算法),它是人们利用已占有的基础数据资料,通过建立数学模型进行计算来预测事物未来发展状况的,其结果则比较明确和具体。随着时代的发展,数学被越来越多的应用到金融中。它也给金融带来了一场革命。其中最受人瞩目的莫过于金融工程、定量投资以及风险管理。基于以上理论,除了传统的股票投资分析方法以外,近年来又发展了许多新的股市预测方法,并且取得了很好的效果7。2.1 趋势分析法趋势分析法也称趋势曲线分析、曲线拟合或曲线回归,是根据已知的历史资料来拟合一条曲线,使得这条曲线能反映负荷本身的增长趋势,然后按照这个增长趋势曲线,对要求的未来某一点估计出该时刻的负荷预测值。常用的趋势模型有线性趋势模型、多项式趋势模型、线性趋势模型、对数趋势模型、幂函数趋势模型、指数趋势模型、逻辑斯蒂(logistic)模型、龚伯茨(gompertz)模型等,寻求趋势模型的过程是比较简单的,这种方法本身是一种确定的外推,在处理历史资料、拟合曲线,得到模拟曲线的过程,都不考虑随机误差。采用趋势分析拟合的曲线,其精确度原则上是对拟合的全区间都一致的。在很多情况下,选择合适的趋势曲线,确实也能给出较好的预测结果。但不同的模型给出的结果相差会很大,使用的关键是根据地区发展情况,选择适当的模型。2.2 时间序列法时间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到 所形成的数列。时间序列预测法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。设为时间序列中时点i的观测值,其样本为N;每次移动地求算术平均值所采用的观测个数为n;则在第t时点的移动平均值为 (2-1)式中 第t时点的移动平均值,也可当做第t+1时点的预测值,即 , (2-2)由(2-2)式可导出: (2-3)即得 (2-4)由(2-4)可见,在计算各时的移动平均值过程中,若已算得,则用(2-4)式较易于迭代计算出2.3 灰色预测法灰色预测法是一种对含有不确定因素的系统进行预测的方法。灰色预测模型称为GM模型,GM(1,1)表示一阶一个变量的微分方程型预测模型。GM(1,1)是一阶单序列的线性动态模型。设有数列,, 对作累加生成,得到新的数列,其元素 (2-5)对数列,可建立预测模型的白化形式方程 (2-6)式中:-为待估参数.分别称为发展灰数和内生控制灰数.设为待估参数向量,则 最小二乘法求解,有: (2-7)式中: (2-8) (2-9)将(2-7)式求得的代入(2-6)式,并解微分方程,有GM(1,1)预测模型为: (2-10)灰色模型法使用短期数据得到的结果比较占优,但是使用长数据列得到的结果与其它相比,并不占优,数据列过长,系统受干扰的成分多,不稳定因素大,反而易使模型精度降低,降低预测结果的可信度。2.4 模糊数学法模糊推理是在模糊逻辑基础上对模糊命题进行演绎和归纳推理,以完成具有象人一样的近似判断能力的工作。模糊推理的句型表达如下:规则:如果是,且是,且是;那么是。前提:如果是,且是,且是结论:那么是简记为: 结论为其中X,、Y为被研究对象的名称,n为被研究对象的个数。、B分别是论域、Y上的模糊子集,”表示”且”运算,给出建立在推理规则上的逻辑运算。2.5 回归分析法回归预测可以说是最为古老同时又应用得最为广泛的一种定量预测方法,是处理多变量相依关系的一种统计方法,它是数理统计中应用最为广泛的一种方法之一。它的基本思想是分析预测对象与有关因素的相互关系,选择适当的回归模型(即回归方程)表达出来,然后再根据数学模型预测其未来状态。然而在许多实际问题中,由于各种关系错综复杂,要精确的建立变量间数学表达式又特别困难,同时很多变量之间还受到其它偶然因素的影响,使得这些变量之间的关系具有不确定性。回归分析方法就是在大量观测数据的基础上,找出这些变量之间的内部规律,从而定量的建立起一个变量与其它变量的数学表达式。因此简单说来,回归分析就是研究一个变量与其它变量之间关系的一种统计方法,由于有较为严密的理论基础和较成熟的计算分析方法,所以,如果模型建立得当,则可得到比较精确的预测结果。常用的回归模型是多元线形回归模型(一元线性回归模型只是多元线性模型的一个特例)和多元非线形回归模型3。第3章 回归分析回归预测方法是以相关性原理为基础的预测方法,是数理统计中回归分析方法在预测中的应用。从市场现象之间的因果关系出发,通过建立回归预测模型,根据一种或几种现象的变化去推测另一种现象变化的一种定量预测法。在经济预测中,人们把预测对象当作因变量,把那些与预测对象有关的因素当作自变量,收集自变量的充分数据,应用相关分析和回归分析求得回归方程,并利用回归方程进行预测。在回归预测中,预测对象y是一个随机变量,与之相关的普通变量x或一组普通变量,称为自变量。如果对于自变量的每一个取值或每一组取值,预测对象y的取值都有相应的分布。但由于变量间关系的复杂性或由于统计数据、试验数据不可避免地存在随机误差而使它们之间的关系带有不确定性,使预测者无法得到描述它们之间关系的精确的数学表达式,那么,就需要用回归分析的方法,通过大量的统计数据或试验数据,寻找它们之间潜在的统计规律性,并以回归方程做出描述。根据回归方程,就可以由一个或多个自变量的给定值对预测对象做出估计和预测。回归预测法中的自变量与因变量之间,有的属于因果关系,有的属于伴随关系。不能认为只有因果关系才能进行回归预测,实际上伴随关系也是一种相关关系,只要收集大量的足够的资料,也可以用回归预测法进行预测。在回归预测法中,自变量不是随机的或者是给定的,这与相关分析中自变量有所区别。相关分析中的自变量是随机的。由于回归分析方法有较严密的理论基础和较成熟的分析、计算方法,同时,各种社会现象都普遍地与某些因素存在着不同程度的相关关系,所以回归预测方法在股票市场的预测中得到广泛的应用6。以下则初步介绍怎样运用回归分析的方法描述这种关系,并据此进行股票市场预测。3.1 线性回归分析3.1.1 一元回归模型应用回归分析法进行经济预测的关健就是建立回归方程当一个自变量与因变量(即预测对象)之间相关关系的统计规律呈线性关系时,就称其为一元线性回归。一元线性回归分析预测法,就是处理一个自变量与因变量间线性关系的一种用途很广的方法。该方法简单、适用,可用于处理有因果关系的经济方面的统计数据。一元线性回归的基本模型为:其中,y为预测对象少的估计值。x为自变量,是预测对象的相关因素;a.b为回归系数,回归直线由回归系数来确定。a和b应满足条件:使回归线在总体上与各个数据点最为接近。回归系数a、b是根据最小二乘法和已知的样本资料求出的,其求解结果是:式中:,分别为自变量x和预测对象y的统计数据,分别为x和y所取统计数据的平均值。按上述公式求出回归系数a和b后即可确定回归方程。根据回归方程,可以由给定的自变量的取值x,对预测对象少的取值做出预测。线性回归预测是在假定y与x之间存在着线性关系的条件下进行的。线性回归预测模型能否做出较好的预测,这取决于y与x之间呈线性关系的近似程度。y与x之间在多大程度上可以近似地认为它们之间存在着线性关系,不能仅凭散点的分布直观判断,还应当通过相关性检验做出定量判断。相关性检验是根据y与x的相关系数来判断它们之间的线性关系。相关系数r的绝对值越接近于1,则y与x越接近于线性关系。越接近于零,则y与x越偏离线性关系。只有当足够大时才能以线性回归模型进行预测。确定y与x之间线性关系的恰当的值,可以从相关系数临界值表上查出临界值行判断。当时即可认为y与x之间存在着显著的线性关系。相关系数:可由下式求得:由于线性回归模型是对y与x关系的近似描述,所以当以回归模型进行预测时,得到的预测值y也只能是近似的。这就需要对预测值的置信区间做出判断。预测值的置信区间可由下式计算:式中表示预测置信区间的上、下限。 是显著性水平为,自由度为n-2的t分布临界值。它可以根据所确定的显著性水平和所取样本数n从t分布表中查出。3.1.2 多元回归线性分析模型在股票市场预测中,由于股票市场这一经济现象的复杂性,预测对象往往不是仅与一个自变量有关,而是受到多个相关因素的共同作用。为了全面地描述预测这一经济现象与诸相关因素的关系,更有效地做出预测,就需要建立有多个自变量的回归预测模型。具有多个自变量的回归预测称为多元回归预测4。假设预测对象y与一组自变量, ,存在着线性回归关系,那么预测对象与这一组自变量之间的关系可以用多元线性回归方程来描述。式中, , ,为回归系数。回归系数的确定同一元回归分析相类似,是以预测对象y及各自变量,的统计数据按最小二乘法求出。设分别是, , ,的最小二乘估计值,于是有 (3-1)式(3-1)中,是y中的一个最小二乘估计.对于每一个试验数据,由式(3-1),可得一个,即,.这里称为实际值的回归值。显然,回归值与实际值有误差,即 当然我们希望与值偏离程度越小越好,这样才能使回归值与实际值拟合得最好,这里和偏差越小是指每一个和,于是对全部观察值(实验值)有:为此我们可以用微分学中求极值的原理来确定, , , (3-2)整理化简为 (3-3)这里令所以(3-2)式可用矩阵形式表示为或如果系数矩阵A满秩,则存在,此时有 (3-4)这里式(3-4)即为多元回归方程中参数的最小二乘估计。建立多元线性回归方程之前,通常先对预测对象y与各个自变量的关系进行分析,描绘出y与各个自变量的散点图。如果预测对象与自变量之间为某种非线性关系,则须以类似一元非线性回归的方法,通过变量代换转化为线性关系来处理。多元回归预测是一元回归预测的推广,其基本原理和步骤与一元回归预测大致相同,只是多元回归预测的方法要复杂得多,计算量要大得多。多元线性回归模型为:其中,其中X为设计矩阵,为参数向量。利用最小二乘法我们可以得到参数向量的解为:这里通常假定模型满足如下条件:1)随机误差是不相关的, 即 ,2)解释变量与误差相互独立,即 3)解释变量之间线性无关,即 3.1.3 线性相关程度测定及相关性检验预测运用回归模型预测的关键是准确地把握住预测变量与相关变量之间的相关程度,只有在变量之间存在着密切的线性关系时,所建立的线性回归模型涉及分析预测,才会变得有意义和有价值。因此,对于有不同的变量,往往先进行相关分析,然后再选有明显关系的变量进行回归分析。在回归分析中,两个变量间相关程度的测定,一般通过计算相关系数r并进行相关显著性检验判定。相关系数r的计算公式为:相关性检验:在计算相关系数r的基础上,再通过查相关系数检验表可得到的值,并将其与|r|进行比较(注:为显著性水平,一般取0.01或0.05;n为已知的自变量(即因变量)的数据个数;n-2称为自由度)。若| |> (n-2),则表明在显著性水平上y与x之间的线性关系是显著的。|r|越接近于1,预测变量y与相关变量x的相关程度就越高。当0.7|r|<1时,表明预测变量与相关变量有较高程度的相关;当0.3|r|<0.7时,表明两者有中等程度的相关;当0|r|<0.3时,表明两者相关程度甚差;当|r|<0.6时,就不能用线性回归方法进行预测。通过理论分析和相关系数,如果预测对象(因变量)与影响因素(自变量)之间,确实存在着显著的相关关系,那么过去和现在的数据规律,能延续到未来,一也就是说,因变量和自变量之间的数量关系,能够反映未来的情况。同时,对影响因素(自变量)的情况己作过调查或预测,掌握了自变量在预测期的数据。这样,就可把自变量的数据代入回归预测方程,求得预测对象(因变量)的预测值。回归方程的一个重要的应用是,对于给定的点,可以以一定的置信度预测对应的y的观测值的取值范围,即所谓预测区间由以上分析可知,当时,可以取 作为的预测值由统计学的知识可知:区间 即为的置信度为的预测区间由此模型我们可以预测,一支股票在一个周期中经过一波上涨后了由它上涨的幅度,便可得到下一波下跌幅度的预测区间。3.2 非线性回归分析3.2.1 非线性回归分析非线性回归分析是近一、二十年来在线性回归分析基础上,借助专业统计软件(如SAS、SPSS等)迅速发展起来的一种重要统计方法。相对传统的线性回归分析方法,它主要以随机变量与变量间的非线性(参数)函数关系为处理对象,通过采用非线性最小二乘法建立非线性回归模型来达到对实际问题的拟合、控制和预测目的。所以非线性回归分析无论是处理的对象还是处理方法本身都比线性回归更为复杂。本章主要介绍非线性回归分析的基本方法和存在的问题以及有关参数初值估计和模型期望函数的选取原则5。设Y是一个可观测的随机变量,它受到m个非随机因素变量,.和随机误差E的影响,并且与,.有如下非线性关系 (3-5)其中F(.;.)表示与的非线性期望函数(i=l,2,m j=l,2,P); 表示未知参数;E表示不可观测的随机扰动变量并满足正态分布和GauSS-Markov假设则称(3-5)式为非线性回归模型。对于随机变量Y和非随机变量X的n次观测数据(称为样本) 满足模型 若令 E=则模型(3-5)可化为矩阵形式 (3-6)非线性回归分析就是通过对n次观测数据建立非线性回归模型(3-6)来完成数据拟合和预测。由于数据变化特点和相应模型期望函数类型的不同,模型构建方式可分为以下三种情形8:一、若能通过变量变换和重新参数化转化成线性函数,并且变换后模型的随机扰动项E仍满足Gauss-Markov正态分布条件,则可将处理对象转化为线性问题而采用线性回归方法予以处理。二、若在变量变换后虽化成线性函数,但随机扰动项E己不满足方差齐性等假设条件,则可采用加权线性回归方法。三、期望函数不可线性化或经过线性变换后随机扰动项E不满足Gauss-Markov假设和正态分布条件,则应采用非线性回归方法,这也是处理非线性问题的一般方法。非线性回归分析的主要步骤分为观测数据的统计整理和模型期望函数类型的确定与参数迭代估计以及模型参数检验,最后是模型的重新修正和实际应用。可用图3-1表示为观测数据整理 期望函数选择 模型参数估计修正模型参数检验模型应用 图3-1 非线性回归分析流程图3.2.2 参数估计和模型检验1参数非线性最小二乘估计(NLSE)对于非线性回归模型矩阵式1.2,球参数的估计值使其误差平方和的0.5倍,即 (3-7)在时达到最小值,称之为非线性最小二乘准则。若记 目标函数为 则的NLSE估计值户也可看成求无约束最优化问题的全局最优解,即最小值。一般情况下最优化方法只能求得其局部最优解,所以也可通过求解非线性正规方程组 (3-8)得到的NLSE估计值,然后通过实际数据比较判断出户是否是全局最优解。非线性情况下,无论是求解最优化问题还是求解正规方程组,一般都采用迭代方法,首先设定参数的初估值,然后不断改进直到使误差平方和SSE逐渐达到最小,即从开始,用观测值来计算和K使得下次迭代用代替,重复上述过程,直到SSE达到认可的最小稳定值,这时得到的参数向量即为非线性最小二乘估计值。由于计算和K的方法不同,产生了不同的迭代过程。在统计软件SAS/STAT的Proc Nlin处理过程中包括了常用的五种迭代方法可供使用15:1、Gauss一Newton法。2、最速下降法。3、Newton法。4、Marquardt法。5、DUD法。其中Gauss-Newton法是最为常用的基本迭代方法,DUD法不需要计算期望函数导数,实际迭代中可针对具体的观测数据和模型期望函数特征选择不同的迭代方法。2参数和模型显著性检验无论是求解最优化问题还是求解非线性正规方程组(3-8),所得到的非线性最小二乘估计值户己不再象线性模型那样具有无偏性和最小方差等特性,所以在参数和模型显著性检验中,要确定它的样本分布和矩都是很困难的。这一点也是目前非线性回归分析中较为复杂的问题之一。但己经证明当样本容量充分大且模型满足某些条件如较低的非线性性态时,可导出用于假设检验统计量的渐近性质从而分别构造用于参数和模型显著性假设检验的T统计量和F统计量y (3-9)其中是的主对角线上的第j个元素,另外,模型的检验还应包括对随即扰动项E的Gauss-Markov假设条件和正态性的检验17,这一点可通过参数估计向量中各个参数是否具有真实的专业背景意义并做出合理的解释以及模型预测残差图进行分析判断。必要时可考虑更换模型期望函数,选择其他适合观测数据的函数类型,直到获得满意的检验结果。包括参数迭代估计和参数以及模型的显著性检验在内的全部建模过程,都能采用SAS/STAT软件中的ProcNlin过程进行编程处理,程序运行结果可根据需要输出迭代收敛过程、参数估计值、方差分析表、参数相关矩阵、模型预测值、残差图以及程序要求输出的相关结果。3.2.3 非线性回归分析存在的问题尽管非线性回归分析的主要计算过程能够借助有关统计软件来完成,但程序运行结果是否满意却要依赖于人为地设定出合理的期望函数和接近真实的初估值。这是保证参数迭代快速收敛和模型预测误差小、稳定性高的前提,要做到这一点需对观测数据变化的具体特点和备择期望函数参数的实际意义做出准确判断和理解,目前尚无一般可供遵循的固定程式,己成为非线性回归分析中许多值得进步探讨的问题之一12。对于一组给定的实际观测数据,选择某一类备择期望函数建立非线性回归模型的主要目的在于通过回归模型进行指标量变化关系的拟合、预测和控制,过分强调模型对数据的“逼真”拟合(如样条函数的拟合)而忽略预测和控制作往往并无太大实际意义。所以在模型期望函数的选取方而原则上应使所构建的问归模型具有良好的预测控制效果和方便简明的实用性,一般应遵循以下几点原则:1、非线性回归模型对观察数据拟合“良好”,残差分析结果满意;2、使非线性回归模型尽可能地具有简洁明了的表达式;3、使非线性回归模型和参数估计结果通过显著性检验;4、使非线性回归模型和期望函数的各项参数具有明确的专业背景意义;5、使非线性回归模型具有较低的非线性性态,即较低的固有非线性性态和参数效应非线性性态。非线性回归模型的非线性强度研究表明:当模型期望函数接近线性性态时,其参数迭代估计的收敛性和收敛速度对参数初估值的人为设定依赖性不强,即使较差的参数初估值往往也能很快获得收敛;同时,参数的非线性最小二乘估计结果(NLSE)几乎具有无偏性和正态性,各项检验和预测结果也会更为准确真实。第4章 实例分析本章将通过使用前两章的线性回归和非线性回归分析对股票价格进行预测。4.1 用回归分析进行预测的步骤应用回归分析进行预测的步骤9:1)试验规模的选取,决定试验集的数量,回归模型期望函数的选取是否合理以及参数初估值的设定是否接近真实值,将直接影响参数迭代的收敛速度乃至整个模型的预测的准确性和稳定性;2)预测参数的选取,不管是多元线性回归还是非线性回归预测方法的参数选定,直接影响结果的分析; 4)函数的确定和分析;5)预测,采用相应预测的计算方法计算预测数值。4.2