股票收益率的尖峰厚尾分布毕业论文1.doc
毕业论文股票收益率的尖峰厚尾分布FAT TAIL DISTRIBUTION OF STOCK RETURNS指 导 教 师: 申请学位级别: 学士论文提交日期: 2014 年6 月摘 要在经济活动占主导地位的现代社会里,不管是各国的金融机构、监管当局还是社会各界都对收益率寄予了极大的关注。自对收益率的研究以来人们在很长时间里都假设收益率是服从正态分布的,但是经验分布直观显示正态分布并不能很好的拟合收益率的分布特征,国内外对这一发现也进行了深刻的探索,并提出了好多的分布函数去拟合收益率的分布。虽然在之后的研究中发现有好多的分布对收益率的拟合效果都优于正态函数,究竟收益率服从何种分布至今并无定论。 搞清楚股票收益率等金融时间序列数据所服从的分布对金融风险的度量是至关重要的,大量研究表明,股票收益率等金融时间序列数据具有“尖峰厚尾”的分布特征,用正态分布和t分布都无法描述这种分布特征。本研究在一元线性回归分析的基础上提出了一种尖峰厚尾分布,并对沪深股市收益率进行了实证分析,给出了参数估计的方法,该分布能很好的描述沪深股市收益率的分布特征。在参数估计的过程中,本文运用了两种方法一种是直接用最大似然估计,另一种是将一元线性回归和最大似然估计结合在一起来估计收益率的密度函数中的参数,而这两种方法的实现都借助了MATLAB数学软件。最后采用了KS检验对拟合度进行了检验,发现这种分布可以很好地拟合股票收益率的分布。关键词:股票收益率; 尖峰厚尾; 一元线性回归; 最大似然估计; K-S检验ABSTRACTIn morden society where economic activity is predominant, whether the national financial institutions , regulatory authorities or the communities pay great attention to the rate of return. In a very long time people have assumed that the yield is normally distributed in its study of the rate of return, but the empirical distribution visualize that normal distribution is not a good fit yield to match distributed characteristic of rate of return , domestic and overseas also made a profound exploration to the findings and used a lot of the distribution function to fit the distribution of yields. Although the study found that there are a lot distributions to yields imitative effect that are superior to normal function, what distribution the yield obedient to has been no conclusive.Making clear that what distribution stock returns and other financial time series data obey is critical to the financial risk, a large number of studies have shown that stock returns and other financial time series data is a distribution of "fat tail",and the normal distribution and t distribution can not describe its distribution feature. On the basis of a linear regression analysis the article proposes a fat tail,peaked and skewed distribution, and makes an empirical analysis to the Shanghai and Shenzhen stock yields, giving the parameter estimation method, the distribution can well describe the Shanghai and Shenzhen stock markets returns distribution rates. In the process of parameter estimation , this paper uses two types of method to estimate parameter, one is the directly using maximum likelihood estimation, the other is a linear regression and maximum likelihood estimation combined to estimate the density function of yields the parameters, the realization of these two methods is with the help of the MATLAB mathematical software. Finally, the KS test for goodness of fit was tested and finding that this distribution can be a good fit for the distribution of stock returns.Key Words: Stock returns; fat tail; linear regression; maximum likelihood estimation; KS test目 录1 绪论11.1 引言11.2 研究背景与意义11.3 国内外研究现状31.4 论文的研究思路与组织结构41.5 本章小结52 股票收益率尖峰厚尾性检验62.1 股票收益率计算方法62.2 收益率正态检验和尖峰厚尾性72.3 尖峰检验法82.4厚尾检验法112.5 本章小结133 股票收益率分布模型143.1 几种常用收益率分布模型143.2 基于正态比值法收益率分布模型18 3.3 拟合优度检验.223.4 本章小结234 中国股票市场收益率分布实证分析244.1 数据选取及正态检验244.2 中国股票收益率尖峰厚尾性检验264.3 股票收益率的尖峰厚尾分布284.4 本章小结315 结论与展望325.1 结论325.2 展望32参阅文献33致 谢34附 录 Matlab参数估计和拟合程序.351 绪论1.1 引言 在现代众多的经济活动中,股票一直受到众多投资者的亲睐,影响着市场经济和人们的日常生活。由于面临经济、货币政策以及国家政治体制改革等因素对市场影响所带来的金融资产价格异常波动的风险,如何合理的预测和估计所持有的资产尤其是股票的收益和损失风险成为投资者和国家金融检测机构关注的焦点。对金融资产收益率分布的假设成为现代金融理论和金融市场风险分析的重要前提和度量依据。对于金融资产收益率的研究已经有一定的历史了,从最开始的用具有类似性质的布朗运动描述,到后来的正态分布的提出,再到收益率服从正态性的否定,在此基础之上人们提出了很多的分布模型去描述股票收益率,这些研究在很大程度上都促进了金融理论的发展,并为投资者更好的控制收益风险减少损失提供了一定的理论基础。尽管后来人们提出了很多的分布去拟合收益率的分布,但主要都是为了证明股票收益率不服从正态分布,但收益率到底服从什么分布,现在国内外并没有一个定论。搞清楚股票收益率等金融时间序列数据所服从的分布对金融风险的度量是至关重要的,大量研究表明,股票收益率等金融时间序列数据具有“尖峰厚尾”的分布特征,用正态分布和t分布都无法描述这种分布特征。本研究在一元线性回归分析的基础上提出了一种尖峰厚尾分布,并对沪深股市收益率进行了实证分析,给出了参数估计的方法,该分布能很好的描述沪深股市收益率的分布特征。1.2 研究背景与意义1.2.1 研究背景1602年,世界上第一个股票交易所在荷兰的阿姆斯特丹成立,象征着资产市场的的诞生。尽管早在四个世纪之前人们就开始了资本运作和股票交易,但是金融体系究竟是如何运转的人们对于它的了解还是有一定的局限。收益率分布的研究已经有一百多年的历史了 ,作为数理金融最重要的研究对象之一,对于它的研究首先要确定它的概率分布,这不仅有助于了解它的重要性质,而且对进一步探求它与其他经济变量的关系提供了有利条件。股票收益率的分布问题一直是众多统计学者和经济学家关注的焦点,而收益率的正态性分布也是最早和最经典的理论假设,这种观点最早是由法国著名的数学家Louis Bachelier提出的,在他于1900年3月29日提交的博士论文中,首次对投资市场期权的价格进行了研究并为确定标准的资产价格的变化规律,通过记录价格状态的转移概率,第一次提出了资产价格的无条件分布是正态分布。后来Einstein从物理、Wiener从数学的角度都对布朗运动做了更深的研究,都从不同的角度验证了股票收益率服从正态分布这一性质。再后来许多的学者都从不同角度证明了股票价格的变化近似服从正态分布,在很长时间里股票收益率服从正态分布在金融界和学术界中都占据着统治地位。然而,在股票的实际交易过程,股票收益率服从正态分布这一模型的假设与实际并不相符,通常情况下这一假设都太过理想化,很难通过验证。当发现这些“异常值”时,起初人们觉得是偶然现象,可以把这些异常值去掉,但后来发现这样做是不可取的,人们开始把关注点转移到了这些异常值上,发现尖峰性和厚尾性几乎是所有收益率数据所共有的。我国之前对证券行为的描述模型中,也认为证券收益率服从正态分布,但是在后来经过许多计量经济学家对大量数据进行研究后发现,我国证券收益率的分布并不服从正态分布。大量的文献都对资产收益率的非正态性进行了广泛的研究,从最早的Mandebrot和Fama到最近的Hish和Anderson,都表明不管是西方国家的市场还是其他的金融资产市场,收益率都是不服从正态分布的,而是表现出一种尖峰态,即:相比于正态分布,收益率的分布在均值附近的频数较多,而且尾部较厚,通常存在偏度。相对于发达国家,我国股票市场开始的比较晚,机制还不够成熟,制度也不够健全,投资者缺乏理性,同时,上市公司的经营管理与外部环境也与发达国家存在很大的差距,自1990年上海证券交易所成立至今,短短二十多年里,虽对交易和制度调整了多次,但还是不够完善。外国关于收益率的研究虽比较成熟但是否适用于中国市场还有待验证。之前有许多研究都从不同角度对收益率的分布进行了拟合,但究竟服从是什么分布并未给出定论,本文将从一元线性回归的角度,选择近几年沪深指数去拟合收益率分布,这将对今后收益率分布研究给出很大的参考价值。1.2.2 研究意义 入世以来,随着中国经济的发展以及金融市场的逐步开放,作为整个国民经济的一块重要基石,股票市场的作用和地位也日益突出。由于股票收益率对股票市场起到基础的衡量作用和直观的分析作用,人们也越来越关注它的分布。不管是起初的认定收益率服从正态分布还是后来的对非正态性的研究拟合,西方国家对此都有一定的历史,并积累了一定成熟度的理论模型和研究方法。由于我国资产市场起步晚,股票市场发展也并不完善,现有理论是否同样适用于我国股票市场,成为相关研究关注的焦点。 收益率分布的经验研究自20世纪60年代早期一直延续到今天 。金融资产收益率的分布假设是现代金融理论和金融市场风险分析的重要前提,通常假设金融资产收益率服从正态分布,而实际金融数据并非如此,往往具有尖峰厚尾特性。经济学家和统计学家对金融资产收益分布的非正态特性研究已有一段历史,从最早的Mandelbrot和Fama到最近的Hish和Anderson的研究均表明:西方股票市场和其他金融资产市场的收益率表现为非正态分布,而是一种“尖峰态”分布,即在均值附近的频数比正态分布较多,并且有较肥胖的尾部,通常有偏度1。本研究在一元线性回归分析的基础上提出了一种尖峰厚尾分布,并对沪深股市收益率进行了实证分析,给出了参数估计的方法,该分布能很好的描述沪深股市收益率的分布特征。 搞清楚股票收益率等金融时间序列数据所服从的分布对金融风险的度量是至关重要的,大量研究表明,股票收益率等金融时间序列数据具有“尖峰厚尾”的分布特征,用正态分布和t分布都无法描述这种分布特征。本通过对2008年1月2日到2012年12月31日上证综合指数和深圳成分指数的收集研究在一元线性回归分析的基础上提出了一种尖峰厚尾分布,并对沪深股市收益率进行了实证分析,给出了参数估计的方法,该分布能很好的描述沪深股市收益率的分布特征。另外,MATLAB在金融资产定价和风险管理方面有着强大的功能,是国际主流的金融工程软件,它在很大程度上摆脱了传统非交互式程序设计语言(如C)的编辑模式,代表了当今国际科学计算软件的先进水平。这也为本研究的顺利经行提供了极为便利的条件。 1.3 国内外研究现状资产收益率分布的研究最早是由著名的法国数学家Bachelier在1990年发表的一片博士论文中提出的,他认为在无条件情况下,金融资产价格呈现为正态分布,但是在此之后的很长一段时间里关于资产收益率的研究出现了停滞,直到上个世纪五十年代才由部分金融计量分析家们重新研究。在1953年Kendall分析研究了英国股市的收益率数据,提出股票资产的收益率近似服从正态分布。Osborne也在1959年研究分析美国股市价格的变化,得到与Kendall相似的结论,认为股票收益率可以用布朗运动来描述,在无条件概率下服从正态分布2。股票收益率服从正态分布这一假设被后来的经济学家们广泛认可,不仅因为正态分布有着良好的统计特性和简单方便的计算,更重要的是在加法下,正态分布是具有稳定性的,即股票的任意相加结合仍然是正态分布的,这样就与统计学中的大样本思想相对应,容易进行样本计算,所以被人们广泛认可。如Black-Scholes公式(1973)就是在假设股票收益率服从正态分布的基础上提出的;CAPM(资本资产定价模型)也是假设股票收益率相对于时间来说是独立同分布,两者联合的分布属于多变量的正态分布函数3;J.P.Morgan公司设计研发的VaR系统实质上也是基于股票收益率服从正态分布的。但是,考虑到市场信息的影响以及投资者对市场信息做出的反应,在实际的股票交易中,这些理论模型又是不符合实际情况的,难以通过数据的实例验证。后来经济学家们发现,在实际的市场信息影响下,投资者对信息的决策导致股票的收益率具有尖峰态和厚尾性,与传统假设的正态分布具有明显的矛盾。如1961年Alexander重新整理分析了Osborne的数据,得出了股票收益率确实是具有尖峰、厚尾的基本特征。自从股票的收益率分布具有尖峰、厚尾这一特性提出以来,许多学者在此基础上提出了一些股票收益率的分布模型,尝试用不同的分布来拟合股票资产的收益率,下面介绍几种比较认可的分布模型。逻辑斯蒂分布是由Smith在1981年首先提出的,这种分布虽然与正态分布相似,但是具有厚尾性,可以用来模拟股票的收益率分布;另外,Hus和Gray等人提出用指数幂分布来证实股票收益率,此分布的特性是尾部的缩小速度达到指数级,具有明显的厚尾性和尖峰性,能较好的拟合实际的股票收益率;1967年Press在研究分析股票的收益数据基础上提出证券收益的组成包括一个间断的跳跃也即泊松过程和一个连续的扩散,称之为布朗运动,前者与消息面带来的较大振动有关,后者造成了股票价格的连续变化。这种混合正态分布能很好的反映市场实际的股票收益,并在1984年由Kon进行了实证分析。在混合正态分布模型提出以后,Praetz等人又提出应该用Scaled-t分布来拟合股票收益,后者能更好的反映股票收益率的尖峰、厚尾特性,并且Praetz也从理论上推导了Scaled-t分布的合理性。近年来,随着我国经济的不断发展,金融体系的不断健全,国内一些学者也开始结合本国股票收益情况进行一些相关研究,如闫冀楠、张维在1998年研究分析90年至96年上证综合指数,并用混合正态模型、指数幂函数分布模型以及ARCH模型进行收益率的数据拟合,从拟合效果得出这三种分布模型的拟合效果都好于正态分布,其中混合正态分布拟合的效果是最好的7。除了以上介绍的收益率分布模型,学者们也试着用其他模型来拟合收益率分布,陈启欢在2002年就用t分布作为模型来解释中国股票市场收益率大体上是服从自由度为5-9的t分布而不是整体上服从正态分布。另外,薛宏刚和林美艳等人在研究上证综合指数时采用正态概率纸和峰度及偏度联合检验得出股票收益率分布具有尖峰厚尾性而不符合严格的正态分布,并用t分布进行股票收益率数据拟合,自由度取3时能得到较好的拟合效果4。1.4 论文的研究思路与组织结构1.4.1 研究思路 本文旨在研究股票收益率的尖峰、厚尾特性,在第一章绪论中首先介绍本文的研究背景及意义,叙述了金融资产收益率研究的内容及重要性,接着阐述了国内外关于股票收益率的研究现状,介绍国外提出的集中经典模型以及近年来国内的一些学者的研究成果。在第二章中介绍关于股票收益率的一些基本概念以及计算方法。第三章为本文的研究重点,首先介绍几种经典的股票收益率分布模型,在此基础上详细介绍一种新的股票收益率分布模型。第四章是文章的实证分析,在第三章提出的模型基础上分析验证上证综合指数股票收益率的分布,并介绍两种参数估计方法和KS检验法等,检验其尖峰厚尾特性。第五章为结束语,总结了本文的研究成果并对研究进行展望。1.4.2 论文组织结构本文研究内容的组织结构可用图1-1来表示。第一章:绪论第二章:收益率概述第三章:股票收益率分布模型第四章:中国股票收益率分布实证分析哎第五章:结论与展望图1-1 本文的研究思路1.5 本章小结本章首先介绍了股票收益率的研究背景及意义,叙述了研究股票收益率对金融发展的重要作用以及人们在研究经济领域相关方面所遇到的问题。接着介绍了股票收益率的尖峰、厚尾性的发展由来,指出从最开始提出的正态分布到后来在此基础上否定股票收益率是服从正态分布的而是具有尖峰厚尾特性的,并且简单介绍了国内外的发展研究现状以及提出的一些经典分布模型。2 股票收益率尖峰厚尾性检验2.1 股票收益率计算方法2.1.1 单期收益率假设期末股票的价格为,并且不计算当期的红利,则从期到期的股票差价可以定义为: (2-1)设为简单收益率,定义为: (2-2)知道简单收益率之后,就可以定义简单总收益率为: (2-3)再对简单总收益率取自然对数,得到对数收益率或者连续复合收益率: (2-4)对对数收益率进行一阶泰勒公式展开可以看出,当简单收益率趋近于零时,对数收益率可以认为与简单收益率是近似相等的7。2.1.2 多期收益率设股票资产在时刻的期简单收益率为,可定义为: (2-5)则可以定义K期简单总收益,也叫离散复合收益率为: (2-6)其中表示的是第期的单期简单收益率。由单期对数收益率定义可推出多期对数收益率为: (2-7)同理,表示的是第期单期对数收益率。通过分析多期收益率的定义不难发现以下结论:(1) 知道单期收益率可以通过计算得出多期收益率。比如一个月有30个交易日,若采用简单收益率计算方法,月总收益率可以通过将30天总的收益率相乘得到;若是采用对数收益率计算方法,则月对数收益率可以通过对这30日的对数收益率相加求和得出。(2) 这里所定义的单期收益率和多期收益率都是相对的。比如在计算年收益率时可以将月收益率作为单期计算,当计算月收益率时可以将日收益率作为单期,所以这里的单期和多期没有固定的匹配,计算时可根据需要选择单期还是多期计算。可以将多个单期计算得出一个多期,同样一个多期也可以看做是多个单期。(3) 在上述定义的公式(2-6)中用到了复利计算,但是这里计算时利率不是一个固定的值,而是将收益率()这一随机变量作为利率计算。2.2 收益率正态检验和尖峰厚尾性2.2.1 频率直方图检验法此种检验方法就是基于统计学中的大样本思想,把股票的日收益率当作是一个具有无限性的总体,通过收集分析现有的股票数据作为样本,通过检查样本的分布特性进而分析得出总体的收益率分布特性。从统计学角度来说,当选自总体的样本数量不断增多时,样本的特性就近似的反映了总体的某些特征,可以从样本中寻找总体的某些规律。这里如果增多样本容量,计算样本的频率画出频率直方图,那么只要样本容量足够大就可以近似接近总体概率密度曲线,所以可以通过收集样本数据,作出样本频率分布直方图,并与正态函数曲线进行比较就可以比较直观地检验总体的分布特性是否具有正态性。在直角坐标系中作股票收益率分布直方图时,横坐标一般为股票收益率,纵坐标是收益率的概率,可以画出收益率各值对应的概率图。一般来说,画出的直方图应该从整体分析其形状。如果直方图呈现出左右对称性,且中间高两边低,非常接近于正态分布函数曲线,一般就认为样本所在的总体是服从正态分布的。但是,如果直方图形状不是对称的或者不是中间高两边低,就认为总体是不服从正态分布的。2.2.2 尖峰厚尾的含义一般从统计学方面定义尖峰特性就是某一随机变量的值出现在均值附近,也就是峰顶附近的概率密度值大于理论上正态分布的估计值而呈现出在均值附近整体高于正态分布的理论值。经济学领域里研究股票的尖峰特性通常来说受价格波动的聚集性影响。这里所谓的波动聚集就是当市场的股票价格因市场信息的影响发生的波动异常剧烈,并且这种波动短时间不会消失而是在一段时间内不断上升或者下降,那么就会导致波动聚集。假如金融资产价格发生的波动聚集集中在均值左右就会出现所谓的尖峰厚尾特性,一般也称之为肥尾。肥尾是指相对于正态分布假设的资产收益率的尾部,实际的股票收益率的尾部比正态拟合的尾部要厚,这也就意味着收益信息的出现不是连续变化形式的,而是以成堆的方式出现。相对于厚尾分布这一特性,统计学中也定义了薄尾型分布。薄尾型分布就是指随机变量的概率密度函数在尾部以指数函数的速度收缩至零,假设尾部收敛的速度是幂函数级别的则就是属于厚尾分布的。一个典型的薄尾分布函数就是正态分布函数,其概率密度在尾部按指数级缩减至零。厚尾现象产生的原因很多,但主要原因是和自然界中的事物相比,金融序列略有不同。例如假设人的身高服从正态分布,人的身高最值之间的差距会保持在平均身高0.5-1.5倍之间,但是在金融时间序列中随着资产价值的变化,该数值可能会变为0-10倍甚至更高,这就导致在金融工程领域通常会观察到更厚的尾部和更高的峰部。在股票市场,价格的波动聚集导致股票收益率呈现厚尾特性,大量信息停滞在尾部,造成尾部的厚度大于传统正态分布假设的理论值。2.3 尖峰检验法2.3.1 峰度系数法设有一随机变量,关于的阶中心矩存在数学期望,其中,这里用表示的阶中心矩的数学期望,那么有: (2-8)当取2和4时分别表示随机变量的二阶中心矩和四阶中心矩,由这两个中心矩就可以计算峰度系数。随机变量的峰度系数定义的是四阶中心矩除以其二阶中心矩的平方。用表示峰度系数,计算公式为: (2-9)其中为的数学期望,也叫均值,表示的是的方差。假设服从正态分布,即 ,则计算其阶中心矩; (2-10)则关于的二阶中心矩和四阶中心矩为: (2-11)则可得到服从正态分布的随机变量的峰度系数为: (2-12)一般来说,为了方便比较是否具有尖峰性,又将正态分布的峰度系数减去3置零,即令。这样就可以比较方便的判定某一随机变量的分布是否具有尖峰态,因为当计算随机变量的峰度系数表示该随机变量的分布与正态分布一样,在均值附近没有出现尖峰。如果,表明该随机变量的分布肯定不是严格的正态分布,因为在均值附近出现高于正态分布估计的理论值,其峰度高于正态分布8。以上计算峰度的公式都是基于理论数学函数的,在实际生活中不可能用理论性的结果去估量实际股票收益率,这就需要借助于统计学中的参数估计理论。一般都是从整体中抽取大量样本,通过计算样本的均值和方差等数学参数去近似代表整体的这些特性值。在统计学中,用大量离散的样本值计算二阶中心矩和四阶中心矩,计算公式为: (2-13)则可以计算样本的峰度系数: (2-14)式中表示的是样本均值。2.3.2 检验法统计量通常是由偏度系数和峰度系数计算而来的,所谓偏度系数就是来度量某一分布函数的对称性,用来表示。偏度的值有正有负,等于零的时候认为分布函数是左右严格对称的,若大于零则认为该分布函数是向右偏斜的,若小于零则认为该分布函数是向左偏斜的。所以这里的值不仅表示偏斜的程度,也表示偏斜的方向。计算统计量: (2-15)其中,为峰度系数,上一小节已经介绍了其计算方法,为偏度,计算公式为: (2-16)在上述公式中,表示的是某一金融资产收益序列的收益率,表示的是这一序列收益率的均值。统计量是由Jarque和Bera提出的检验法,同时他们在定义了统计量计算公式的基础上也理论推导出统计量服从的是分布,并结合数据计算出自由度为2,即统计量满足:,其中表示的是给定的显著性水平9。通过计算统计量的值,可以分析某一随机变量的分布是否具有尖峰性,判别准则为:(1) ,则认为该分布是正态分布;(2) ,则认为该分布不是正态分布;2.4厚尾检验法2.4.1 QQ正态图法QQ图用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中常用的是检验数据是否来自于正态分布。该方法是分别计算数据的分位数,然后在对正态分布的分位数描点,如果通过实际记录数据画出的图是近似一条直线的,那么就认为这个随机变量服从的是正态分布10。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值,用QQ图还可获得样本偏度和峰度的粗略信息。对于正态概率图,有一些常见的变形图形: (1)短尾分布:如果尾部比正常的短,则点所形成的图形左边朝直线上方弯曲,右边朝直线下方弯曲如果倾斜向右看,图形呈S型。表明数据比标准正态分布时候更加集中靠近均值。 (2)长尾分布:如果尾部比正常的长,则点所形成的图形左边朝直线下方弯曲,右边朝直线上方弯曲如果倾斜向右看,图形呈倒S型。表明数据比标准正态分布时候有更多偏离的数据。一个双峰分布也可能是这个形状。 (3)右偏态分布:右偏态分布左边尾部短,右边尾部长。因此,点所形成的图形与直线相比向上弯曲,或者说呈U型。把正态分布左边截去,也会是这种形状。 (4)左偏态分布:左偏态分布左边尾部长,右边尾部短。因此,点所形成的图形与直线相比向下弯曲。把正态分布右边截去,也会是这种形状。 图2-1 短尾分布和长尾分布图2-2 右偏分布和左偏分布 尽管作直方图能马上知道数据的分布,但它却不是判断这些数据是否来自同一特定分布的好办法。人眼不能很好地判别曲线,其他的分布也可能形成相似的形状。并且,用服从正态分布的少量数据集作成的直方图可能看起来不是正态的。因此,正态概率图是判断数据分布的较好方法。 2.4.2 尾极值指数法首先介绍一下尾极值的定义,在金融分析领域里尾极值指数又可以分为上尾极值指数和下尾极值指数。所谓上尾极值指数对应的是上尾分布具有厚尾性,设存在一随机变量,用表示,其分布函数为,且其分布函数满足,其中,则称变量符合上尾“厚尾”型分布,其中即为上尾极值指数。同样的也有下尾极值指数计算公式。用尾极值指数法计算标准正态分布可以得出,当限定时计算得出尾极值指数。所以一般都认为,标准正态分布的尾分布为薄尾特性,在此基础上,如果计算某一随机变量分布的尾极值指数,则可认为该分布服从正态分布,如果计算得出尾极值指数,则表示该分布不是正态分布而是属于厚尾型分布的。在分析股票收益率时用尾极值指数法检验股票收益率是薄尾型分布还是厚尾型分布非常简单方便,只需要计算尾极值,判断尾极值指数值是否为零还是大于零就可以得出结论。但是,在实际金融市场中,实际数据是不连续的,需要进行抽样计算,这就要求必须根据样本选取进行尾极值指数估计,一般来说目前样本估算尾极值指数都是采用Moment型估计量,计算公式为: (2-17)其中,。 (2-18)在只考虑尾指数的条件下,当时,有。有前面尾型判断原则可知,若尾极值指数是薄尾型的,是厚尾型的。现在既可以进行假设性检验,作原假设:,备择假设:。如果通过样本计算得出,即拒绝原假设而接受备择假设,此时有。若给定显著性水平,通过计算可得到原假设的拒绝域为,其中表示的是标准正态 分布的单侧 临界值,即。所以,通过对总体抽样,在大样本容量下,对于给定显著性水平,若有,则就认为该随机变量的分布呈现“厚尾”性,相反,如果计算得出,则就认为该随机变量分布是“薄尾”性的。另外,可以计算出该判别方法在给定显著性水平下容忍度,其中的值一般取为最佳选择11。2.5 本章小结 本章首先介绍了股票收益率的计算方法,包括单期收益和多期收益,并且无论是单期收益还是多期收益都有两种计算方式,简单收益率和对数收益率。之后重点介绍了本文的研究重点,股票收益率的正态性检验和尖峰厚尾特性。之后又详细介绍如何检验收益率的尖峰性和厚尾性,分别给出了判别计算式,其中尖峰检验有峰度系数法和JB统计量法,厚尾性检验有QQ正态图法和尾极值法,文中也都给出了计算方法。 3 股票收益率分布模型3.1 几种常用收益率分布模型 3.1.1 稳定分布在概率论中,稳定分布(Stable distribution,又称为雷维偏阿尔法-稳定分布(Levy skew alpha-stable distribution)是一种连续概率分布,它是由保罗·皮埃尔·莱维发展起来的。在稳定分布中,独立同分布的随机变量之和及它们本身具有相同的分布。可以用几个参数来表示稳定分布,它们分别是特性指数、尺度 、偏度参数以及位移。在金融工程领域里常用稳定分布去分析处理金融数据以观察金融动态。数学领域定义稳定分布是通过对其特征函数进行连续傅里叶变换,计算公式为: (3-1)其中稳定分布的特征函数计算公式为: (3-2)当时,;当时,。式中的表示位移参数,用来判定分布的对称性,用来表示尺度对分布的影响,代表着稳定分布的宽度,表示的是分布指数,当时反映分布就表示分布的渐进行为,此时渐进行为可以表示为: (3-3) 其中为伽马函数。稳定分布的形式没有统一的方案,但是却存在三个特例:· 对于,分布缩减为正态分布(方差为,均值为);· 对于和,分布缩减为柯西分布(尺度参数为,移位参数为);· 对于和,分布缩减为雷维分布(尺度参数为,移位参数为);以上三个分布其实是相互关联的。一个标准的柯西随机变量可以被看成是高斯随机变量(所有均值为零)和一个标准雷维分布的方差的混合。图3-1 稳定分布概率密度曲线图3-2 稳定分布累积分布曲线3.1.2 拉普拉斯分布在概率论与统计学中,拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。对于某一随机变量,若它服从的概率密度函数为: (3-4)则就认为该随机变量是服从拉普拉斯分布的,其中表示的是位置参数,表示的是尺度参数,如果,那么,正半部分恰好是尺度为的指数分布。拉普拉斯分布的概率密度函数让联想到正态分布,但是,正态分布是用相对于平均值的差的平方来表示,而拉普拉斯概率密度用相对于平均值的差的绝对值来表示。因此,拉普拉斯分布的尾部比正态分布更加平坦。根据绝对值函数,如果将一个拉普拉斯分布分成两个对称的情形,那么很容易对拉普拉斯分布进行积分。它的累积分布函数为: (3-5)图3-3 拉普拉斯分布概率密度曲线图3-4 拉普拉斯分布累积分布曲线3.1.3 混合正态分布混合正态分布又称混合高斯分布或混合常态分布,与基本正态分布或逆高斯分布不同,它的基本思想是对每一个像素,定义K个状态,,每个状态用一个高斯函数表示,这些状态一部分表示背景的像素值,其余部分则表示前景的像素值。相对于高斯分布的定义,混合正态分布计算公式为: (3-6)式中的表示的是第个影响因素的系数,且满足限定条件,大写字母表示的是总的成分数量,当时表示的就是高斯分布,。通过计算混合高斯分布的累积分布函数,可以将其分解为各个具有不同加权值的累积分布之和。图3-5 混合正态分布概率密度曲线图3-6 混合正态分布累积分布曲线3.2 基于正态比值法收益率分布模型3.2.1 两正态分布之比的概率密度首先,假设存在两个随机变量和都是服从正态分布的,且有,则和的概率密度函数为: (3-7)假设随机变量和是相