金融高频时间序列分析.ppt
金融高频时间序列分析,李胜歌,一、金融计量学二、金融高频时间序列分析三、基于高频数据的金融波动率,一、金融计量学,(一)金融定量分析金融计量学,是经济计量学的一个重要分支,主要是研究如何将经济计量学的基本原理与方法运用于金融领域,针对金融数据的特殊性,构造相应模型,以便实证检验金融理论和假设或者提提供金融预测。,(二)金融数据1、低频数据 二十世纪九十年代以前,人们对金融时间序列的研究都是针对日、周、月、季度或者年度数据进行的,这种金融数据在金融计量学研究领域通常称为低频数据。2、高频数据近年来,随着计算工具和计算方法的发展,极大地降低了数据记录和存储的成本,使得对更高频率的金融数据进行研究成为可能。在金融市场中,高频率采集的数据可以分为两类:高频数据(high frequency data)和超高频数据(ultra high frequency data)。高频数据是指以小时、分钟或秒为采集频率的数据。高频数据即日内数据,是指在开盘时间和收盘时间之间进行抽样的交易数据,主要是以小时、分钟、甚至秒为抽样频率的、按时间顺序排列的时间序列。3、超高频数据超高频数据则是指交易过程中实时采集的数据。高频数据和超高频数据两者之间的最大区别是:前者是等时间间隔的,后者的时间间隔是时变的。一般而言,金融市场上的信息是连续的影响证券市场价格运动过程的。数据的离散采集必然会造成信息不同程度的缺失。采集数据频率越高,信息丢失越少;反之,信息丢失越多。,二、金融高频时间序列分析,对金融高频数据统计特征的研究基于金融高频时间序列的波动性研究微观结构噪声研究最优抽样频率研究基于高频数据的金融管理方面的应用研究,三、基于高频数据的金融波动率,(一)“已实现”波动(Realized Volatility,RV)(二)“已实现”双幂次变差(Realized Bipower Variation,RBV)(三)RV与RBV的比较研究,(一)“已实现”波动(Realized Volatility,RV),1、“已实现”波动的定义2、“已实现”波动的理论基础3、“已实现”波动的性质4、“已实现”波动的应用5、“已实现”波动估计量形式的改进及扩展,1、RV的定义,2、“已实现”波动的理论基础,基本条件就是金融市场中不存在风险套利的机会,这样金融资产的对数收益率就是一个特殊半鞅过程。由特殊半鞅的性质,又可以将其进一步分解为可料有限变差过程和局部鞅过程,从经济意义上来讲,可料有限变差过程和局部鞅过程分别代表均值过程(Mean Process)和新息过程(Innovation Process)。由二次变差的性质,收益率平方和的极限为金融资产对数价格收益的二次变差;再由伊藤定理,可以得到二次变差与积分波动(Integrated Volatility,IV)的对应关系。“已实现”波动就是收益率的平方和,这样就可以得出“已实现”波动的概率极限为积分波动。,3、“已实现”波动的性质,根据Andersen和Bollerslev等(2000,2001,2001,2003)对西方国家发达金融市场的高频金融时间序列的研究,“已实现”波动通常具有下列性质:(1)由于日内高频收益率之间存在序列相关和异方差性,所以“已实现”方差(Realized Variance)与“已实现”标准差(Realized Standard Deviation)的无条件分布都是极端右偏,而且具有极高的峰度。但是“已实现”标准差的偏度要比“已实现”方差的低;(2)虽然“已实现”标准差的无条件分布都是极端右偏,而且具有极高的峰度,但是“已实现”标准差取对数后的无条件分布却很近似正态分布;(3)虽然日间收益率的无条件分布并非正态分布,具有明显的“高峰厚尾”性,但是日间收益率除以“已实现”标准差后的条件分布却近似是正态分布;(4)以上三条性质都是针对每日的“已实现”波动而言的,然而对“已实现”波动的时间聚合性质的研究,即对每周,每两周,每三周及每月的“已实现”波动的研究中发现:在时间聚合下,“已实现”波动的方差按 的尺度增长,其中表示时间跨度,d是常数;(5)“已实现”波动的自相关系数按双曲线的速率缓慢下降;(6)“已实现”波动取对数后的无条件分布是正态分布,具有显著的分数维单整的性质。,4、“已实现”波动的应用,“已实现”波动无模型、计算方便、并且是金融波动率的一致估计量,“已实现”波动在多变量的情形下还可以扩展为“已实现”协方差矩阵(Realized Covariance Matrix,RCM),它不仅包括各变量自身的“已实现”波动率,也包括变量之间的“已实现”协方差。因此,“已实现”波动近年来被广泛应用于金融高频数据的应用研究中。如:VaR的计算;资产定价研究;运用“已实现”波动理论构建“已实现”Beta并对“已实现”Beta的持续性和预测进行研究;进行动态投资组合研究等。,5、“已实现”波动估计量形式的改进及扩展,赋权偏差校正,(二)“已实现”双幂次变差(Realized Bipower Variation,RBV),1、“已实现”双幂次变差的概念2、“已实现”双幂次变差的概率极限3、“已实现”双幂次变差统计性质的实证研究,1、“已实现”双幂次变差的概念,Barndorff-Nielsen和Neil Shephard 提出“已实现”双幂次变差(RBV)的定义为:,2、“已实现”双幂次变差的概率极限,Barndorff-Nielsen和Neil Shephard指出在不存在跳跃和存在有限次跳跃的条件下,当s=2-r时,都有下式成立:,表示伽玛函数,3、“已实现”双幂次变差统计性质的实证研究,本节使用深证成指和上证综指两个市场的金融高频数据来构建“已实现”双幂次变差,然后对该估计量的特性进行实证研究。该高频数据是从2005.4.14至2006.4.14深证成指和上证综指的1分钟间隔时段内的收盘价,这期间共有243个交易日,共有241243=58563个数据。“已实现”双幂次变差的参数r、s的取值只要满足r+s=2,那么估计量的概率极限即为积分波动。因此,不失一般性的,本文选取了r=s=1、r=1/2且s=3/2、r=7/4且s=1/4时的“已实现”双幂次变差来研究估计量的统计特性。,当r=s=1时,从图3-1至3-5和图3-6至3-10中可以看到,深证成指和上证综指在抽样频率分别为1分钟、5分钟、10分钟、30分钟和60分钟的“已实现”双幂次变差时间序列的150阶自相关函数,都是随着滞后阶数的增大而缓慢下降。当r=1/2且s=3/2时,从图3-11至3-15和图3-16至3-20中,以及当r=7/4且s=1/4时,从图21-25和图26-30中,可以看到深证成指和上证综指在抽样频率分别为1分钟、5分钟、10分钟、30分钟和60分钟的“已实现”双幂次变差时间序列的自相关函数,也都是随着滞后阶数的增大而缓慢下降的。同时,表3-1与表3-2中深证成指和上证综指分维数d的估计值也都显著不为零。这说明“已实现”双幂次变差时间序列为长记忆时间序列,并且具有分数维特性。,表3-3至3-5分别给出了当r=s=1时,当r=1/2且s=3/2时,以及当r=7/4且s=1/4时,深证成指在1分钟、5分钟、10分钟、30分钟和60分钟的抽样时间间隔下,“已实现”双幂次变差RBV、标准差、标准差取对数以及用标准差将收益率标准化后的各个统计量的偏度、峰度和J-B统计量。表3-6至3-8则分别给出了当r=s=1时,当r=1/2且s=3/2时,以及当r=7/4且s=1/4时,上证综指在1分钟、5分钟、10分钟、30分钟和60分钟的抽样时间间隔下,“已实现”双幂次变差RBV、标准差、标准差取对数以及用标准差将收益率标准化后的各个统计量的偏度、峰度和J-B统计量。,表3-3 r=s=1时深证成指在各个抽样频率下的统计量特征,从表3-3至3-8中可以看出,无论r、s取何值,都可以得出“已实现”双幂次变差具有如下的统计特性:(1)“已实现”双幂次变差与标准差的无条件分布都是极端右偏,而且具有极高的峰度,但是标准差的偏度要比“已实现”双幂次变差的低;(2)虽然“已实现”双幂次变差的标准差的无条件分布都是极端右偏,而且具有极高的峰度,但是“已实现”标准差取对数后的无条件分布在抽样频率不是很高时(10分钟以上),却为正态分布;(3)虽然国内外的实证研究表明日间收益率的无条件分布并非正态分布,具有明显的“高峰厚尾”性,但是日间收益率除以“已实现”双幂次变差的标准差后的条件分布却近似是正态分布(由J-B统计量)。,通过对中国股市的深证成指和上证综指的高频金融时间序列的研究,从图3-1至3-30和表3-1至3-8中得到的“已实现”双幂次变差的统计性质,同Andersen和Bollerslev等对西方国家发达金融市场的高频金融时间序列的研究得到的“已实现”波动的性质是基本一致的。,(三)RV与RBV的比较研究,“已实现”波动(Realized Volatility,RV)是Anderson和Bollerslev等人基于金融高频时间序列提出的一种全新的波动率度量方法,该方法由于具有无模型、计算方便、并且在一定条件下是波动率的一致估计量等优点,近年来已被广泛应用于高频金融数据的研究中。“已实现”波动的概念和方法,近年来也获得不断的改进和发展。“已实现”双幂次变差(Realized Bipower Variation,RBV)是Barndorff-Nielsen和Neil Shephard提出的另一类似于“已实现”波动的波动率度量方法,该估计量同样是波动率的一致估计量。针对这两种文献中常被提及和讨论的有代表性的波动率估计方法,本节在定义形式、估计量的稳健性、有效性等方面对这两个估计量进行了比较,发现“已实现”双幂次变差的定义形式更广泛,除了具有稳健性,本节还证明了“已实现”双幂次变差比“已实现”波动更有效。通过对深证成指和上证综指的实证研究,我们可以看出“已实现”双幂次变差的稳健性,同时也证实了“已实现”双幂次变差能更准确的估计金融股市收益率的波动。,1、定义形式,Barndorff-Nielsen和Neil Shephard 提出“已实现”双幂次变差(RBV)的定义为:,当r=0,s=2或者r=2,s=0时,RBV即为RV,因此从定义形式上看,RV是RBV当参数取特定值时的特殊形式。,2、稳健性,Barndorff-Nielsen和Neil Shephard指出在不存在跳跃和存在有限次跳跃的条件下,当s=2-r时,都有下式成立:,表示伽玛函数,当不存在跳跃时,“已实现”波动的极限收敛到积分波动:,此时,“已实现”波动的收敛结果为:,假设加入跳跃后金融资产对数价格的日收益为:,在有限区间上发生有限次跳跃后,若波动率估计量的估计结果不变,则认为该估计量具有稳健性。在加入有限次的跳跃后,“已实现”波动与“已实现”双幂次变差的收敛结果不再相同,“已实现”波动的收敛结果中除积分波动以外,还包含了跳跃带来的对波动的影响,而“已实现”双幂次变差仍收敛到积分波动。同没有加入跳跃时相比,“已实现”波动的收敛结果发生了改变,而“已实现”双幂次变差则没有发生变化。因此同“已实现”波动相比,“已实现”双幂次变差对波动特性的估计具有更好的稳健性。,3、有效性,在一定条件下,“已实现”双幂次变差与“已实现”波动都是积分波动的一致估计量,那么“已实现”双幂次变差与“已实现”波动哪个更有效呢?本节给出三个定理:定理3-3证明了在每一点的波动相等的前提条件下,当,入引理3-1后,定理3-4证明了当r=1时,“已实现”双幂次变差的方差小于“已实现”波动的方差;在证明了引理3-2后,定理3-5证明了当,时“已实现”双幂次变差的方差小于“已实现”波动的方差;在引,并且r+s=2时,“已实现”双幂次变差的方差小于“已实现”波动的方差,而且当r=1时,“已实现”双幂次变差的方差最小。,RV与RBV的有效性对比:,4、实证研究,本节实证研究采用的高频金融时间序列的原始数据是2005.4.14-2006.4.14深证成指和上证综指的1分钟间隔时段内的收盘价,这期间共有243个交易日,共有241243=58563个数据。,在深证成指1分钟间隔的对数价格序列中,找出相邻两个时间点差值绝对值最大的时间点分别为第31149个(t1)和第31331个(t2)时间点,t1与t1+1时刻的对数价格差的绝对值为0.0066,t2与t2+1时刻的对数价格差的绝对值为0.0065。可以将t1与t2看作对数价格序列中的跳跃点,t1与t2分别对应于第129天的第60个日内对数价格收益和第130天的第1个日内对数价格收益。图3-33画出了31100,31350区间上的对数价格收益路径,从图中可以看到时间点为31149(t1)和31331(t2)处发生了跳跃。图3-34画出了125,135区间上的“已实现”波动(RV)和“已实现”双幂次变差(RBV),可以看出在第130天和第131天的位置上“已实现”波动(RV)明显的大于“已实现”双幂次变差(RBV),这正是由于“已实现”波动(RV)此时还包含跳跃带来的波动,而“已实现”双幂次变差(RBV)描述的仅仅是积分波动。,图3-33 深证成指1分钟数据在31100,31350上的对数价格路径图,在深证成指1分钟间隔的对数价格序列中,找出相邻两个时间点差值绝对值最大的时间点分别为第31149个(t1)和第31331个(t2)时间点,t1与t1+1时刻的对数价格差的绝对值为0.0066,t2与t2+1时刻的对数价格差的绝对值为0.0065。可以将t1与t2看作对数价格序列中的跳跃点,t1与t2分别对应于第129天的第60个日内对数价格收益和第130天的第1个日内对数价格收益。图3-33画出了31100,31350区间上的对数价格收益路径,从图中可以看到时间点为31149(t1)和31331(t2)处发生了跳跃。图3-34画出了125,135区间上的“已实现”波动(RV)和“已实现”双幂次变差(RBV),可以看出在第130天和第131天的位置上“已实现”波动(RV)明显的大于“已实现”双幂次变差(RBV),这正是由于“已实现”波动(RV)此时还包含跳跃带来的波动,而“已实现”双幂次变差(RBV)描述的仅仅是积分波动。,图3-34 深证成指在时间区间125,135上的RV与RBV,图3-35画出了18701,18800区间上的对数价格收益路径,从图中可以看到时间点为18771处发生了跳跃。图3-36画出了71,80区间上的“已实现”波动(RV)和“已实现”双幂次变差(RBV),可以看出在第78天的位置上“已实现”波动(RV)明显的大于“已实现”双幂次变差(RBV)。,为了说明定理3-5(有效性),分别求出“已实现”波动和r=s=1时的“已实现”双幂次变差,再任取 r1时的“已实现”双幂次变差,不妨取 r=1/2,s=3/2。,表3-7 各种收益率序列的分布特征,从表3-7中可以看出,r=s=1时的YRBVt的J-B统计量最小,其次是YRBV1t的J-B统计量,YRVt的J-B统计量最大。这说明用r=s=1时的“已实现”双幂次变差的标准差标准化后的日收益率的正态化程度最高,从而说明r=s=1时的“已实现”双幂次变差对真实波动率的度量更准确。对深证成指和上证综指两个市场的实证结果与定理3-5的结论相一致。,谢谢大家!,