基于因子分析的logistic违约概率测算模型研究1.doc
《基于因子分析的logistic违约概率测算模型研究1.doc》由会员分享,可在线阅读,更多相关《基于因子分析的logistic违约概率测算模型研究1.doc(10页珍藏版)》请在三一办公上搜索。
1、精品论文大集合基于因子分析的logistic违约概率测算模型研究1彭建刚 ,屠海波 ,何婧湖南大学 金融学院,金融管理研究中心,湖南 长沙(410079)E-mail:pengjiangang摘 要:本文针对一般 Logistic 违约率模型中原始数据信息的丢失、多重共线性以及没有 考虑时间因素等问题,提出了基于因子分析的 logistic 违约概率测算模型。通过引入因子分 析和对指标作时间加权化处理等方法改进了一般 logistic 违约概率测算模型,然后利用中国 上市公司数据展开实证研究。基于因子分析的 logistic 违约概率测算模型不仅考虑了时间因 素,能够解决数据丢失和多重共线性,
2、克服了 Cramer 问题,而且测算的准确度也较高。 关键词:违约概率,因子分析,Logistic 模型中图分类号:F832.21文献标识码:A1.引 言美国金融市场近期遭受重创,次级抵押贷款危机已蔓延至全球金融市场。次贷危机起因 于对信用风险没有引起足够的重视,在商业银行信用风险管理中,违约概率的测算居于重要 地位。违约概率是指借款人在未来一定时期内不能按合同要求偿还银行贷款本息或履行相关 义务的可能性(概率),即信用风险的概率测算。对借款人进行违约概率的测算,己经被列为 巴塞尔新资本协议内部评级法的关键内容,是现代商业银行信用风险管理的重要环节。巴塞 尔新资本协议要求1,采用内部评级法的银
3、行必须对处于风险暴露中的每一借款人进行评 级,并估计其违约概率。研究现代商业银行的信用风险管理,不能不关注违约概率测算问题。20 世纪八十年代以来,logistic回归分析法逐步取代了传统的判别分析法。作为量化企 业信用风险的一种主流方法,logistic回归方法不仅灵活简便,而且它的许多前提假设比较符 合经济现实和金融数据的分布规律,譬如它不要求模型变量间具有线性相关关系,不要求变 量服从协方差矩阵相等和残差服从正态分布等,这使得模型的分析结果比较客观。大量实证 研究表明, Logistic模型估计结果与实际数据的拟合度较高, 适用性较强2。于立勇(2008)3 等在结合我国国有商业银行实际
4、数据的基础上通过Logistic 回归模型构建了违约概率的测 算模型,实证结果表明,模型可以作为较为理想的违约概率预测工具。最近对logistic回归方法改进的研究主要有Laitinen(2000)4 探索了泰勒级数展开在logistic回归方法预测企业违约分析中的应用。石晓军(2007)5则针对一般logistic回归方法 存在的难以通过Hosmer-Lememshow拟合优度检验的Cramer问题,提出了边界logistic方法。 由于用来解释违约概率的信用变量具有高相关性和高维性等特点,使得在运用 logistic 回归分析进行企业违约风险预测研究时会影响 logistic 分析的过程和
5、结果,导致大部分原始数据信息的丢失以及估计方程中出现共线性的函数关系。而且我国正在处于经济转型时期, 经济发展不够稳定。如果忽视时间因素对违约概率的影响,那么就会造成在经济景气的时期, 商业银行会低估企业违约的概率,从而使得银行面临巨大的信用风险;而在经济萧条阶段又 会高估企业违约的概率,从而使得银行可能失去优质客户。本文正是针对这些问题提出了基于因子分析的 logistic 违约概率测算模型,最后用 ROC 分析检验了不同模型测算违约概率的1本文得到国家自然科学基金项目(编号: 70673021)的资助。- 10 -精度。2.基于因子分析的 Logistic 模型的基本框架2.1 考虑了时间
6、因素的 Logistic 模型的基本原理首先利用Logistic模型进行违约概率测算研究的有Ohlson(1980)6、Zavgren(1985)7 等。Logistic回归分析是一种非线性分类的统计方法,也适用于因变量中存在定性指标的问题, 而且Logistic 模型的建立方法-极大似然估计法有很好的统计特性。在 Logistic 模型中,违约概率的测算被看作一个虚拟变量问题。所谓虚拟变量指的是一 种取值为 0 或 1 的变量。在经济模型中,一些变量比如季节、民族、某项政策等都可能成为 影响某个因变量的重要因素。这些变量所反映的并不是数量,而是某种性质或属性。为了研 究方便,我们人为构造出一
7、种特殊变量,即虚拟变量来把这些变量定量化,规定当该变量值 取 1 时,表示存在某种性质或属性,取 0 时则表示不存在。Logistic 模型假设因变量发生的概率与其各影响因素间呈现如下的非线性关系,( X ) =11 + e( 0 + 1 X1 + 2 X 2 +.n X n )T T(1)其中 X = ( X1 , X 2 , X n )表示解释变量, = (0 , 1 , 2 , n )是对于违约发生与否的解释变量的系数,0 是指常数项, ( X ) =1 表示企业违约, ( X ) =0 表示企业不违约。由于企业的各种指标会随着时间变化而变化,如果仅仅考虑最近一年的指标,那么可能 由于企
8、业的经济周期或者偶然原因造成财务指标失真,最终使得违约概率测算的不准确。为 了解决这一问题,本文提出了基于时间加权的 logistic 违约概率测算模型。为了综合考虑 t 年财务指标,我们用 X i 表示该周期的综合指标, X it 表示指标 i 第 t 年 的数值,那么令TTX+ (T 1) X+ (T 2) X+ . +1XtX itX =iTiT 1iT 2i1 = t =1 i(T +1)T / 2(T +1)T / 2(2)再把 X i 代入(1)中就可以得到基于时间加权的 logistic 违约概率测算模型:( X ) =1nT 0 ( 1 (tX it / (t +1)t / 2
9、)(3)1 + ei=1t =1Logistic 与一般多元线性回归模型不同之处在于: (1) Logistic 回归模型中因变量 y 是二 分类的,而不是连续的,其误差的分布不再是正态分布而是二项分布,且所有的分析均建立在 二项分布的基础上。(2) 也正是基于上述原因,Logistic 回归系数的估计不再用最小二乘法, 而要用极大似然法。系数及模型检验也不是 t 检验和 F 检验,而要用似然比检验和 Wald 检 验等。在二项 Logistic 模型,似然函数等于n z zl ( ) = ( X) j 1 ( X)1 jj = 1, 2.nj =1 j j(4)为了求解能够使 l ( ) 达
10、到最大化的 ,需要对 l ( ) 分别求 , 0 的微分,得到 n+1个似然方程式,并令其等于 0。由于 logistic 回归分析中变量间的关系是非线性的,因此一般使用迭代算法来估计解释 变量的系数 和常数项 0 。2.2 一般 logistic 回归的缺陷分析由于用来解释违约概率的信用变量具有高相关性和高维性等特点,使得在运用 logistic 回归分析进行企业违约风险预测研究时会影响 logistic 分析的过程和结果,导致大部分原始 数据信息的丢失以及估计方程中出现共线性的函数关系。具体来说,logistic 回归分析要求 模型解释变量之间不能具有线性的函数关系,否则共线性的问题就会导
11、致方程中变量系数标 准差的增大。从而使得模型估计系数可靠性大幅度下降,最终利用模型测算违约概率的准确 性不理想。另一方面,在模型包括众多解释变量的情况下,logistic 回归分析的目标之一是得到预 测违约概率的“节约模型”方程,这个方程需要满足(1)包括尽可能少的解释变量;(2) 具有最优的度量结果(3)尽可能多地考虑原始数据的信息;(4)具有经济学意义上的说服 力等条件。常用的选择方法有正向逐步选择法、反向逐步选择法、混合逐步选择法。以上三 种方法主要在设计程序上的算法不同,处理结果一般是一致的。这类方法的缺点主要在于其 完全依赖统计方法,缺乏经济学基础;此外,还导致了大部分解释变量被剔除
12、掉了,这使得 估计方程是不完整的。为了解决 logistic 回归所存在的共线性和原始数据丢失等问题,本文在先采用时间加权 方法的基础上,再用因子分析的方法对数据行进分析,最后运用 logistic 回归分析的构建模 型。2.3 因子分析基本原理在许多研究中,为了全面系统分析问题,都尽可能完整地搜集信息,对每个研究对象往 往需测量很多变量(或称指标),人们自然希望用较少的新变量代替原来较多的旧变量,而 这些新变量尽可能反映旧变量的信息。因子分析正是满足这一要求的处理多变量的方法。由 于它们能浓缩信息,使指标降维,简化指标结构,使分析问题简单、直观、有效,故被广泛 地应用于医学、心理学、经济学等
13、领域。为了尽可能精确的测算违约概率,人们一般会尽量地收集贷款的信息。如一般对公贷款 除了企业自身 3 年的财务报表,还需要企业管理层、行业、地区等大量的信息,转化为指标 的话一般有上百个之多。而这些指标很多是高度相关的,如果直接使用这些指标的话,不仅 增大了建模的难度,也可能受一些无关的指标干扰。另外,各个指标之间的数量级差别很大, 容易造成数量级较小的重要变量被低估甚至忽略。而因子分析则能在解决这些问题的同时, 尽可能多的保留原始变量的信息。因子分析的步骤包括:因子模型的构建、因子负载矩阵求解、因子旋转和因子得分的求 解。因子分析的一般模型:设 x 为 p 1 随机向量,其均值为 ,协差阵为
14、 = ij,我 们称 x 为有 k 个因子的模型,若 x 能表为:x = + f + u(5)式中 : p k 是未知常数阵, f :k 1和 u : p 1 为随机向量。 f 称为公共因子,u叫做特殊因子, 叫因子负载矩阵。因子负载矩阵一般可由主因子法求解得到。当我们一旦获得了公共因子和因子负载以后,我们应该反过来考察每一个样本,可以通过巴特莱特估计、贝叶斯估计估计等方法得到 因子得分。在进行违约概率测算的过程中,本文采用巴特莱特统计估计的方法,从众多反映风险财 务指标中计算出包含充分指标信息的公共因子,这些公共因子比原始财务指标具有更优的统 计特征,运用原始变量的组合值即因子得分作为反映信
15、用风险的变量作进一步研究。2.4 基于因子分析的 logistic 回归模型的优点把由因子分析得到的向量 f = (Z1 , Z2 ,.Zn ) 作为 logistic 模型的新的解释变量代替,即 可以得到新的测算违约概率的模型。这个模型与一般的 logistic 模型相比在保留 logistic 模型 原有优势的同时,主要有以下几个优点:(1).模型通过对数据标准化的处理,消除了变量间在数量级上或量纲的不同而产生的 影响,每个变量的均值都为 0,方差为 1。(2)因子的指标之间由于互不相关,这样在 logistic 回归分析中,避免出现常见的多重 共线性,大大增加了 logistic 回归分
16、析中系数的可靠性。(3)在保留尽可能多的信息的前提下,使得 logistic 回归分析中的变量大大减少,从而 在不影响违约概率测算精度的情况下显得“节约”。(4)相对于 logistic 回归分析完全依赖统计方法的变量选择,因子分析可以更好的考虑 变量的经济学意义,从而使得模型更有实用价值。本文用基于因子分析的 logistic 回归分析对我国上市公司的财务及资本市场数据建立违 约概率测算模型,并用 ROC(受验者工作特征线)的检验理论来检验模型的表现能力。3.我国上市公司的实证分析3.1 数据的选取和说明模型样本包括在深沪上市公司(包括 A 股和 B 股)共计 1629 家,考虑到了行业的特
17、性, 剔除了金融、保险公司 22 家,样本包括非 ST 公司 1446 家和 161 家 ST 公司,收集了样本 公司 2004-2007 的财务数据和资本市场数据(均来自国泰君安数据库)。在去掉相关性明显 很强的指标和共线性指标(即某个指标可以由其他指标线性表出)后。本文考虑了获利能力、 流动性、现金流量、资产负债、资本市场等五大类 22 个指标。这 22 个指标在已有的研究中 证明对违约概率的研究是有用的。本文对违约企业的定义,采用传统的分析方法,即视 ST 股(上市公司因财务状况异常而被“特殊处理”)为违约的借款企业,非 ST 股为不违约借款 企业。在已有的研究中,获利能力比是首要的指标
18、。本文使用的获利能力比例包括总资产净利 润率、营业毛利率、营业净利润率、资产报酬率、投入资本回报率。总资产净利润率(ROA) 是指净利润对总资产的比,它给投资者描述了一个公司的投资资金如何有效地转换成净利润 的概念,ROA 值越高,公司的资质就越好。在通常的研究中,ROA 是一个度量公司获利能 力的重要指标。财务杠杆比率也是预测公司信用风险的重要变量。本文考虑了财务杠杆系数、经营杠杆 系数、综合杠杆。资产负债指标包括资产负债率、所有者权益比率、流动负债比率、长期负 债比率。流动性指标包括流动比率、速动比率、营运资金比率、营运资金对资产总额比率。现金流量指标现金流量对流动负债比率、每股经营活动现
19、金净流量、每股筹资活动现金净流量、每股现金净流量、销售现金比率。资本市场指标 P/S 表示的是股价和每股销售额的比率,它很多时候被认为是衡量一个公 司价值的重要指标,一个具有较低 P/S 指标的公司,一般认为比较具有投资价值,反应了资 本市场对公司价值看法,一定程度上能反映公司的信用风险状况。在一个经济周期内,市盈 率的波动会很大(如一般来说,钢铁股当市盈率很低的时候,往往是其盈利能力下降的开始), 而市净率无法体现不同资产质量之间的差别。所以这里只选择了股价和每股销售额的比率。3.2 因子分析过程3.2.1 数据处理和分析用式(2)的时间加权数据处理方法,对 04-06 的公司样本数据作时间
20、加权平均处理为06 的综合指标数据,对 05-07 的公司样本数据作时间加权平均处理为 07 的综合指标数据, 合格的样本总数共计 3114 个(对于上市不到 3 年的公司,相应的 T 取 1,或者 2)。首先对这些变量做两两间的皮尔逊相关性分析,我们发现这些变量之间存在显著的高度 相关(Pearson 相关系数大于 0.8)及强相关(Pearson 相关系数在 0.5 到 0.8 之间),这说明 对原始数据进行因子分析是很有必要的。对数据的进行描述分析,可以发现各个变量的最小值、最大值、均值与方差有很大的差 异,这种差异主要是由于各个变量间在数量级上或量纲上的不同,这会对后续分析产生不利 的
21、影响。为了消除这种影响,我们通过把所有变量都变为均值为 0、方差为 1 的方法(即用 原始数值减去均值,再除以方差),先对原始数据作了标准化处理。3.2.2 变量共同度分析对变量进行共同度分析可知,除了销售现金比率和 P/S 比率,其它变量的共同度对前几 个因子(特征值大于 1)均在 0.8 以上,这表明大部分变量都很好被前几个因子所解释。3.2.3 特征值分析和因子矩阵对数据进行特征值分析,我们发现变量相关阵前 10 个因子的特征根均大于 1,它们一 起解释了总方差的 93.761%(累积贡献率)。这说明这 10 个因子提供了原始数据的足够信 息。从碎石图也可以看出,前 10 个主成分的特征
22、值大于 1,且明显大于后面主成分的特征 值。这说明因子分析结果是比较理想的。由初始因子负荷矩阵得到的旋转以后的因子矩阵可以很清晰的得出各个主成分与原始 变量的关系:表 1 旋转因子矩阵Tab.1 Rotating factor matrixComponent12345 6 789 10 流动比率.018.017 .022.0083.05E-005.990.011.057-.029 -.036 速动比率.013.010 .019.006 .004.991.008.051-.020.009 营运资金比率.967.109-.011.022-.004.032.001.012 .003.004营运资金对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 因子分析 logistic 违约 概率 测算 模型 研究
链接地址:https://www.31ppt.com/p-5191835.html