第三讲:信用评级模型ppt课件.ppt
《第三讲:信用评级模型ppt课件.ppt》由会员分享,可在线阅读,更多相关《第三讲:信用评级模型ppt课件.ppt(53页珍藏版)》请在三一办公上搜索。
1、第三讲:信用评级模型,主讲:梁满发,工作目标,信用评级就是对贷款申请者进行信用评估,目的是减少贷方(银行、投资公司、信用卡公司)的金融风险。信用评级模型还可用于人才甄聘、绩效考核、投资风险评估、犯罪识别等工作中。,现在我们以某金融机构对客户信用卡申请审批工作为背景,运用数据挖掘方法建立信用评分的模型,对申请者给以信用评分,产生一个自动决策系统帮助决定接受或拒绝信用申请。,我们把信用合格者视为响应,不合格者视为非响应。我们要作信用评级就是寻找信用合格者与不合格者之间的行为模式或社会背景的差别,以此来判别某种特定的申请者信用。因此,我们必须要有足够的高质量的客户信用观察数据,既要包括足够的响应和非
2、响应,以及相应的客户金融行为信息和社会背景信息,这些信息可是区别不同信用者因素。,在此,我们有某德国银行的客户信用的历史数据,数据文件名为SAMPSIO.DMAGECR。数据含有1000个申请者观察,其中有21个变量, good_bad是表示信用的二值响应变量。它是从银行内部一个更大的数据库中抽样出来的,原数据库中仅有10的响应(信用不合格者),为了有足够的响应数据供分析,才取了重抽样方式,抽取的样本中响应占样本数的30。,除good_bad变量外的其它20变量意义如下:,社会人口变量Marital:性别与婚姻状况Age:年龄Resident:在现住所的居住年数Telephon:电话号码,个人
3、和金融变量Checking:银行帐户情况Savings:存款数量History:使用信用卡情况Property:财富、保险情况Coapp:担保情况Job:职业类型Employed:工作年限Foreign:是否是外国职员,债权人财产变量Housing:房产情况Depends:动产数Existcr:在本银行是否有信用卡,具体贷款变量Amount:信用卡保证金Purpose:贷款目的Duration:贷款期Installp:可支配收入情况Other:其它资产,具体工作目标:()找出影响信用重要因素,决定信用评级考查的重要内容;()建立信用评分模型,找出信用高或信用低的人群特征;()编写信用评分模型程
4、序代码;()计算申请者的信用得分,并完成准批还是拒绝工作。,数据抽样,插入input data source节点,选取SAMPSIO库中的DMAGECR 数据文件;因全部的数据文件仅为1000个观察样本,所以选择全部的数据建模;数据集设为角色;在数据中,good_bad变量反映了客户信用的响应变量,因此,预备选择good_bad为建模模型的目标变量,修改good_bad变量为Target角色。,Interval变量有三个(durations、 amount和age),其它均为分类变量。,观察good_bad变量直方图:,从图中看出,不可信任的客户有“bad”表示,即响应。而我们习惯把响应值定为
5、“1”,因此,需要把doog_bad变量重编码,即“bad”对应”“,“good”对应“0”。新变量命名为good_badn。另外,从图中知目标变量响应比例为30,这个比例不符合一般申请人群响应的比例。这是由于为了得到足够的响应来分析响应行为,以重抽样方式得到的样本。虽然不影响建模,但建模时应加以注意。经调查,申请者总体中约为10人为有信用风险,90为没有信用风险。,数据变换,插入Create Variable节点作数据变换;定义反映信用响应的新响应变量good_badn,作为建模的目标变量。,我们观察Duration变量的分布:,从直方图中知, Duration变量值从472,值太多,不利于
6、信用模型的解释。因此,为了简化分析,即使丢失一点信息,我们还是应该将Duration变量化为二值变量。一方面,因Duration变量的平均值为20左右,分布偏左态;另一方面,金融行业习惯将贷款分为”长期贷款“和”短期贷款“的概念。因此,决定将“贷款期”超过18月的称为“长期贷款”,变量值对应为“1”;将“贷款期”低于18月的称为“短期贷款”,变量值对应为“0”。新变量命名为“deadline”。,因为Checking变量有四个值,信息冗余,不利解释响应变量,因此,我们将Checking拆分为两个变量,即good_Checking表示”好帐户“,即“余额大于200马克”为1,其它为0; bad_
7、Checking表示”坏帐户“,即“负余额”为1,其它为0。,因marital变量含有性别和婚姻的信息,这两个信息都是个人基本信息,如果将它们提出为独立变量,可能对响应预测有利,因此,我们将marital分为两个变量,即sex表示客户性别maritals表示客户婚姻状况,设置变量角色,信用评级就是要用申请者个人信息预测响应,这里good_badN就是样本的响应变量,即设置为target角色,其它设为input角色。但创建的新变量的信息代替了旧变量信息,所以在后面建模中要去掉旧变量,即把good_bad、checking、duration、marital设置为rejected角色。 good_b
8、adN、good_checking、bad_checking、sex、martials五变量New Measurement设为binary。,数据探测,首先,我们要初步了解目标变量和其它变量的分布,目的是:数据是否存在大量的缺失值;数据是否可能存在严重影响建模稳定性的奇异数据;变量服从的分布是否适合模型条件。,其次,我们要作一般变量与目标变量的交叉分析,以了解其它变量与目标变量的相关性和优势率。目的是:选择建模重要变量,减少参与建模的变量,提高计算效力;检查变量间的共线性性,提高模型精度;为模型解释作好准备。,因数据文件仅有三个区间变量,没有缺失值,DURATION和AGE没有明显奇异值,仅需
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 信用 评级 模型 ppt 课件
链接地址:https://www.31ppt.com/p-1872197.html