论文3161信用卡数据分类挖掘.doc
《论文3161信用卡数据分类挖掘.doc》由会员分享,可在线阅读,更多相关《论文3161信用卡数据分类挖掘.doc(27页珍藏版)》请在三一办公上搜索。
1、林波: 您好! 说真的,我改你的毕业论文真的非常非常头痛,理由如下: 1、几乎没有任何逻辑性,几乎没有任何条理,没有一个完整的思路,我都不知道你在说什么! 2、没有提出一个自己的、完整的模型、架构和算法,我根本就不知道你究竟用了什么关键技术,在你的论文中,数据挖掘只不过是一个比较新颖的“新名词”而已。我根本就没看到你把这个技术用进去,这样的论文,答辩肯定是通不过的! 3、大量地抄袭网上某些论坛的网页,这是学术上的“偷窃”,极其可耻的! 4、写了一大堆跟你的论文毫无关系的东东,比如,ODBC之类的东西,这跟你的论文是十八杆子都打不着的! 还有很多非常严重的问题,因时间的关系我就不一一列举了。 附
2、件1是我帮你重新理了一个大致的提纲,仅供参考。 附件2是马上要答辩的一位工程硕士的毕业论文,他不仅做得非常棒,而且也写得非常好,可供你借鉴。 “只要思想不滑坡,办法总比困难多。”愿与你共勉!congfu 在您的来信中曾经提到:From: hzjlb Reply-To: To: xucongfu Subject: 报告论文情况20080404Date:Sun, 6 Apr 2008 20:50:48 +0800 (CST) 徐老师: 这是我含实验结果的论文初稿,请徐老师先看看,我过两天再向你请教! 祝好! 您的学生 金林波摘要本文首先介绍了信用卡业务的基本知识,PCRM和数据挖掘的基本概念、原理
3、和方法本文描述了信用卡数据分类挖掘中的数据预处理过程,先从纷杂的应用数据中选择与分析主题有关的数据表,经过一系列数据库操作,从这些数据表中获得样本的输入信息,然后从交易历史信息中抽象出对样本分类的相关参数,将分类标准量化后得到对样本的分类。最后经过数据规格化、异常处理、缺失处理等数据清理方法对样本数据进行加工,得到分类挖掘所需的样本数据。本文的主要内容有:1. 对分类算法,详细介绍了SLIQ决策树算法和BP神经元网络分类算法,并提出了相应的信用评分模型和客户分析模型;2. 对聚类算法,介绍了CLIQUE算法及其实现,并建立了一个客户分析模型,即客户消费行为分析模型。3. 本文重点对异常检测算法
4、作了较深入的学习,详细的分析了LOF算法的基本实现,以及在实现过程中的改进办法,并提出了客户异常消费行为分析模型。4. 基于UNIX和INFORMIX的 数据挖掘系统实现和挖掘结果。 展望,系统优化第一章 引言1-1信用卡知识信用卡是集金融业务与电脑技术于一体的高科技产物,信用卡于1915年起源于美国,1952年,美国加利福尼亚州的富兰克林国民银行作为金融机构首先发行了银行信用卡。1959年,美国的美州银行在加利福尼亚州发行了美州银行卡。此后,许多银行加入了发卡银行的行列。到了六十年代,银行信用卡很快受到社会各界的普遍欢迎,并得到迅速发展指由商业银行向社会发行的具有消费信用、转账结算、存取现金
5、等全部或部分功能的支付工具,不能透支。贷记卡是由银行或信用卡公司向资信良好的个人和机构签发的一种信用凭证,持卡人可在指定的特约商户购物或获得服务。信用卡既是发卡机构发放循环信贷和提供相关服务的凭证,也是持卡人信誉的标志,可以透支。按照授信程度的不同,贷记卡分为真正意义上的贷记卡和准贷记卡。贷记卡是指发卡银行给予持卡人一定的信用额度,持卡人可在信用额度内先消费、后还款的信用卡。准贷记卡是指持卡人须先按发卡银行要求交存一定金额的备用金,当备用金账户余额不足支付时,可在发卡银行规定的信用额度内透支的信用卡。 从2003年国内信用卡起步至今,每年的发卡量均增长80%以上。央行的统计显示,截至2007年
6、底,含贷记卡和准贷记卡在内,全国累计发卡量已超过8750万张,国内商业银行要在当前阶段扩大发卡规模和提高服务质量之间找到完美结合点,上述麦肯锡的报告指出,中国消费者信用卡的总体渗透率依然较低,在14左右。在上海等一级城市的富裕阶层中有超过1/3的人目前都拥有信用卡,并开始熟悉信用卡的使用。相比之下,在台湾和香港地区各收入群体中分别有70和81的家庭持有信用卡。可资对比的还有,在国外,信用卡业务是银行盈利的重要来源之一。比如,信用卡业务作为花旗银行的拳头产品,该业务一年的收益就占了花旗纯利润的13。虽然,目前国内只有招行等为数不多的商业银行在信用卡领域实现盈利,然而盈利的预期却是相当诱人。麦肯锡
7、的报告预测,到2013年中国信用卡行业的整体利润将达到130亿元人民币。报告称,中国信用卡市场依然是中国个人金融服务市场中成长最快的产品线之一。1-2数据挖掘技术和应用数据挖掘,也叫数据库中的知识发现 KDD(Knowledge Discovery in Database),KDD 一词最早是出现在1989 年8 月的第11 届国际联合人工智能学 术会议上。 数据挖掘的广义定义为:数据库中的知识发现,即从大规模的数据中抽取非 平凡的、隐含的、未知的、有潜在使用价值的信息的过程FPS96。狭义的理解 认为数据挖掘只是KDD 的一个步骤。KDD 的整个过程包括数据选取、数据预处理 和数据清洗、数据
8、挖掘、知识评估等多个步骤,而数据挖掘只是其中对经过预处 理的数据进行处理,抽取知识的一个过程。 当前,在各种企业、商业领域、科学研究领域所收集的数据,数据规模都越 来越庞大,甚至G、T 级的数据规模,面对如此庞大的数据,利用传统的数据分 析手段已经无法有效的理解和使用这些数据,由此导致越来越严重的“数据爆炸 而知识贫乏”。另外,传统的数据分析方法,例如统计方法,只能获得数据的表 面信息,而不能获得数据的内在联系以及潜在的规律。这需要新的技术来智能的 有效的分析这些数据,以使数据得以充分利用。这就是数据挖掘(Data Mining) 技术产生的背景。 数据挖掘是目前国际上数据库和信息决策领域的最
9、前沿研究方向之一,引起 了学术界和工业界的广泛关注。国际上许多研究机构都在这个领域开展了各种各 样的研究计划。研究的主要目标是发展有关的方法论、理论和工具,以支持从大 量数据中提取有用的、让人感兴趣的知识和模式。数据挖掘是面向应用的多学科 交叉领域,应用推动了数据挖掘技术和理论的研究。 2003年Gartner Group 的一份研究报告表明,在35年内,数据挖掘和人 工智能将成为最重要的五项关键技术之一Lee01;2003年,整个商业智能市场, 包括数据挖掘工具、查询、报表和OLAP 等,将会达到80亿美元,展示了数据挖 掘应用的巨大空间。随着数据挖掘算法研究的逐渐成熟,市场重心开始从算法研
10、 研究逐渐向数据挖掘应用转移数据挖掘在国外银行的应用起步不早,但发展却很快。数据挖掘技术起源于二十世纪八十年代末期的美国。从商业应用来看,首先采用数据挖掘技术的是金融、保险、电信等行业;而银行则是数据挖掘技术应用的重要领域。在欧美银行当中,汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者;当初应用的业务范围以客户档案(Portfolio)分析为主。但是,真正将数据挖掘深度应用到主营业务中去的是以MBNA和FirstUSA为代表的信贷银行,它们应用的领域主要是信用卡用户分析。到二十世纪九十年代末,随着客户关系管理(PCRM)的兴起,数据挖掘逐步成为银行业的宠儿,美国的美洲银行和商务银行、英国的皇家
11、苏格兰银行、法国兴业银行、德意志银行、荷兰银行、澳大利亚国民银行等纷纷采用数据挖掘技术来提高自己的经营能力。到二十一世纪,数据仓库技术的广泛应用为数据挖掘的深度普及奠定了基础。在当今的欧美银行业,很少有不采用数据挖掘或数据分析技术的银行。 数据挖掘是个比较宽泛的概念。广义的数据挖掘指的是一般性数据分析,它既包括统计分析方法,也包括挖掘方法。狭义的数据挖掘则是指基于非线性关系的数据分析方法。银行业使用比较多的统计方法有描述分析、探索分析、聚类分析、回归分析、时间序列分析、因子分析、方差分析等等。挖掘方法则包括神经网络、决策树、关联分析、模糊聚类、贝叶斯网络、马可夫链等等。通常情况下,统计分析和挖
12、掘方法要结合使用。但目前有一种倾向,一些软件商把统计方法纳入或包容到挖掘方法之中,使用户在界面上见到的只有挖掘方法。 数据挖掘虽然是一门技术,但在实际应用中,它却是一个过程,一个不断调整、修正和发现的过程。典型的数据挖掘过程包括以下步骤。第一,数据的抽取、转换和清洗。第二,数据探索,发现基本分布、缺省值、异常值等等。第三,建立模型,按照业务需求建立分析模型,如聚类/分类、关联、预测等等。第四,模型修正,将训练数据中得到的模型应用于真实的大数据量,检验和修正分析模型。第五,模型评估,按照特定参数标准对模型进行评估和比较。第六,模型应用,将优化的模型应用到业务流程之中,解决具体业务问题。 具体的说
13、,目前在欧美银行业有那些典型应用如下:1、客户分群和档案管理(Profiling , Segmentation and Portfolio Management) 根据客户资料找出客户的社会、经济和消费特征,再根据这些特征将客户分成不同群体或类别,确定他们的消费能力、消费水平和消费习惯,计算生命价值以及对银行的贡献率。常用的挖掘方法包括聚类分析、神经网络、决策树、探索分析等等。 2、客户保留和个性化营销(Custom Retention and Database Marketing) 客户是一个可能根据年费、服务、优惠条件等因素而不断流动的团体,而找到一个新客户的成本远远高出挽留一个老客户。留
14、住已有的客户是银行业的一大挑战,而个性化服务是有效途径之一。哪些客户最有可能结束使用某项产品或服务? 哪些因素导致这些客户流失?为了留住这些客户,需要采取哪些市场策略?数据挖掘可以帮组管理人员制定专门针对特定客户的服务计划和销售计划。常用的个性化销售方法有跨线销售(Cross-selling),即向已经采用产品或服务的客户销售其它的产品或服务,以及升级销售(Up-Selling),即向已经采用产品或服务的客户销售更高级的产品或服务?常用的数据挖掘方法包括频率分析、交叉分析、对应分析、回归分析、神经网络、决策树、等等。 3、信用卡用户分析 在欧美国家,信用卡是银行的重要业务部分。给什么样的人发放
15、信用卡?定多少信用额度?有多大的风险以及如何防范?这些都是数据挖掘的用武之地。是否批准信用卡申请需要对申请者进行信用定级或信用打分(credit scoring)。年龄、性别、婚姻状况、教育背景、家庭成员特点、职业、职称、收入状况、信用记录等都是分析的参数。持卡人的用卡消费行为也需要打分定级。用款数量,用卡频率、是否按时交款等因素都在分析之列。常用的数据挖掘方法有孤立点分析、支持向量机、决策树等等。 4、金融欺诈和风险管理 金融欺诈以信用卡欺诈、帐户欺诈和贷款欺诈为主要途径。欺诈发现 (Fraud Detection) 已经成为一个专门的研究和防范领域。欺诈交易具有哪些特征?如何建立模型来甄别
16、欺诈交易?常用的数据挖掘方法有孤立点分析、主成分分析、聚类分析、判别分析、关联分析、决策树分析、神经网络等。 5、投资组合风险分析 随作多元化投资理念的兴起,投资组合分析成为金融界的重要技术领域。确定一个投资组合中的风险因素,预测每一个风险因素的作用时间,每个因素的影响程度,风险级别等等逐步变成一种学问。数据挖掘则可以帮助找出风险要素之所在,以及各个风险要素对整体风险的量化关系。同时,数据挖掘还可以帮助考察公司所面临的总的风险;即企业级风险管理,如金融资产,如固定收入(fixed income)、权益(equity)、外币、固定资产及各种衍生证券的市场价值所面临的负面影响。常用的挖掘方法有回归
17、分析、判别分析、神经网络、决策树等等。 6、辖属机构管理 各个辖属机构运作是否正常? 各个辖属机构在经营上有什么特点? 哪些辖属机构活动最活跃? 哪些服务做得最好或最糟糕? 哪些辖属机构带来最大效益?哪些辖属机构效益最差?各个辖属机构的客户满意度有什么不同?各辖属机构效益的整体分布情况如何等等。数据挖掘有助于从宏观上对分行,乃至整个银行系统进行掌控。常用到的方法包括描述分析、探索分析、孤立点分析、聚类分析神经网络等等。 总之,欧美银行业由于竞争激烈,已经走向真正意义上的个性化服务和科学决策阶段。数据挖掘正是帮助实现这些操作的技术途径,也正在成为金融领域不可或缺的组成部分。 第二章 PCRM在信
18、用卡中的应用 中国工商银行牡丹信用卡数据挖掘现状:面对激烈的银行卡市场竞争,为满足日益增长的客户需求和内部管理要求,对银行卡业务信息按照市场化、电子化、系统化、科学化来管理就显得十分重要。通过数据挖掘,运用先进的IT技术和优化的管理方法对客户进行系统化的研究,通过识别有何时何地的客户来整合客户资源,改进对客户的服务水平,以降低营销成本,赢得更多利润。其目的在于建立一个系统,使企业在客户服务、市场竞争、销售及支持方面形成彼此协调的关系实体,为企业带来竞争优势。该系统将有助于牡丹卡及时、准确、全面地掌握自己的客户数量及其分布、信贷资产分布情况、客户的信用情况和网点利用率情况,有助于银行内部管理人员
19、的分工和协作(包括产品开发人员、营销人员和业务人员),使每个员工都在数据库的管理之下各自进入角色,协调工作,识别、分析、选择和挖掘市场。目前投产的仅仅是数据挖掘的一角:PPCRM(个人客户信关系管理系统)。1、 牡丹卡客户关系管理现状(1)缺乏理论指导和政策导向。PCRM是在完善的市场经济和信息技术广泛运用的条件下产生的,完全移植到银行卡部肯定是行不通的,但其先进的经营理念和经营模式,以及可能发挥的作用,直到目前为止各银行卡部都还缺乏系统的研究,还没有一家银行卡部提出一套完整的PCRM政策。而银行卡业相对其它金融产品,其运作方式更接近市场化,且现在的信用卡市场竞争如此激烈,牡丹卡部若能率先开展
20、这方面的研究,迟早实施PCRM,将极大地规范现有管理体制,抢占市场先机。(2)丰富的客户信息没能有效利用。牡丹卡部的数据库中积累了大量的客户信息,但这些信息是散乱而不连续的,缺乏一套行之有效的数据挖掘系统进行信息分析,致使各种数据不能有效结合,形成了很多“信息孤岛”,使得市场营销、客房服务、风险控制等部门在业务开展方面各自为阵,无法准确搜索、分析客户信息,开拓市场,从而达到为客户提供贴身服务、提高客户忠诚度的目的。同时领导决策层也很难搞清楚数据库系统的整体运作情况,不能有效地提供决策帮助的。(3)产品创新能力弱,市场开拓乏力。由于缺乏对客户信息有效分析,市场细分、市场定位不能遵从科学的营销方法
21、,产品设计不能充分满足客户需求,致使多数新产品缺乏生命力;而在营销过程中,又不能对市场反馈数据进行跟踪、分析,致使商户、持卡人市场拓展策略不能及时调整,丧失市场机会,丢失市场份额,更不能利用已有的丰富客户信息为客户提供深层次服务。(4)维持客户的成本高,客户的保留度和忠诚度低。由于客户信息没有在各部门之间有效流通,客户服务人员不能全方位地了解客户信息,为留住有效客户,必将增加沟通、邮寄、接触、跟踪服务等方面的开支;另一方面,客户服务人员不能正确细分客户,无法找出真正的创利、低利或无利客户,因此也无法据此开展差别化服务,进而为客户提供一对一的服务,以提高各种客户的满意度和忠诚度(5)风险控制水平
22、低,赢利能力弱。在西方发达国家,信用卡的透支收益占整体利润的70以上,而目前牡丹卡部占比还不到30,这与牡丹卡现行的风险控制能力有直接关系。现行的控制方法原始、简单,多是通过提高申请人的门槛采减少风险,限制了许多潜在优质客户的进入;同时不能对风险进行有效的“事中”控制,客户出现轻微透支或透支期限稍长(大于2个月)便全力追收,影响了透支利息收益。2、 牡丹卡实施PCRM的意义(1)PCRM系统将打造牡丹卡的核心竞争力。银行核心竞争力(CoreComPetence),是指支撑住银行可持续性竞争优势的开发独特产品。创造独特营销手段的能力,是银行在特定经营环境中的竞争能力和竞争优势的合力,是其现有业务
23、资源优势与运行机制的有机融合。PCRM的实施,将为牡丹卡带来先进的以客户为中心的发展战略和经营理念,将优化现有的组织体系和职能架构,形成高效运行的管理系统和交流通畅的信息系统,将加强银行开发、创新和营销金融产品的能力,将提升银行的信息化、电子化建设水平和全员的知识、技术和工作能力从而为培育和打造银行的核心竞争能力提供全面而有力的保障。(2)整合已有的金融资源。牡丹卡是整个工商银行的品牌,它是全行管理、科技、服务、营销等方面的综合体现。完整的PCRM系统在银行资源配置体系中将发挥承前启后的作用;向前它可以朝银行与客户的全面联系渠道伸展,综合传统的电话银行、自助设备、网点机构,以及网络银行、网络金
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论文 3161 信用卡 数据 分类 挖掘

链接地址:https://www.31ppt.com/p-2396343.html