数据挖掘技术及在电信行业中的应用.docx
数据挖掘技术及在电信行业中的应用一、数据挖掘研究概述1.1数据挖掘的概念数据挖掘又常被称为数据库中的知识发现,UsamaFayyad等对其下的定义为:从大量数 据中获取有效的、新颖的、潜在而有用的、最终可理解的信息的非平凡过程,这些信息的 表现形式有概念、规则、模式等。数据挖掘是一门交叉学科,其中融合了统计学、机器学 习、数据库和数据仓库技术等多个领域的研究成果,为海量数据中的知识提取提供了一整 套面向不同需求的算法。数据挖掘是一门实用性的学科,其主要特点是对海量数据进行抽取、转换、分析等处 理,并从中归纳出有趣的模式或规律辅助决策,因此,数据挖掘的产生和发展是和数据库 的发展密切相关的。二十世纪六七十年代,数据库技术处于发展的初期,数据量相对较小, 利用结构化查询语言SQL已经基本能够满足事务处理和数据分析的需要从二十世纪八十 年代开始,随着先进数据库系统、基于web的数据库系统和数据仓库的诞生和迅速发展, 数据量急剧增加,数据分析的要求也变得越来越复杂,这就迫切需要一套从海量数据中提 取知识的方法论,因此,数据挖掘作为一门独立的学科应运而生。下图展示了数据挖掘和 数据仓库的联系,从图中可以看到,数据仓库是数据挖掘的基础。监控与营理图1-1数据仓库与数据挖掘确切地说,数据挖掘只是数据库中的知识发现,(Knowledge Discovery in Database,简 称KDD)的一个子过程,但却代表着获取知识的动态过程,因此,常将整个知识发现的过 程称为数据挖掘。由图1-2可知,整个知识发现的过程是由若干挖掘步骤组成,而数据挖 掘仅仅是其中的一个主要步骤。整个知识发现的主要步骤有(1) 数据清洗(Data Cleaning)清除噪声和无关挖掘主题的数据(2) 数据集成(DataIntegration)将来源于多个数据源的相关数据进行组合(3) 数据转换(DataTransformation)将数据转换为易于挖掘的数据存储形式(4) 数据挖掘(Data Mining)知识发现的一个核心步骤,用智能的方法从海量数据 中提取数据模式或规律(5) 模式评估(Pattern Evaluation)依据一定的评估标准从挖掘结果筛选出具有实 际指导意义的模式(6) 知识表示(Knowledge Presentation)利用可视化和知识表达技术,对所提取的知识进行展示。图1-2数据库中的知识发(KDD)流程示意图1.2数据挖掘的分类和应用数据挖掘技术涵盖的范围很广,可以用来解决各类不同的实际问题,下面从数据 挖掘的任务和功能这两个不同的角度对数据挖掘进行分类。首先,从数据挖掘任务的角度对数据挖掘进行分类。数据挖掘是以数据挖掘任务 为单位的,一个数据挖掘任务走完数据挖掘的整个流程,其中包含了挖掘的各个环节, 如图1-2所示。数据挖掘任务可以分为描述和预测两类描述性的挖掘任务刻画数据的 一般特性,是对数据中所蕴含的规则的描述,或者根据数据的相似程度将数据分成若 干组预测性挖掘任务是在当前数据的基础上,对未来数据的某种行为做出预测,所使 用的数据都是可以明确知道结果的。描述和预测的主要区别在于描述是静态的,是抓 取数据的主要特征,并加以归纳和总结预测是动态的,是指通过学习,将当前学到的 知识推广到未来,是更为高级的一种知识提取形式。其次,从数据挖掘功能的角度对数据挖掘进行分类。根据数据挖掘的不同功能, 可将数据挖掘分成以下几类:(1) 概念描述(Concept Description):概念描述是数据挖掘最简单和直接的功能,它 指的是以汇总的、简洁的、精确的方式描述数据库中的大量的细节数据,以方 便用户通过数据做出决策。通常可以通过数据特征化、数据区分、数据特征比 较等方法得到概念描述,也可通过一些统计学的方法对数据进行描述。(2) 关联分析 (Association Analysis):关联分析是指从大量数据中发现项集之间有 趣的关联。关联分析广泛地应用于购物篮或事物数据分析中,可以有效地帮助 商家制定许多市场营销方面的决策,使他们知道哪些物品或服务应该被捆绑在 一起销售,以提高销售额,“啤酒和尿布”的例子是关联规则最具代表性的应 用。(3) 分类和预测(Classificationand Forecast):分类和预测是两种性质类似的数据分 析形式,因为两者都是根据当前数据行为预测未来的数据行为,所不同的是, 分类通常预测的是类标签,类标签通常是离散值,而预测通常用于对连续值的 预测,例如对某个连续属性的缺失值做出估计。分类是数据挖掘最重要的功能, 其实际应用也最为广泛。(4) 聚类分析(Clustering):聚类和分类的功能类似,都是预测类标签,但从学习方 式的角度看,两者的实现机理却是相反的聚类不依赖任何先验知识,只根据 数据的某些特征来定义数据之间的距离,如使用最简单的欧式距离,从而衡量 数据之间的相似度,将相似度大的归入一类因此,通常将分类称作有指导的 学习,而将聚类称作无指导的学习。(5) 离群点分析(Outlier Analysis):通常称那些远离大多数点的少数点为离群点针 对数据集中的离群点,一般的做法是将其视为噪声或异常而丢弃,但在如故障 诊断、欺诈检测等应用中,离群点本身可能是非常重要的信息,因此,如何检 测离群点并对其含义进行合理解释也是数据挖掘的重要的研究方向之一。(6) 演变分析(Evolution Analysis)数据演变分析是对行为随时间变化的对象的规 律或趋势的描述并建模。这种分析包括时间序列数据分析、序列模式匹配和基 于相似性的数据分析。通过这种分析,可以识别整个股票市场和特定公司的股 票演变规律,从而帮助预测股票市场价格的未来走向,支持股票投资者进行决 策。在实际的工程应用中,往往根据实际作用把挖掘得到的模式细分为关联模式、分 类模式、回归模式、聚类模式、时间序列模式等等。分类模式和回归模式是使用最普 遍的模式,两者都是通过对当前数据建模,以对数据的未知属性质值做出预测,所不 同的是,分类针对离散属性,而回归针对连续属性。分类模式、回归模式、时间序列 模式也被认为是受监督知识,因为在建立模式前数据的结果是已知的,可以用来检测 模式的准确性,模式的产生是在先验知识的指导下进行的一般在建立这些有监督模式 的时候,使用其中一部分数据作为样本,用另一部分数据来检验和校正模式,因此, 这两部分数据分别称作训练数据集和检验数据集。聚类模式、关联模式、序列模式则 是非监督知识,因为在模式建立前的结果是未知的,模式的产生不受任何监督,没有 任何先验知识的指导。通过这些模式,我们一般可以从中获得广义型知识 (Generalization)、分类型知识(Classification)、预测型知识(Prediction)、关联型知识 (Association)、偏差型知识(Deviation)等类型的知识。数据挖掘技术诞生于实际应用,由此决定它是一门实践性的学科。目前,在很多 重要的领域,数据挖掘都广泛地应用于其中,发挥着积极的促进作用,尤其是在如银 行、电信、保险、交通、零售等商业应用领域,更是离不开数据挖掘。数据挖掘能够 解决许多典型的商业问题,其中包括客户分群、数据库营销、交叉销售等市场分析行 为,以及客户流失预测、客户信用评估、信用卡欺诈检测、股票价格分析与预测、金 融投资风险分析、购物篮分析等等。图1-3描述了数据挖掘在解决具体的商业问题时 所遵循的一般流程。在统计和机器学习领域中也存在许多数据挖掘系统。另外,将数据仓库、联机事 务处理(OLTP联机分析处理(OLAP)和数据挖掘技术结合是近期数据库发展的一个趋 势。数据仓库和数据挖掘都可以完成对决策技术的支持,相互间有一定的内在联系, 两者集成,可以有效地提高系统的决策支持能力。目前,电信行业已经逐步建立起数 据仓库系统,在数据仓库的基础上将逐步建立如下数据挖掘专题客户价值模型、客户 信用等级模型、客户流失预测模型、交叉销售模型、营销计划预演模型和客户细分模 型等。数据挖掘在电信中的应用如图1-4所示。图1-3 CRISP-DM的参考模型数据、数据挖掘任务和数据挖掘方法的多样性和复杂性给数据挖掘提出了许多具有挑 战性的课题。数据挖掘语言的设计,高效、准确的挖掘算法和挖掘系统的开发,交互和继 承的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘 研究人员、系统和应用开发人员所面临的主要难题。针对以上课题,数据挖掘产生了很多 研究分支,主要有:数据挖掘与数据库技术、数据仓库和Web数据库系统的集成、可伸缩 的数据挖掘算法、数据挖掘的应用、数据挖掘语言的标准化实现、数据挖掘的可视化、对 于复杂数据类型进行挖掘的新方法、数据挖掘中的隐私保护与信息、安全等。图1-4数据挖掘在电信行业的应用1.3数据挖掘在电信行业的应用1.3.1数据挖掘在电信行业的应用分类数据挖掘是由其应用的需求所驱动的,每一个数据挖掘工程都有一个挖掘主题,描述 挖掘目标,指导整个挖掘过程。电信企业是典型的以数据为驱动的服务型企业,丰富的数 据资源以及行业内的激烈竞争,促使数据挖掘在该行业得到了较为广泛的应用。数据挖掘 在电信行业中的应用通常使用挖掘主题来分类,由于电信业务的复杂性和多样性,产生了 许多电信数据挖掘主题,下面对其中常见的主题做一简要的介绍。(1) 客户欺诈识别(Customer Fraud Detection)指根据历史的客户欺诈数据建立用户属性、服务属性和客户消费数据与其欺诈可能性关联的模型,对每个客户在 未来实施欺诈的可能性进行量化,以达到客户欺诈的识别和预防。欺诈识别是 数据挖掘在电信中最为主要的应用之一,它的兴起缘于电信欺诈行为在电信业 的普遍存在和不断扩张,以及给电信运营商造成的越来越大的损失。本文重点 研究的客户恶意欠费欺诈预测便是客户欺诈识别中的一项重要内容。(2) 客户流失预测(Customer Churn Prediction)指通过分析客户的历史行为数据, 对客户的忠诚度做出评估,判断客户流失的可能性大小。客户流失的广泛应用 是因为电信行业,尤其是电信运营商之间日趋激烈的竞争。竞争是电信市场的 未来趋势,尽可能多地争取新客户和保留老客户是电信市场营销的两大重要内 容,而客户流失预测是在为服务后者的基础上兴起的,它的主要作用是给出了 需要被挽留的客户范围,避免了营销手段的盲目性造成的成本浪费。(3) 客户细分(Customer Sub-division)指按照一定的标准将电信企业的现有客户划 分为不同的群体,采取“分而治之”的策略,针对不同的客户群采用不同的营 销手段,一方面可以节省营销成本,另一方面能够达到更优的营销效果。许多 营销者认为,行为变量,如场合、用户地位、使用率、忠诚度、购买阶段及购 买态度,是构建细分市场的最佳起点,而历史的电信客户行为数据正好记录了 以上的这些关键信息,数据挖掘正好提供了处理和分析这些信息的有力手段。(4) 交又销售(Cross Sellion)指通过分析电信各类产品之间的关联,开发各类产品 的套餐捆绑策略,并且有针对性地对老客户销售其尚未使用过的相关产品。与 客户细分类似,交叉销售也是有针对性地进行销售,是重要的现代营销策略之 一,它并不是简单地将客户未购买的产品推销出去,而是根据每个个体的行为 特征,判断其已购买的和哪些未购买的产品有较大的关联,并将那些有较大关 联的未购买产品推销给该客户。以上四个挖掘主题在电信数据挖掘的应用中最为常见,除此之外,客户的消费模 式分析、客户盈利能力分析、目标客户定位、盗用模式分析和异常模式分析也在电信 行业得到了应用。随着电信行业中新问题的不断涌现,新的挖掘主题也会应运而生。1.3.2数据挖掘在电信行业的应用现状随着电信市场垄断格局的打破,各个电信企业间的竞争日趋激烈,谁能提供更好的服 务,谁就能占领市场,甚至重新获得行业的垄断地位。因此,构建其经营分析系统,充分 利用其业务支撑系统中每天产生并存储的大量历史数据,实现对信息的深加工和处理已成 为当前电信企业系统建设关注的焦点。近几年来,国内外的许多电信企业已经完成从“以 产品为中心”到“以客户为中心”的经营理念的转变,利用数据挖掘进行分析以辅助决策, 推动自身的现代化经营和内部管理。在国外,数据挖掘在电信行业中已有较多的应用实例。美国西部电信公司(USWEST)是美国最大的长途电信运营公司之一,其拥有的客户数 量超过2000万。该公司为了进一步增强其目标市场战略,使用SAS的企业数据挖掘 Enterprise Miner软件进行经营分析。 US West利用销售活动管理软件,配合SAS的 Enterprise Miner,使营销专家能够对列入目标的销售活动进行规划、执行及评估,这样既 有利于消除销售人员对客户的全部数据进行评分,减轻了销售人员的负担,同时也减少了 手工操作所造成的人为错误,使得公司的市场营销周期大幅缩短。由于能够对市场进行更 加细致和高度目标化的划分,US WEST得到了更高的营销投资回报,增强了自身的盈利能 力。老牌电信运营商、财富500强企业之一的英国电信(British Telecom)通过数据挖掘的 手段建立模型,来确定潜在客户的购买倾向和他们变为用户之后可能带来的价值,从而实 现从市场营销预算中获得最大的价值。英国电信的“商业高速公路”的目标为小型商业客 户通过使用SPSS公司的著名数据挖掘软件产品Clementine,英国电信较为成功实现了其“商业高速公路”活动的数据分析和模型建立方面的探索。通过应用该系统,英国电信更 好地了解了客户及其在电信市场的行为特征,向销售人员和营销活动提供了“最佳客户” 清单,有针对性地进行营销活动,其直邮活动的回应率提高了 100%。比利时著名的电信运营商比利时电信(Belgacom)购买了新型Teradata Warehouse数据仓 库解决方案,使用数据仓库建立了客户信息系统,其数据仓库中拥有超过数据挖掘手段, 1万亿字节的历史数据,其中包含了详细的电话通信记录。通过比利时电信具有强烈欺诈 性的通话方式能够进行欺诈检测,从而迅速地发现异常电话以及,这样就能够在这些电信 欺诈方式给企业带来重大经济损失之前采取一系列措施加以终止。巾场苦常 AM.RlfcEMEnT , W邮褊:叶; tJQ?E7拈札舞田iQSJ唤 1C?E巾什E荒 N F 网gf或由也llo财erience i ord i&Wes iis ewDcncfKed tiy and resofr-cs r.,此迁1|项ba bil imjicnHKRfTlffi on! m 由 senices wrir >E即由自口5咐wmrEOflTS iKLUl 亡,由Str A nJ prlHrjra g ueapd 迸怕 Erm 也 wlhniecm业i m间碓盅地ri心旧 MFTLrJ"lRir tauppols<li U- ,<Ji1I曲5"持1牌郁martris an JI6 IFHfli.Gfcfl m衅W成F零少屈血is aoKimaicmaim 时:图1Y某市电信经营分系统的逻辑模型相对于国外的相对较为成熟的应用,电信数据挖掘在国内的研究与应用还处于刚刚起 步的阶段,但也不乏一些较为成功的实例。厦门电信采用CA数据仓库构建了电信大客户 关系管理(。)系统,对其管辖范围内大客户的消费习惯和消费偏好进行数据挖掘,为其 管理层做出营销方面的决策提供了较科学的依据。除此以外,近年来,中国电信运营业的 BOSS(Business &Operation support system),即业务运营支撑系统的市场规模占我国主要电 信运营商设备投资总额的份额越来越大,运营商的日常运营也越来越离不开BOSS系统作 为中国的两大主流运营商,中国电信和中国移动高举BOSS建设大旗,其目的是为了提高 计费结算、营业帐务、客户服务、决策支持等能力,希望通过固定报表、专题分析、多维 分析、数据挖掘等多种数据分析的手段帮助电信企业有效遏制存量流失、激发收入增量, 其经营方式也将实现从粗放式到精细化的转变,顺应了现代的经营管理理念。1.4数据质量评估研究概述1.4.1数据质量评估的背景和意义现代社会是一个充满数据的社会,数据资源是企业实现信息化的必要基础和宝贵资本, 然而随着企业数据库中存储的数据量的急剧膨胀、新应用的不断出现以及各类应用之间越 来越频繁的相互整合,数据质量问题日益显现并日渐突出这些数据质量问题主要表现为数 据不正确、数据不一致、数据不完整等方面,亟需一套方案对数据质量进行有效管理。质 量低劣的数据已经成为影响企业进行正确决策的重要因素,所以数据质量管理必将成为企 业进行信息化进程中一个不可或缺的重要环节。针对数据质量问题的各个环节,其中包括 数据清洗、数据整合、相似记录检测、数据质量评估、数据质量过程控制和管理等,业界 的学者已进行了大量的学术研究以及实际应用方面的探索。在数据质量管理的所有环节中, 数据质量评估是提高数据质量的基础和必要前提,它能对应用系统的整体或部分数据的质 量状况给出一个合理的描述和评价,从而可以帮助数据用户了解应用系统的数据质量水平, 及时发现数据质量问题,并采取相应的处理过程来修复数据质量问题,提高数据质量。数据质量评估(Data Quality Assessment)是数据质量管理(Data Quality Management 的重要组成部分,承担着发现数据问题的重任,是改善数据质量的驱动力和风向标。数据 质量是一个多维的概念,每一个维度代表一个审视数据质量的角度,例如可信度 (Believability)、完整度(Completeness)、精简度(Concise Representation)、及时度(Timeliness)、 可理解度(understandability)等,数据质量评估是以需求为导向的,同样的数据在不同的应用 背景下的接受度是不同的,例如对于数据挖掘,同样的数据在一个挖掘主题下表现良好, 而在另一个挖掘主题下却得不到有意义的结果。因此,需求分析实际上是维度选择的过程, 数据质量评估从一个或几个维度出发,以动态或静态的方式审视数据。所谓动态的评估方 式,是指从数据产生机制上对数据质量进行评估,而静态方式只考虑数据本身。虽然动态 的评估方式能够更彻底全面地对数据质量做出评价,但在很多的应用背景下,如数据挖掘, 往往受条件限制,无法得知数据产生机制的信息。数据质量的定义随着具体应用背景的不同而不同,因此,在进行具体的数据质量评估 时,要根据具体的数据质量评估需求对数据质量评估指标进行相应的取舍。但是,数据质 量评估至少应包含以下两个方面的基本评估指标,(1) 数据对用户来说必须是可以信赖的,其中包括精确性、完整性、 有效性、一致性、唯一性等指标,其具体含义列举如下A. 精确性(Accurate):数据是否客观真实,是否存在虚假。B. 完整性(ComPlete):数据是否存在缺失的记录或字段。C. 有效性(valid):数据是否满足用户定义的条件或处于一定的域值范围内。D. 一致性(Consistent):同一实体的同一属性值在不同的系统或数据集中的表达是否是 一致的。E. 唯一性(unique):数据中是否存在重复。(2) 数据对用户必须是可以使用的,其中包括稳定性、时间性等方面 的指标,其具体含义如下:A. 稳定性(Volatile):数据是否稳定,是否处于有效期内。B. 时间性(Timely ):数据是当前的还是历史的。为了实现有效的数据质量评估,下面给出了一个数据质量评估模型,该模型由六个要 素组成,是一个六元组,M=<D,I,R,W,E,S>其中D:待评估数据集对于关系数据库来讲,一个表或视图代表一个数据集。I:数据集D上需要进行评估的指标,或称数据质量维度。R:与评估指标集I相对应的规则,规则既可使用规范化的自然语言表达,也可使用形式化 的语言来书写,以便转换成程序脚本。泌赋予规则R的权值,为大于0的整数,描述了规 则R在所有规则中所占的比重。E:对规则R给出的期望值,为介于0至到 100之间的实数,是在评估之前对规则R所期望得 到的结果。S:规则R对应的最终结果,为介于0至100之间的实数,是在检测规则R后得到的结果。1.4.2数据质量评估的研究现状随着电信行业内部竞争的加剧,数据挖掘作为知识发现的有效工具已得到广泛应用。电信行业有着丰富的数据资源,但由于各个数据源的数据质量参差不齐,加之数据仓库的 ETL机制本身的某些问题,导致在数据集成时产生数据缺失和错误,对挖掘结果产生巨大 影响。因此,合理量化这种影响,对数据质量做出评估,这对分析数据挖掘的可行性具有 重要意义。对于数据质量评估,一些研究人员也开展了许多的研究工作。文献1从不同的角度提 出了数据质量的评估方法,文献2设计了一个数据质量分析和浏览的工具,文献3从用户 的角度描述了对数据质量评估的要求,文献4给出了一种基于属性的数据质量评估模型。 但总的来讲,已有的研究成果大部分集中在框架理论,较少涉及特定的行业背景和具体应 用,而面向特定数据挖掘主题的数据质量评估,尚未有专门的文献进行讨论。基于实际经 验,每个行业、每个应用都有自己的特点,对数据的评估方法也应有所差别,只能够相互 借鉴,但不能够完全照搬,应该“量身定制”。本论文所做的研究工作就是针对电信欠费挖 掘这一具体的应用背景,充分考虑该背景下数据集和数据挖掘本身的特点,搭建了相对完 整的数据质量评估体系,实现了面向电信欠费挖掘的数据质量评估,为挖掘的可行性分析 提供了指导。二、数据质量评估技术与方法本章首先叙述了面向数据挖掘的数据质量评估的意义以及数据质量评估的一般方法, 然后针对欠费挖掘主题,叙述了电信行业欠费的现状与危害,以及欠费挖掘的现实意义, 并对电信欠费挖掘中的非平衡问题、缺失问题、离群问题的研究成果作了简要回顾,介绍 了解决这些问题的常用算法,为后续提出面向电信欠费挖掘的数据质量评估策略作铺垫。2.1引言随着电信行业竞争的不断加剧,数据挖掘作为一种知识提取和决策支持的手段,已得 到了广泛的应用。然而,由于电信企业数据采集系统人为和非人为的扰动,造成各个数据 源的数据质量参差不齐,加之数据仓库的ETL机制本身的某些问题,导致在数据集成时发 生数据缺失和错误,造成数据的整体质量不高,从而对数据挖掘的结果产生影响。因此, 合理地量化这种影响,对数据质量做出评估,这对分析数据挖掘的可行性、减少无回报成 本具有重要的积极意义。2.2面向数据挖掘的数据质量评估2.2.1数据质量评估的意义数据质量是一个相对的概念。在不同的时期,数据质量有着不同的定义和评估标准。 20世纪80年代以来,国际上普遍认为,数据质量的标准基本上是围绕着以提高数据准确 性为出发点和原则的。然而,随着质量本身的含义不断进行延伸,数据质量的概念也由原 来的狭义转变为广义,其中,基于实际需要,融入了许多数据质量的考察和评判的标准, 准确性不再是衡量数据质量的惟一指标。上世纪90年代,美国的麻省理工学院开展了全面 数据质量管理TDQM(Total Data Quality Management)的活动,该活动借鉴了物理产品质 量管理体系的成功经验,提出了以信息生产系统生产的数据产品为基础的质量管理体系。 该活动提出,应充分、客观、全面地理解用户的信息需求,将数据看作具有生命周期的产 品,并对此进行管理,要设置数据产品管理员来管理数据生产的整个过程和结果。在数据 生产过程中形成的质量维度,如准确性Accuracy)、完整地Completeness)、一致性 (Consistence)等,已经成为数据质量评估的基本要求另外,用户对数据的满意程度也已成 为衡量数据质量的重要指标之一。目前,尚未形成系统化的数据质量评估指标,数据质量评估往往只零散地针对系统中 比较重要的质量指标,如一致性问题、复杂性问题、完整性问题等来进行。在数据质量评 估领域已经得到使用的产品,如CRG的完整度分析器 IA (Integrity Analyzer),可以实现 对数据完整性的严格检查,这里的完整性包括实体完整性、引用完整性、域完整性以及用 户自定义的完整性。数据质量的描述通常可以分为不同的层次,不过到目前为止,还没有 形成专门用于表示这种层次性的统一术语,例如,有的用类和域表示这种层次,而 ISO TC211则用数据质量元素及子元素来表达。不同的应用领域对数据质量的描述也是不同的, 因此,建立反映应用领域特点的数据质量框架是数据质量评估所要解决的首要问题。数据质量评估是面向应用的,同样的数据在不同的应用背景下的接受度是不同的,例 如对于数据挖掘,同样的数据在一个挖掘主题下表现良好,而在另一个挖掘主题下却得不 到有意义的结果。因此,需求分析实际上是维度选择的过程,数据质量评估从一个或几个 维度出发,以动态或静态的方式审视数据。所谓动态的评估方式,是指从数据产生机制上 对数据质量进行评估,而静态方式只考虑数据本身。虽然动态的评估方式能够更彻底全面 地对数据质量做出评价,但在很多的应用背景下,如数据挖掘,往往受条件限制,无法得 知数据产生机制的信息。面向数据挖掘的数据质量评估DM-QDA(Data Mining Oriented Data Quality Assessment)是具有实际意义的,因为数据挖掘常常是一个庞大的工程,需要投 入较多的时间、人力和物力,所以在数据挖掘工程真正开始之前,对数据挖掘的可行性分 析显得尤为重要,而为数据挖掘可行性提供指导正是数据质量评估的意义所在 2.2.2数据质量评估的一般方法虽然数据质量的评估方法会随着其应用背景的变化而变化,但抛开与应用背景相关的 内容,可以从中抽取数据质量评估的核心方法论,即数据质量评估的一般方法。如果使用定性分析的方法,采用数据质量的广义概念,可以归纳出缺陷数据的两个来 源,一个是来源于面向实践的原因,另一个是面向结构的原因其中,前者源自用户通过 系统获取或者操作了带有缺陷的数据,而后者的原因在于与用户的需求和设计满足需求的 物理数据实施时产生了数据不匹配。因此,基于以上所述的两个原因,现代数据质量的一 般概念主要包含两个方面的内容一方面,要注重从面向实践方面来衡量数据质量,即从数 据的用户的角度出发,来判定数据质量,强调用户的满意度,或者也可以站在数据的生产 者和管理者的位置来考虑数据质量问题另一方面,要注重从面向系统的角度来评价数据质 量,因为数据质量是一个综合性的概念,所以要建立一套行之有效的数据质量管理体系, 应该从数据质量的基本要素,如准确性、适用性、完整性、一致性、可比性、适时性等多 个不同的角度来评价数据质量的优劣。只有对信息系统的质量水平有了正确的认识并且了 解问题产生的原因,才可以实质性地提高数据生产质量,在数据流动的各个环节进行质量 控制。在这种意义上,从数据的用户或数据共享的角度对数据质量进行描述,除去如准确 性等本征质量指标外,数据的可得性、是否表达得清晰易懂、满足用户要求的程度、动态 的数据质量等也应成为衡量数据质量的重要方面。按近于用户接近于体系结柄图2-1数据质量维度的层次关系有效的数据质量工程依赖质量措施的确定,在面向实践和面向结构方面可以用四个维 度来概括数据质量评价的框架,这四个维度分别是数据值质量、数据表示质量、数据模型 质量和数据体系质量。注意,这里的数据质量维度是指考察数据质量的各个层次,而非前 文中提到的考察数据质量的指标,前者是层级关系,后者是并列关系,本小节之外提到的 数据质量维度均指的是后者。四个数据质量维度的层次关系如图2-1所示,数据质量评估 的一般方法就是从这四个数据质量维度展开对数据质量的全面评估。数据质量维度把信息系统中存储并加以维护的数据质量作为事实结合体,由具体实体 和一些属性构成。其中,数据表示质量这一维度一般是面向数据的消费用户的,指的是存 储数据值的表示质量对数据消费用户而言,存储于信息系统中准确的数据值的不正确表示 可能会导致数据的消费拥护这一端的产生数据质量问题。数据值质量指的是系统所存储数 据的实际的质量,这个数据质量维度是最为本质的,该维度上的数据质量问题必然波及其 它质量维度。数据模型质量维度关注的是数据模型是否合理,其逻辑上代表与数据实体、 关联属性及两者之间关系相关的用户需求,数据结构规范的质量数据模型对于用户和系统 开发人员之间的沟通至关重要。数据体系结构质量这一维度是最靠近系统的体系结构这一 端的质量维度,它解决的是数据的体系结构问题,并对跨功能系统的开发和操作中涉及的 数据管理活动进行协调该质量维度的主要特点是站在系统整体框架的高度,提供在组织范 围内的用户对数据的需求和满足这些需求的具体系统之间的有效联系,从而实现系统间的 数据共享。2.3电信数据挖掘中的数据质量问题2.3.1欠费挖掘中的非平衡问题电信企业拥有庞大的客户数量,客户群体的构成较为复杂。电话费和数据通信?是电 信企业最重要的收入来源,电信企业只有及时、足额地收取这些费用,才能保证自身的正 常运营。近几年来,随着电信行业内垄断格局的打破以及竞争的加剧,各大运营商也纷纷 开始降低开户的门槛,以吸纳更多的客户然而,门槛降低了,随之而来的却是客户诚信度 的降低,客户恶意拖欠话费的现象日益增多,恶意欠费的队伍日益庞大,每年都会给电信 运营商造成巨大的损失。恶意欠费现象已经成为电信企业发展的主要困扰,究其缘由,主要有以下几方面的原 因:第一,低廉的开户费是孕育恶意欠费的温床,尤其是2001年7月1日国家财政部、计 委、信息产业部发文取消固定电话的初装费,以及手机入网的零手续费之后,电信开户几 乎没有手续费第二,房屋、门市、铺面的出租给伺机恶意欠费者提供了方便,因为这些出 租户同时也会连同电话一起出租给住户,而住户则会在搬迁之前的两三个月大量消费电话 费,当电信部门上门催缴时,却发现已经人去楼空第三,我国在加入WTO以后,电信业 也要与国际接轨,电信服务质量也一直成为各大媒体关注的热点和焦点,于是,电信企业 在欠费问题的解决上慎之又慎,这也在一定程度上纵容了恶意欠费行为第四,新电信条例 给蓄意欠费者提供可乘之机,2000年新颁布的中华人民共和国规定,用户欠费在达到 三个月后方可停机,一些欠费者抓住机会,在三个月内拼命消费,然后一走了之,留下巨 额无法收回的欠款,电信条例实质上便成为这些恶意欠费者的“挡箭牌”。就欠费的治理来讲,方法有很多,其中,如何根据电信客户的历史行为表现准确地预 测其将来的欠费行为是比较科学和有效地,因此这也是电信企业降低恶意欠费率的关键任 务。电信企业拥有大量宝贵的数据资源,其中包含了客户的基本资料、行为信息、价值信 息等数据,因此,利用数据挖掘中的分类技术,可以对客户的欠费行为做出预测。然而, 欠费挖掘不同于一般的分类问题,因为欠费的客户相对于全体客户,毕竟只占很小的比例, 所以欠费挖掘属于非平衡分类问题。非平衡分类问题在实际问题中占有一定的比例,因此 在这个领域已经有一些研究成果,虽然这些研究成果不足以完全解决这个问题。所谓不平衡分类问题,是指训练样本数量在类分布不平衡的模式分类问题。具体地说 就是某些的样本数量远远少于其它类。这里将具有少量样本的那些类称为正类,将具有大 量样本的那些类称为负类物以稀为贵,正类的信息、通常是人们关注的焦点,因为它往 往包含了人们感兴趣的行为信息。在许多实际的模式分类问题中,同样存在样本数量稀少 的类,它们虽然很重要,但是用传统的分类方法,却难以被正确分类。当使用传统的机器 学习算法来解决这些不平衡分类问题时,往往会出现正类的预测准确率大大低于负类,得 到的分类器具有很大的偏向性,从而导致分类器性能的大幅度下降。因此,虽然总体的分 类准确率很高,很多本来属于正类的样本被错分到负类,加之正类样本数本来就稀少,造 成大部分的正类都被预测错误,使得实际问题难以得到解决。在实际应用中,非平衡问题很常见。非平衡问题有本质非平衡和非本质非平衡之分。 对于本质非平衡问题,其原始数据本身的分布就存在不平衡,例如对信用卡非法交易的检 测,这些问题都以稀有类的信息、为关注的重点,如在信用卡非法交易记录的监测问题中, 非法交易记录是监测的目标,但训练数据中包含大量正常的信用卡交易记录,只有很少的 一部分属于非法交易,使用普通的模式分类方法,非法交易记录的检测率很低。非本质非 平衡问题源自数据收集过程中因为人为因素而造成的数据不平衡现象,例如由于个人隐私 或者高昂的数据采集代价等因素,某些类的样本数量过少。除此之外,还有一些非平衡问 题来自多类(Multi-Class)问题和多标号(Multi-Label)问题的分解,这种分解事为了解决有些 分类器,如支持向量机(Support vector Machine),无法直接解决多分类问题,必须将原始问 题分解成一系列二分类问题才能够间接地解决,这样很容易导致原来平衡分类问题变得不 平衡,原来非平衡分类问题变得更加不平衡,严重影响分类器的实际性能。对于非平衡问题,已有学者提出一些解决的策略,这些策略大致可以分为两大类一类 是从训练集入手,通过改变训练集样本分布,降低不平衡程度另一类是从学习的算法入手, 根据算法在解决不平衡问题时的缺陷,适当地对算法加以改进,使之适应不平衡分类问题。 降低训练集非平衡程度的方法主要包括训练集重采样方法和训练集划分方法学习算法改进 层面的策略主要包括分类器集成、代价敏感学习和特征选择的方法等。下面对这些方法做 一简要介绍。重采样方法重采样方法是解决非平衡分类最常用的方法。重采样的基本思想是指通过增加正类训 练样本数的上采(Up-Sampling)和减少负类样本数的下采样(Down-sampling),使原来不平 衡的样本分布变得平衡或较原来平衡,从而提高分类器对稀有类的预测准确率。最原始的 上采样方法是复制正类的样本,但这样做一方面容易导致过学习,另一方面对提高正类的 预测准确率没有太大的帮助。较为先进一些的上采样方法则采用一些启发式的技巧,有选 择地复制正类样本,或者重新生成新的正类样本例如,Chawl等人提出的SMOTE算法就 是一种简单有效的上采样方法,该方法首先为每个正类样本随机选出几个与其邻近的样本, 并且在该样本与这些邻近样本的连线上随机取点,从而生成没有重复的新的正类合成样本。 下采样通过舍弃部分负类样本的方法来降低它的不平衡程度。例如,Kubat和Matwin采用 单边采样方式,去除大类中的噪声、边界和冗余样本。尽管重采样的方法在一些数据集上的应用效果不错,但也存在一些本质缺陷。上采样 的方法并不增加任何新的数据样本,只是重复一些已有的数据样本或增加一些人工生成的 正类样本,这样做一方面增加了训练时间,另一方面,上采样对某些正类样本的复制,或 在它周围合成新的正类样本,这会造成分类器过分注重这些正类样本,导致过学习。上采 样不能从本质上解决正类样本的稀缺性和数据表示的不完备性,因而有人指出,它的性能 表现较下采样要差但是同时也有学者指出,下采样在去除负类样本时,容易去除负类样本 中包含的某些重要的信息,同样存在很大的弊端,尽管存在“些启发式的下采样方法,能 够做到只去除冗余样本和噪声样本,但在大多数情况下,这类样本只占样本总量的一小部 分,因此,这种方法能够调整的不平衡程度是十分有限的。(2) 训练集划分方法对训练数据集进行划分,是另一类可以有效降低训