数据挖掘应用案例.ppt
第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘4.2 案例二:通信用户满意度指数评测4.3 案例三:城市环境质量评价,第四章 数据挖掘应用案例,数据挖掘是从海量数据中发现有趣知识的而过程,这些知识是隐含的、事先未知的潜在有用信息,挖掘的知识表示形式为概念、规则、规律和模式等,是建立在数据仓库基础上的高层应用。结合领域知识和数据分析技术,数据挖掘为许多特定领域提供解决方案,包括金融、零售和通信、科学与工程、入侵检测和防护等。同时也会影响人们购物、工作、搜索信息、使用计算机、保护隐私和数据安全,以及休闲、健康和幸福等日常生活。随着数据挖掘技术的广泛应用,由此所带来的影响也将继续。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘,1、Walmart简介 Walmart百货有限公司由美国零售业的传奇人物山姆.沃尔顿先生于1962年在阿肯色州成立。经过50多年的发展,Walmart公司已经成为美国最大的私人雇主和世界上最大的连锁零售企业。目前,Walmart在全球15个国家开设了超过8000家商场,下设53个品牌,员工总数210多万人,每周光临Walmart的顾客为2亿人次。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),1991年,Walmart年销售额突破400亿美元,成为全球大型零售企业之一。据1994年5月美国财富杂志公布的全美服务行业分类排行榜,1993年Walmart销售额高达673.4亿美元,比上一年增长118亿美元,超过了1992年排名第一位的西尔斯(Sears),雄踞全美零售业榜首。1995年,Walmart销售额持续增长,并创造了零售业的一项世界纪录,实现年销售额936亿美元,在财富杂志,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),美国最大企业排行榜上名列第四。事实上,Walmart的年销售额相当于全美所有百货公司的总合,而且至今仍保持着强劲的发展势头。至今,Walmart已拥有2133家Walmart商店、469家山姆会员商店和248家Walmart购物广场,分布在美国、中国、墨西哥、加拿大、英国、波多黎各、巴西、阿根廷、南非、哥斯达黎加、危地马拉、洪都拉斯、沙尔瓦多、尼加拉瓜14个国家。它在短短几十年中又如此迅猛的发展,不得不说是零售业的一个奇迹。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),2、Walmart货篮数据挖掘内容 Walmart关注客户的货篮。因为Walmart认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于货篮。一个小小的货篮体现了客户的真实消费需求和购物行为,每一只货篮里都蕴藏着太多的额客户信息。零售业的宗旨是服务客户,Walmart认为商店的管理核心应该是以货篮为中心的顾客经营模式,商店排名只能体现商店自身的表现,而货篮可以体现客户的购买行为及消费需求,关注货篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),为了能够准确了解顾客在其门店的购买习惯,Walmart对其顾客的购物行为进行货篮分析,想知道顾客经常一起购买的商品有哪些。商品相关性分析是货篮分析中最重要的部分,Walmart数据仓库里集中了其各门店的具体原始交易数据。在这些原始交易数据的基础上,Walmart利用NCR数据挖掘工具对这些数据进行了分析和挖掘。Walmart发现了一个令人难以理解的现象:在某些特定情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个货篮中,这种独特的销售现象引起了管理人员的注意。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),这是数据挖掘技术对历史数据进行分析的结果,反映数据内在的规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?于是Walmart派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去购买尿布。父亲在购买尿布的同时,30%40%的人往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在一个货篮的现象。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到尿布与啤酒为止。Walmart发现了这一独特的现象,开始在卖场尝试将尿布与啤酒摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而Walmart也可以让这些客户一次购买两件商品,而不是一件,从而获得了很好的商品销售收入。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),当然“尿布与啤酒”的故事必须具有技术方面的支持。1993年,美国学者Agrawal提出通过分析货篮中的商品集合,来找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买性为。Agrawal从数学及计算机算法角度提出了商品关联关系的计算方法Aprior算法。Walmart从20世纪90年代尝试将Aprior算法引入POS机数据分析中,并获得了成功,于是产生了“尿布与啤酒”的故事。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量数据进行挖掘分析,Walmart是不可能发现数据内在的这一有价值的规律的。3、Walmart货篮数据挖掘的关联分析过程 研究商品关联关系的方法就是货篮分析,Walmart强调找出商品之间的关联关系,比如啤酒与尿布。换句话说,Walmart重点是分析货篮内商品之间的关联关系。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),以Walmart为代表的美式货篮分析的目标一般是面积巨大(通常都是上万平方米)商品种类繁多(大多在10万种以上)的卖场,所以要通过货篮分析找出淹没在不同区域商品之间的关联关系,并将这些关联关系用于商品关联陈列、促销等具体工作中,是很难通过人工完成的。比如,啤酒在酒类区域,尿布在婴儿用品区域,两个商品陈列区域相差几十米,甚至可能是“楼上、楼下”的陈列关系,用肉眼很难发现尿布与啤酒存在关联关系的规律。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),把找出货篮中商品之间关系的方法称为“美式货篮”分析法,这种方法适合应用于类似Walmart这样的大卖场,用于找出不同陈列区域商品之间的关系。4、关联规则挖掘过程 如何从大型数据库中挖掘关联规则呢?关联规则的挖掘有以下两步:1)根据最小支持度找出事务数据库D中所有的频繁项目集。2)有频繁项目集合最小支持度产生强关联规则,也可以使用附加的兴趣度来对规则进行度量。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),以支持度、信任度、兴趣度三项指标表现的商品关联规则。一个正规的货篮分析报表应该采取三个指标数字,才可以准确地衡量商品是否真的存在关联关系:采取“支持度(Support)-信任度(Confidence)”作为主要商品相关性分析指标,为了强化说明关联关系,往往会运用兴趣度(Lift)指标。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),(1)支持度 在货篮分析中,支持度指的是多个商品同时出现在同一个货篮中的概率。比如,尿布与啤酒同时出现在货篮中的概率是20%,称尿布与啤酒的支持度是20%,按照国际命名规则表示为:啤酒Implies尿布=20%,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),“尿布与啤酒”不等于“啤酒与尿布”相关性的单向性,是代表商品之间的相关性具有单向性。“尿布与啤酒”代表了一种因果关系。在“尿布与啤酒”的故事中,年轻的父亲去的目的是购买尿布,在买尿布的前提下,才会考虑购买啤酒,因此在购买尿布的父亲中有35%购买了啤酒,不代表购买了啤酒的父亲有35%购买了尿布,因为这是两类不同的消费行为,商品之间的因果关系也会不同,因此这个故事不能反过来讲。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),要看商品之间是否具有相关性,在计算商品之间的支持度时,需要反过来计算进行验证,看看两个商品之间的相关性具有多少的信任度,从而寻找商品之间的因果关系。由于商品之间关联关系具有单向性,在零售业也会采取这种表示商品关联关系的方式:尿布=啤酒,即尿布与啤酒之间具有关联关系,方向是从尿布到啤酒。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),(2)信任度 信任度是对支持度进行衡量的指标,用于衡量支持度的可信度及数据强度。由于这项指标是将商品同时出现在货篮中概率进行反复运算,因此这是衡量商品相关性的主要指标。(3)兴趣度 兴趣度又称为提升度,是对支持度、信任度全面衡量的指标,很多时候在衡量商品关联关系时只采用,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),这一个指标,可见这个指标的重要性。当兴趣度指标大于1.0时,则表明商品之间可能具有真正的关联关系。兴趣度数据越大,则商品之间的关联意义越大。如果兴趣度小于1.0,则表明商品之间不可能具有真正的关联关系。在某些情况下,兴趣度会出现负值,此时商品之间很可能具有相互排斥的关系,体现在货篮中,就是这些商品从来不会出现在同一个货篮中。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),假如有表4.1的购买记录。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),将表4.1整理后得到购买记录转换后的二维表4.2。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),表4.2中行和列数字表示同时购买这两种商品的额交易条数。如购买有纸尿片的交易条数为4,而同时购买纸尿片和啤酒的交易数位2.信任度表示了这条规则在多大程度上可信。计算“如果纸尿片则啤酒”的信任度。由于在含有纸尿片的4条交易中,仅有2条交易含有啤酒,所以其置信度为0.5。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),支持度计算在所有交易集中,既有纸尿片又有啤酒的概率。在5条记录中,既有纸尿片又有啤酒的二级路有2条,则此条规则的支持度=2/5=0.4。现在这个规则可表述为:如果一个顾客购买了纸尿片,则有50%的可能购买啤酒。而这样的情况(及购买了纸尿片有购买了啤酒)会有40%的可能发生。再来考虑下述情况:,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),项 支持度纸尿片 0.45 啤酒 0.42卫生纸 0.4纸尿片and啤酒 0.25纸尿片and卫生纸 0.2啤酒and卫生纸 0.15纸尿片,啤酒and卫生纸 0.05,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),以上情况可得到下述规则:,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),上述三条规则,对于规则“if 啤酒 and 卫生纸 then 纸尿片”,同时购买啤酒和卫生纸的人中,有33.33%会购买纸尿片。而单项纸尿片的支持度为0.45,也就是说在所有交易中,会有45%的人购买纸尿片。得到这个规则的意义不大,如果应用商品促销上作用不是很明显。为此引入另外一个量,即兴趣度,以度量此规则是否可用。描述的是相对于不可用的规则,可用规则可以提高多少。可用规则的提升度大于1.计算方式为:,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),Lift(A=B)=Confidence(A=B)/Support(B)=Support(A=B)/(Support(A)*Support(B)在上例中,Lift(if 啤酒 and 卫生纸 then 纸尿片)=0.05/(0.15*0.45)=0.74,而Lift(if 纸尿片 then 啤酒)=0.25/(0.45*0.42)=1.32。也就是说,在纸尿片的产品促销中如果绑定销售啤酒,顾客购买概率是单独购买啤酒的1.32倍。或者说,对买了纸尿片的人进行推销啤酒,购买概率是随机推销啤酒的1.32倍。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),接下来就要产生关联规则。首先,找出频繁集。所谓频繁集指满足最小支持度或信任度的集合。其次,从频繁集中找出强关联规则。强关联规则指既满足最小支持度又满足最小信任度的规则。,第四章 数据挖掘应用案例,4.1 案例一:零售商系统货篮数据挖掘(续),5、Walmart货篮数据挖掘的应用效果 Walmart公司的所有分公司的销售数据、库存数据每天通过卫星线路传到总部的而数据仓库里,通过数据仓库对商品品种和库存进行分析,Walmart公司可以研究顾客购买趋势、分析季节性购买模式、及时补充商品、确定促销商品,等等。Walmert的缔造者Sam Walton在他的自传Made in America:My Story中,对于数据仓库评价极高,可以说,数据仓库改变了Walmart。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测,1、通信用户满意度指数评测数据挖掘的背景简介 通信行业正面临与日俱增的市场压力、更精明的竞争对手和更苛刻的消费者。中国通信行业正从快速增长阶段迈入平稳增长阶段,服务质量已经成为企业的核心竞争力。因而通信运营商市场营销工作的重点不仅仅是吸引新用户,突出价格策略的重要性,而是要将如何维护老用户作为市场营销工作新的重点,从而使服务策略的重要性逐渐突现。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),目前,市场上的价格竞争将逐渐过渡到服务竞争。各大通信运营商已经形成了较为激烈的竞争格局,随着国内运营商及国外运营商进入移动通信市场,这种竞争愈演愈烈。通信运营商能否在如此严峻的经营环境下顺利发展,关键因素在于能否站在消费者的角度考虑产品和服务,消费者是否满意其提供的产品或服务。“客户满意”越来越成为众多通信运营商已经意识和正在努力提高的经营指标,成为运营商工作的重点。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),2、通信用户满意度指数评测数据挖掘的目标 通信用户满意度是衡量通信服务水平的重要指标,也是目前世界上许多国家和地区测评通信服务质量的通用做法。通信运营商期望通过用户满意度研究了解不同品牌客户和集团客户对该公司的整体服务工作的满意度评价,以及不同品牌客户对本公司各商业流程环节上的服务感受及满意度水平,并了解不同品牌客户对本公司的忠诚度。同时判断当前业务、服务工作,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),中存在的主要问题。重点围绕各个商业过程,有针对性地发现问题,从而改善服务。通过满意度指数,比较各地市分公司的服务工作差异,以便为省公司的考核提供依据。进行与竞争对手CSI(Customer Satisfaction Index,顾客满意指数)测评的比较分析,确定通信运营商在客户服务工作中有待改善的地方,并以绩优区域为标杆,不断提高和推动该通信运营商的用户满意度。预测今后的业务、服务竞争趋势,制定应对竞争的一系列策略和方案。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),3、通信用户满意度指数测评数据挖掘的构建模型 各方面满意度的而研究,例如,不同品牌客户和集团客户对整体服务工作的满意度、不同品牌客户对各商业流程环节上的满意度等,都是基于图4.1所示的满意度框架模型,只是在不同的满意度分析时具体的观测指标有些变动,例如,不同品牌相应的商业过程的指标。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),图4.1 通信运营商满意度模型框架示例,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),4、通信用户满意度指数评测数据挖掘的而结果分析 某第三方机构对通信用户进行了用户满意指数抽样测评。本次测评的对象涵盖全国各地4亿多各类通信用户,采用概率抽样方式在用户中选取被访样本,并对被选中的用户进行问卷调查。在全国范围内共计访问了7万多个通信用户,通过电话调查最终完成有效样本5076个,获得10多万条用户评价信息,处理数据几百万个。样本采集按照3阶段PPS概率抽样,每项业务抽取720个样本,保证了样本数量的广泛性和代表性。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),表4.3列举了参加测评的7个对象客户总体满意度指数。,表4.3 7个评测对象的客户总体满意度指数,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),由上表数据可知,在参与评测的7个对象中,通信业务1、通信业务2、通信业务3、通信业务4、通信业务5的客户总体满意度处于高水平,并比较接近,各运营商的服务水平比较稳定。其中,通信业务3和通信业务4的客户总体满意度指数明显高于通信业务6和通信业务7,高出近12个百分点。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),与美国、欧洲等过的通信服务满意度指数测评数据相比,我国固定、移动电话用户满意度指数的数据具有可比性。固定电话和移动电话的用户满意度指数与欧美相比处于较高水平。调查显示,用户对固定电话业务的资费透明度和计费准确性较为关注,对移动电话的通话质量和价格水平有改进要求,对ISP业务的质量改进要求集中于两点:一是提高接通率,二是提高网速。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),我国通信业务多年持续高速增长,新的网络和新的业务层出不穷,电话用户数量逐年猛增。在这样一个快速增长期,通信服务质量始终是大众关注的热点,也是政府主管部门监管的重点。虽然目前整体服务质量已有明显提高,用户满意度逐年上升,通信主管部门和各通信运营商的努力取得了一定成效,如在用户数激增的情况下,2002年中消协全国受理的通信方面用户投诉量反而比2001年下降了1/3,但客观地讲,通信服务质量还是不足,用户抱怨还会存在,通信消费过程中的焦点、热点问题还会不断出现。通信行业将会利用各种方式切实改进服务,竭力为公众提供更加满意的通信业务。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),5、通信用户满意度指数评测改进策略 围绕网络服务、服务厅服务、热线服务、缴费充值服务、梦网服务、优惠活动、网站服务满意度这些主要商业过程提出了满意度的具体改进策略,如对于网络服务的满意度和具体改进策略,下面以通信业务1和通信业务2两项业务为例加以说明。通信业务1客户满意度:,客户满意度较高的是网络质量与缴费方便程度;客户对梦网服务的满意度比较低;除梦网外,客户对热线方面满意度也比较低。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),通信业务2客户满意度:,客户满意度较高的是整体网络质量与缴费方便程度;客户对梦网服务的满意度比较低;客户对特色服务的满意度为中等。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),根据研究提出了有建设性和可执行的满意度改进和提升客户忠诚度的改进计划。通信业务1和通信业务2的战略改进方向就是继续保持总体优势,改进弱项指标。1)网络方面客户满意度较高,其中最高的是通信业务3,通信业务7相对偏低。2)网络服务总体满意度具有明显优势,在通话质量方面明显高于通信业务6和通信业务7。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),3)总体上,绝大部分场合的网络信号都处于中高水平,但山区信号的满意度较低;对于不同场合拨打电话无法接通率,总体上室内的无法接通率最高,其中通信业务2的室内无法接通率较高,超过50%;通信业务3、通信业务4和通信业务5的无法接通率相对较低,通信业务6的无法接通率大于通信业务7.,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),4)对于网内/网间通话无法接通率方面,自身品牌客户拨打通信业务6和通信业务7品牌的客户手机时无法接通率较高,通信业务2尤其高;而通信业务6和通信业务7客户拨打市话或该运营商时无法接通率较高。5)对于掉话率,通信业务1和通信业务2的掉话率高于通信业务3、通信业务4(相对更高)和通信业务5,室内的掉话率高于室外,室内掉话率较高的有通信业务2(51%),通信业务6和通信业务7的掉话率也达40%以上。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),6)对于短信故障率方面,短信发送不成功发生率较高,通信业务5与通信业务1最为明显;其次是短信发送成功但对方长时间才收到,通信业务5在短信故障率方面发生率最高;各品牌客户对网络质量不满意的地方主要是信号差,其次是网络覆盖不广。7)通信业务2不满意的地方还表现在通话不稳定/易断线,通信业务1则是难接通/接通率低,通信业务5则是信息接收不好、慢;通信业务6和通信业务7在各方面的不满意的比例更高。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),6、通信用户满意度指数评测数据挖掘的忠诚度分析(1)忠诚度水平与性质 1)品牌忠诚度。各项业务忠诚度都较高,各业务中忠诚度最高的是通信业务2的客户,最低的是通信业务5的客户。总体来说,通信业务1、通信业务2、通信业务3、通信业务4和通信业务5客户的忠诚度高于通信业务6和通信月7。2)忠诚度细分。根据忠诚度和满意度的不同,将客户共分为四大类型:安全羊(高满意度高忠诚度)、劝服者(高满意度低忠诚度)、异动者(低满意度高忠诚度)、流动者(低满意度低忠诚度)。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),(2)结论分析 通信业务1、通信业务2、通信业务3、通信业务4和通信业务5的安全羊比例明显高于通信业务6和通信业务7,通信业务5客户的流动者与异动者比较高。以连续两年的数据对比,通信业务3、通信业务4和通信业务5的客户的异动者(无奈的忠诚)比例有明显增加,一旦市场出现新的运营商或网络品牌,这部分不稳定客户将释放较大的离网风险。将不同忠诚度的4种客户进行分析发现:,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),1)各品牌安全羊的满意度都达85分以上,满意度较高的是通信业务3和通信业务4;2)各品牌劝服者的满意度都达84分以上;3)各品牌异动者与流动者的满意度都低于60分;大客户的流动者满意度更低。不同忠诚度类型客户的满意度如表4.4所示。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),表4.4 不同忠诚度类型客户的满意度指数,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),7、通信用户满意度指数评测数据挖掘的离网风险 通信业务1、通信业务2客户的主要流动方向是通信业务6和通信业务7;通信业务3、通信业务4和通信业务5客户的主要流动方向为内部相互流动;通信业务6和通信业务7客户的主要流动方向是通信业务1和通信业务4。通信业务2转向通信业务6和通信业务7的比例较高;通信业务1转向通信业务6与通信业务4的比例较高;通信业务5转向通信业务4的比例较高;通信业务4主要转向通信业务1、通信业务2、通信业务3和通信业务5;通信业务3转向通信业务4的比例较高。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),8、通信用户满意度指数评测数据挖掘的提升策略 基于以上的忠诚度分析结果,研究中对各个品牌分别针对不同的忠诚度类型的客户提出了具体的服务改进策略,以提高忠诚度。下面以通信业务1为例说明。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),满意度是人们心目中对通信服务性价比的一个度量和判定,受到人们思想认识水平、教育程度、人生阅历,以及道德观、人生观和价值观等多种因素的影响。满意与否是一个动态、相对的概念,没有绝对的满意和不满意,也没有永远的满意和不满意。客观地看,目前的通信服务水平与服务能力已经有了显著提高,相比过去用户也获得了更多价值、享受了更好的服务,但用户的感知还受到其他因素的影响,满意度的波动与用户抱怨仍存在,这恰恰说明服务的供需关系处于较为平衡的状态,市场还可以继续稳定发展。,第四章 数据挖掘应用案例,4.2 案例二:通信用户满意指数评测(续),对于行业监管者,服务质量可以通过满意度来测量,但绝不仅仅依靠一个指标来对市场做出判断。一个成熟的市场和拥有超过13亿用户的行业,用户满意度必定会在一个合理区间内平衡波动。监管者可以通过满意度这个窗口,向公众展示行业发展成果,树立良好的社会形象;科学分析满意度波动趋势,充分分析用户抱怨信息来弥补市场不足,帮助企业查找服务问题;同时合理运用满意度指标来调动企业能动性、调节市场秩序,这才是满意度调查分析应当发挥的真正作用,也是管理者智慧的最终体现。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价,1、城市环境质量评价数据挖掘的背景介绍 环境质量是指环境的总体或环境某些要素对人群的生存和繁衍以及社会经济发展的适宜程度,是反映人类的具体要求而形成的对环境评定的一种概念,包括环境综合质量和各种环境要素质量。环境质量评价是我国实施的重要的环境管理手段之一。环境质量评价是根据环境(包括污染源)调查与监测资料,应用各种评价方法对一个地区的环境质量做出评定与估价,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),然后按照一定的目的在对一个区域的各种要素评价的基础上,对环境质量进行总体的定性与定量的评定。环境质量评价是理论与实践相结合的实用性强的学科,是人们认识环境的本质和进一步保护与改善环境质量的手段与工具。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),环境质量评价的根本目的就是为各级政府和相关部门制定经济发展计划,制定能源政策,确定大型工程项目及为区域规划提供环境保护的依据,并为各级环境部门制定环境规则,贯彻以管促治方针,实现全面、科学的环境管理服务。因此,环境质量评价是帮助协调经济发展和保护环境的一项有效措施,也是强化环境管理的而有效手段,它为环境管理、关键工程、环境标志制定、环境规划、环境污染综合防治、生态环境建设等提供科学依据。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),城市环境质量评价数据挖掘的建设目标:1)选择合适的城市环境质量评价指标;2)选择合适的模型算法对城市环境质量进行评价。2、城市环境质量评价数据挖掘的分析方法 城市环境质量评价包括对城市环境质量进行单要素和总体的综合评价。评价的环境单要素可以包括若干个关键污染因子。对单要素环境质量评价常采用多因子综合评价指数进行不同等级的污染状况评价,即对某区域的环境质量如水质、大气质量等的综合评价一般涉及较多的评价因素,且各因素与区域环境整体质量关系复杂,因而采用单项污染指数评价法无法客观准确地反映各污染因子之间相互作用对环境质量的影响。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),基于上述因素,要客观评价一个区域的而环境质量状况,需要考虑各种因素之间以及影响因素与环境质量之间错综复杂的关系,采用传统方法存在一定的局限性和不合理性。因此,从学术研究的角度对环境评价的技术方法及其理论进行探讨,寻求更能全面、客观、准确反应环境质量的新的理论方法具有重要的现实意义。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),3、城市环境质量评价数据挖掘的分析内容 我国环境质量评价工作发展至今,在评价指标体系及评价理论探索等方面均有较大进展。城市环境综合评价无固定的模式与程序,因评价区域的特点及所关心的主要问题不同而有所差异。下面利用数据挖掘方法对城市空气质量进行评价。根据空气中SO2、NO、NO2、NOx、PM10和PM2.5值的含量,建立C4.5决策树分类预测模型,实现对空气质量的评价。其实质是:运用C4.5算法进行数据挖掘,获得分类规律,即空气污染与空气等级之间的关系;推导出分类规则,即空气质量智能评价模型。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),分4个步骤实现流程:数据预处理、生成决策树、分类规则生成及化简、模型准确性评价。如图4.2所示。,数据预处理,生成决策树,分类规则生成及化简,模型准确性评价,图4.2 城市环境质量评价建模流程图,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),对于采集到的空气污染物的数据(SO2、NO、NO2、NOx、PM10和PM2.5值的含量),首先根据我国城市空气质量分级标准,分为优()、良()、轻微污染()、轻度污染()、中度污染()、中度重污染()、重污染()七个等级。这样,经过预处理的数据包括1个类别项(空气等级)和6个影响分类的属性项(空气污染物)。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),4、城市环境质量评价数据挖掘的模型构建 城市环境质量评价的数据挖掘采用C4.5决策树构建模型。模型的输入包括两部分,一部分是建模专家样本数据(包括训练样本和验证样本)的输入,另一部分是建模参数的输入。部分原始样本数据经过预处理后如表4.6所示。随机抽取与处理数据(共320个数据)中2/3的数据,即240个数据样本,作为训练集构造决策树并生成决策规则。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),表4.6 城市空气质量建模样本数据,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),5、城市环境质量评价数据挖掘的结果评价 上例中基于C4.5决策树,采用10-折交叉验证(10-fold cross validation),对经预处理后的总体样本(240条)进行综合评价。10-折交叉验证结果如表4.7所示。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),交叉验证混淆矩阵结果见表4.8。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),表4.8中,以第三行为例,有107个样本正确分类(属于“”),有3个样本本应该属于“”,却错误分到了“”。总体老说,10-折交叉验证的正确分类百分比为95.4167%,可见经抽选的专家样本数据能满足建模要求。随机抽取240条样本进行模型训练,再对训练好的网络模型,通过模型验证(预测值与实际值比对)来评价其有效性,以确保所产生的预测模型满足实际应,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),用要求。将预处理好的数据划分为两个独立的集合:240条样本数据随机分配到训练集,其余80条数据随机分配到测试集。测试分类结果正确率如表4.9所示。该模型总的预测分类正确率达到97.5%,混淆矩阵结果如表4.10所示。这一评价结果说明,通过C4.5算法进行数据挖掘所得到的分类规则集合对未来数据样本的分类正确率能够达到较高的要求。,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),表4.9 模型验证结果,表4.10 混淆矩阵结果,第四章 数据挖掘应用案例,4.3 案例三:城市环境质量评价(续),由于城市环境质量与各种空气污染物之间的而错综复杂的关系,需要按照一定的标准和方法对某区域空气质量的优劣进行定量的和定性的描述。通过建模和实验表明,在随机抽取了320 个空气污染物能读数据的情况下进行评估,基于C4.5决策树算法的空气质量评价方法可以达到很好的分类预测效果。,