毕业设计(论文)数据挖掘在电信行业精确营销策略研究.doc
-
资源ID:3982772
资源大小:253KB
全文页数:30页
- 资源格式: DOC
下载积分:8金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
毕业设计(论文)数据挖掘在电信行业精确营销策略研究.doc
数据挖掘在电信行业精确营销策略研究 一、绪论 (一)研究目的 本文目的在于对精确营销的理论研究,结合当前中国电信发展状况,利用数据挖掘技术对国家统计局历年来统计的电信业务销量进行数据分析,从地域性差异来分析电信业务中的精确营销,从而给企业的预测,资源配置提供科学依据。 (二)研究背景及意义1、 电信产业总体发展现状和行业地位(1) 产业规模和发展状况 在改革开放的进程中,中国抓住世界通信技术由模拟向数字转变的历史机遇,发挥各级地方政府发展通信的积极性,通过大规模的资金投入,实现了电信业的超常规发展,创造了令世人瞩目的业绩。自1985年起,中国邮电通信的发展速度开始超过国民经济的发展速度。从第七个“五年计划”开始,中国电信业连续以高于同期GDP几倍的增幅发展,从2000年开始,中国每年的电话用户新增数都在1亿左右,电信业务总量保持了30%左右的增长幅度。截至2004年底,均已实现电话交换程控化、传输数字化的中国电信业,局用交换机容量达到42102万门,移动交换机容量达到39747万户。电信业务收入在全国GDP中所占的比重,已从1986年的0.3%提高到了3.8%. 2005年以来,全国电话市场持续保持良好的发展态势,每月新增用户都在1000万户以上。到2005年9月底,全国固定电话普及率已达到每百人26部,移动电话普及率首次超过世界平均水平,达到每百人28部。作为国民经济发展的基础行业,综合用户规模已跃居全球首位的中国电信业,实现了从弱小到强大、从落后到先进、从曾是制约经济发展的“瓶颈”到成为国民经济先导产业的质的飞跃,对经济、社会的发展起到了巨大的拉动作用。 (2)行业地位 据国家统计局的统计,2005年中国电子信息行业的销售收入达38411亿元人民币,居产业销售收入排名的第1位。可见电信行业作为中国国民经济发展的基础行业,已经成为了拉动中国经济快速稳健发展的重要力量。据预测,中国电信业在未来几年内,仍将继续高速发展,进一步的普及,并成为人们生活不可缺少的部份,如下表1。 中国电信行业发展数据预测表2005年2006年2007年2008年2009年固定电话用户数(万)361614408624453573489859514352固定电话普及率(每百人)27.731.134.336.838.5手机用户数(万)383371433209480862519331545298手机普及率(每百人)29.332.936.33940.8互联网用户(万)119250137138153594168953182470互联网用户普及率(每百人)9.110.411.612.713.7个人计算机普及率(每千人)5665778898电信总投资(亿美元)1245612118116611130210954 (3)国际竞争力 总体上看,随着中国电信业法制建设、体制改革和相关政府机构(尤其是行业监管机构)执政能力的不断提升以及中国电信企业微观治理机构的完善,加上数字鸿沟的不断缩小,中国电信业国际竞争力发展趋势是一个上升的过程。根据中国电信业国际竞争力发展报告(2004年),中国电信业的国际竞争力在2004年排名全球第14位,而到2010年预测国际竞争力将排名全球的第2位。见表22003年2004年2010年预测综合竞争力13142环境竞争力27259市场竞争力221企业竞争力312712可见,中国电信业的国际竞争力在不断提升,但要想达到预期的在2010年国际竞争力排名全球第2位的目标,中国电信企业还任重道远,其首要的任务就是尽快实现企业转型,变粗放式经营为精细化和精确化的经营策略。 2、我国电信企业的营销现状从1994年中国联通获得营业执照开始,伴随着政府“破除垄断,引入竞争”为目标的电信体制改革的推进,中国的通信行业进入了全新的竞争时代。由于长期以来中国电信行业一直处于完全垄断的行业状态,脱胎于“垄断背景”的中国通信运营企业虽然在网络技术、产品开发上快速紧追国际运营商的步伐,而在市场运作上则与国际运营商存在一定的差距,这种差距表现在以下几个方面: (1)模糊的客户定位定位是对公司的供应品和形象进行设计,从而使其能在目标顾客心目中占有一个独特位置的行动。所以公司在进行客户定位时,必须首先找到自己的目标客户,然后根据目标客户群的特点和需求来设计自己的产品,给每一个产品都有一个明确的客户定位,这样才能实现差异化的竞争优势。罗瑟·里夫斯说,一家公司应该为每一种产品制定一个惟一的销售定位,并专营这一定位。可见对于定位,最关键在于它的独特性和差异性。解决定位问题的好处在于,它能帮助公司解决营销组合问题。所以有了一个清晰准确的客户定位以后,企业才能有的放矢地投入资源解决其市场营销组合,实现差异化的市场营销 目前中国电信企业在客户定位上做得还很不够,由于自身 的用户数量很庞大, 数以亿计的用户表现出了各种各样不同的需求,而运营商传统的按ARPU值进行客户细分的方法还不够科学。粗放的客户细分方法,必然导致企业对于客户真正的需求不能很好的把握,由此也就导致了企业在客户定位上的模糊状态。没有清晰的客户定位,使得运营商在营销组合策略的设计缺乏目标,也就必然导致自身产品既不能真正满足不同客户的个性需求,也没能很好地起到市场区隔的作用,进而成为了“食之无味,弃之可惜”的“鸡肋”。(2)粗放的产品策略 由于客户定位上的模糊状态,导致运营商的产品策略没有很好的针对性。大量的产品虽然有很高的技术'胜,很好的应用前景,但由于运营商没有很好地以客户需求为导向对产品进行定位,因而导致了技术与市场的脱节,产品陷入“叫好不叫卖”的尴尬境地。 例如,移动通信近年来开发了大量很有特点的增值业务,譬如WAP、彩信、彩铃等等,然而这么多层出不穷的新业务中,却只有技术含量相对较低的彩铃真正获得了市场的认可。那么究竟是什么原因使得WAP、彩信这样在技术上有突出创新的新业务,在市场上却屡屡“败走麦城”呢?笔者认为,关键原因就在于运营商粗放的产品策略所致。以彩信业务为例,彩信业务是多媒体信息服务(即MMS,它是Multimedia Messaging Service的缩写)业务,它最大的特色就是支持多媒体功能,能够传递功能全面的内容和信息,这些信息包括文字、图像、声音、数据等各种多媒体格式的信息。可见产品设计者的想法很好的,它使我们发送的短信不再仅限于文字,而扩大到了图像、声音、视频了,但是为什么如此有技术创新的产品却在市场上始终业绩不佳呢?问题在于企业的产品策略。具体有以下三个问题:1.定位错误。运营商在推出彩信业务时,将其定位于高端客户,因此价格较高。然而企业并没有真正了解客户的业务需求,高端客户对于彩信业务并不热衷, 缺乏使用业务的积极性;然而,对彩信业务有强烈的潜在需求的年轻时尚用户却 因为价格较高,终端受限而抑制了使用积极性。 2。终端限制。彩信业务对于终端的要求很高,基本只能在同种类型手机之间 进行传送,不同类型手机之间发送就会产生格式错误,显然终端上的限制严重阻碍了彩信业务的发展。 3.内容缺失。我们知道短信和彩铃最大的特点是其个性 化内容丰富,且具有“病毒式传播”的效果,大量极具特点的内容成为人们生 活中乐趣,而彩信在内 容的开发上也不够丰富,没有了个性化的内容,也就使得 用户缺乏使用的积极性。 由此可见,由于电信企业缺少科学的工具去了解用户真正需求,无法精确地进行产品定位,也就必然产生了粗放的产品策略,从而导致了产品与市场的脱节。(3) 恶性的价格竞争 价格是调节市场需求的经济杠杆,通过价格竞争导致市场份额的重新分配,是企业在市场由垄断走向开放后的必然选择。但是,简单的“一刀切”式的价格竞争却会将企业带入恶性竞争的泥潭。 以移动通信为例,移动通信行业的价格战从最初的低价入网、免费入网、话费打折,到后来的免月租费,送手机,直至许诺低廉的“网 中网”通话费其目的就是突破或绕过国家资费政策的禁区,直接或间接降低价格,以在激烈的竞争中获取更多的客户资源和市场份额。然而,市场上的降价行为是最容易被挑起也是最容易被对手模仿的。在目前移动通信市场的双寡头垄断情况下,正如经济学的古诺模型所描述的,只要有一个企业降价,另一个企业必定马上跟进。由于中国旧的电信市场格局已经被打破,新的稳定格局尚未形成,因而新进者急于要“攻”,在位者坚决要“守”,降价便成了最便捷有效的利器。于是,价格战在全国此起彼伏,运营商们一片混战。 然而,对于运营商而言,更为严重的后果是,“价格战 ”无限度地提高了消费者的期望,吸引了更多忠诚度极低的低端用户群体,当被“降 价”刺激形成习惯的客户加入到市场博弈之中,在运营商之间频繁转网,也进一步刺激了新一轮价格战。在降价的旋涡之中,市场对降价的接受在一夜之间就可以完成,而正如古诺模型,恢复价格对于运营商而言,则是“蜀道之难,难于上青天”。(4) 渠道管理失控 在日益激烈的电信市场竞争中,作为与用户直接接触的一方,渠道代理商的影响力也日渐增加。渠道代理商是独立于运营商的销售个体,与运营商之间是委托和代理的关系,而这种关系完全是基于经济利益而形成的。从经济博弈论的观点来看,代理商是二完全利益驱动的,而利益驱动必然带来忠诚度的降低和双方信息的不对称。尤其在现今“价格战”愈演愈烈的环境下,运营商之间不断以价格拉动竞争,竞争升级,用户的资费敏感性不断提高,稳定性下降,开始频繁转网。而此时作为与用户直接接触的渠道代理商,也开始利用运营商之间竞争不断提出新要求。运营商为抢夺市场,以利益来引导渠道,结果也导致渠道代理商在利益的驱动下引导用户转网、主导用户的选择。竞争的加剧,“价格战”的升温,不仅使运营商对渠道的管理失控,渠道成本上升,而且使渠道对运营商的影响力加大,一定程度上形成了对运营商的反控制。 “天下熙熙,皆为利来;天下攘攘,皆为利往。单纯以经济利益来驱动渠道代理商必然会带来代理商的趋利行为,因此,运营商要想摆脱渠道的反控制,规范渠道的管理,一方面应使用长期利益来引导渠道,形成伙伴关系;另一方面,运营商应加强渠道整合,使渠道品牌化,扁平化,还可以采用直复营销方法直接与客户互动沟通,以减弱渠道代理商的影响。 (5)效率低下的宣传战 与价格战相伴的还有宣传战,媒体广告、户外广告、营销软文比比皆是,新概念炒作此起彼伏,从而带来营销成本的不断攀升。主体模糊的宣传战,与价格战相类似,都是极易被对手模仿的,结果是运营商营销成本上升,然而宣传的效率却很低,市场份额也没有产生显著变化。 宣传战的低效率最明显的市场表现是,走遍神州大地,我们都可以看到“全球通”的广告牌,然而,全国绝大多数的“全球通”品牌客户都在省级地方品牌的“包围”下,纷纷逃离全球通阵营。有些地区也意识到了全球通的品牌价值和战略地位,下大力气进行品牌“保卫战”,但无奈对客户群体的研究过于简单化。最终保卫战又变成了简单的价格战和宣传战。 以上问题的出现主要是由于运营商盲目竞争和传统上所用的以ARPU值进行市场细分的方法已经不能有效地刻画客户的需求特点,从而导致看似有理论依据的营销策略在市场上屡屡受挫。各运营商需要实现超越竞争的目的,首先必须对客户进行有效的细分,实现有效的差异化的营销策略。纵观世界电信行业,一种基于准确客户细分的差异化营销正在知名运营商之间得以应用,并取得了积极的效果,例如英国申信,美国西南贝尔公司都积极采用数据挖掘技术,对客户消费行为进行深度分析,从而有效细分客户群,实施差异化、一对一的营销。国内的通信企业也在这方面进行了积极的探索和尝试,并取得一定的效果。但是,由于在市场细分方法的选择上存在一些不足,因而在营销实战中也就难以体现明显效果。 二、精确营销 (一)精确营销的定义和理解 1、定义:精确营销也有人称精准营销,它是以科学管理为基础,以客户洞察为手段,运用数据挖掘技术,恰当而确切地对市场进行细分,并采取精耕细作的营销操作方式,将市场做深做透,进而获得预期效益。 2、精确营销的6R理论:电信运营的精确营销就在于合适的时间、合适的地点、通过合适的渠道、以合适的方式将合适的业务推送给合适的客户。 3、精确营销的核心:客户、产品/业务、技术三个层面的精确。即精确营销,就像卫星定位技术。在最高的天象里,以最大规模的扫描来最终锁定哪怕是最小的一个目标群即是精确锁定目标客户;就像来电显示系统,对方有动作,本方有显示,在看似“被动”的格局中,“主动”地进行“动态调整”。 (二)电信行业为什么需要进行精确营销 1、营销环境的巨变 (1)体验经济盛行商品 服务对客户来说是外在的,但体验式内在的,存在于个人心中,是个人在形体、情绪、知识参与的所得。 (2)科技创新迅速 从根本上改变人类从事商务活动、阅读、交流、娱乐、学习、工作的基本方式,在为人类创造一个更加美好的生存环境的同时,密切了人与人、人与社会之间的联系。 (3)多元文化带来的个性化需求 经济全球化使企业必须重视文化多样性,文化多样性必然导致市场需求个性化和多样化。 (4)长尾效应逐步凸显 产品/业务呈现小众市场的趋势,长尾效应凸显。长尾效应的根本就是要强调“个性化”,“客户力量”和“小利润市场”,也就是要赚很少的钱,但是要赚很多人的钱。 2、传统营销面临困境 (1)过度营销造成用户麻木 资讯的发达和经济的发展使得营销在进几年来有了极大地发展。各种各样的广告、传播、促销等充斥于人们的生活。各种各样的广告和促销之后,消费者对营销产生麻木和抵触,企业的营销行为完全没有起到应有作用。 (2)营销手段模糊 在传统营销中,所采用的手段大多是较为模糊,没有准确的定量信息作依托。例如市场细分标准较为模糊,通常多为年龄、性别等人口统计标准,这种较为初级的细分无法让公司找到真正具有价值的市场信息,失去许多机会。 (3)营销效率低下 传统以量取胜的通行法则凭借大量销售、促销、服务人员、广告投入来获取客户,建立竞争优势,但这种方式效率低下,浪费资源。菲利普.科特列曾指出:“促销费用的大部分都打了水漂,仅有百分之十的促销活动能得到高于百分之五的响应率,这个数字还在逐年递减”。 3、资源的合理配置需要精确营销 精确营销的基本背景是资源的紧缺性。企业的营销活动和其他活动一样,需要耗费资源。营销所消耗的资源不仅包括企业产品资源、人力资源、品牌、技术、销售渠道、还包括外部的客户、媒体、合作伙伴、政府部门、信息资源等。 综述:精确营销的最高境界就是在客户最需要的时候立即出现,让客户在惊喜中感受服务和产品溢价;在客户部需要的时候重不去打扰。 三、数据挖掘理论的回顾与综述 (一)数据挖掘技术的由来 1、数据挖掘的定义 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discoveryin Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 并非所有的信息发现任务都被视为数据挖掘。例如, 使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索 (information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也己用来增强信息检索系统的能力。 企业里的数据量非常大,而其中真正有价值的信息却 很少,因此从大量的数 据中经过深层分析,获得有利于商业运作、提高竞争力 的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。这种新式的商业信息处理技术,可以按商业既定业务目标,对大量的商业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化。 在较浅的层次上,它利用现有数据库管理系统的查询、 检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理(OLAP),从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAP的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。 数据挖掘基于的数据库类型主要有:关系型数据库、面 向对象数据库、事务 数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、工nternet信息库以及新兴的数据仓库(DataWarehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。 2、数据挖掘的研究历史和现状 从数据库中发现知识(KDD)一词首次出现在1989年举行的第十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了14次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的Knowledge and DataEngineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。 此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威( Email Club等。至于DMKD书籍,可以在任意一家计算机书店找到十多本。目前,世界上比较有影响的典型数据挖掘系统有:SAS公司的Enterprise Miner, IBM公司的Intelligent Miner, SGI公司的SetMiner,SPSS公司的Clementine,Sybase公司的Warehouse Studio, RuleQuest Research公司的Sees、还有CoverStory, EXPLORA, Knowledge DiscoveryWorkbench, DBMiner, Quest等。读者可以访问http:/www. datamininglab. com.网站,该网站提供了许多数据挖掘系统和工具的性能测试报告。 与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。 3、数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析OLAP)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。 先前未知的信息是指该信息是预先未曾预料到的,既 数据挖掘是要发现那 些不能靠直觉发现的信息或知识,甚至是违背直觉的信 息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 数据挖掘和OLAP到底有何不同?这是一个必须理清的问题。他们是完全不同的工具,基于的技术也大相径庭。 OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(What happened), OLAP则更进一步告诉你下一步会怎么样(Whatnext)、和如果我采取这样的措施又会怎么样(What if )。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。比如,一个OLAP分析师想找到什么原因导致了电话欺诈,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高话费的账户,如果还不行,他也许要把收入和高话费一起考虑,一直进行下去,直到找到他想要的结果或放弃。也就是说,OLAP分析者是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。 数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式 (模型)的正确性,而是在数据库中自己寻找模型。它在本质上是一个归纳的过程。比如,一个用数据挖掘工具的分析员想找到引起电话欺诈的风险因素。数据挖掘工具可能帮他找到高话费和低收入是引起这个问题的因素,甚至还可能发现一些分析者从来没有想过或试过的其他因素,比如年龄。 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动 之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。而且在知识发现的早期阶段,OLAP工具还有其他一 些用途。可以帮你探索 数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过程。 4、数据挖掘的特点(1)处理的数据规模十分庞大,达到GB, TB数量级,甚至更大。 (2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。 (3)在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。 (4)数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。 (5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。5、数据挖掘技术分类如下表1 各种数据挖掘技术功能比较分类数据挖掘技术 优点 缺点 应用范围统计模型统计分析不需决策者干预,能直接统计平均值、最大值、最小值等指标。通过简单工时自动实现数据处理功能。潜在的规则需决策者根据结果进行判断、预测、统计需要大量的历史数据。适合对一些比较简单的现象进行挖掘,可用于预测、分类。关联和序列分析通过计算支持度,置信度挖掘各因素之间的因果关系、关联程度、能预测潜在顾客。要决策者输入支持度、置信度两个参数,数据库中的数据记录繁多,偏立时间较长,需较好的算法。可用于数据之间的直观、表层的联系进行分析,算法简单。聚类分析根据一定的规则,合理的进行分类,用显示或隐示的方法描述不同的类别。算法较复杂,划分类别的标准、分类界限较模糊。适合于分类、预测比较复杂的问题进行预测,模型计算的结果较准确。机器学习技术决策树分析决策过程可见,可解释结果是如何产生的,计算简单、可处理类别、连续变量得出相应的规则。数据越复杂,决策树分支多,很难管理,对缺乏数据的决策效果不是很明显。适于对记录分类,对结果进行预测,生成结果易解释,易理解,可用于聚类、分类、序列模式。神经元网络对于复杂情况仍能得到精确地预测结果,可处理类别和连续变量。不透明,无法解释结果是如何产生的及其在推理过程中所用到的规则。适用于模型的结果比克理解性更重要的分类和预测的复杂情况,不适合处理高维变量,可用于聚类和分类。 6、数据挖掘流程 (1)定义商业问题:首先确定数据挖掘主题的商业理解包括商业目标、成功评价标准、挖掘主题细分、挖掘模型成功评价标准等。 (2)建立数据挖掘库 (3)分析数据 (4)准备数据 (5)建立模型 (6)模型评价 (7)模型实施总之,在整个数据挖掘的过程中每个步骤并不是一定要进行的,同时每个步骤也不是必须按照相应的顺序进行,而是不断地往复进行,不断地改进从而找到最优的模型。 四、数据挖掘中的聚类分析 “物以类聚,人以群分”。聚类(Clustering)是人类一项最基本的认识活动,也是数据挖掘领域最为常见的技术之一。聚类分析就是从给定的数据集中搜索数据对象之间所存在的有价值联系,根据数据之间的相似程度,将数据分成不同的簇或类(Cluster),同一类中的数据之间具有较高的相似度,而不同类中的数据差别较大。在分类中,用户知道数据可分为几类,将要处理的数据按照分类标准分入不同的类别,也称为有监督学习。而聚类操作中要划分的类是事先未知的,类的形成完全是数据驱动的,属于一种无指导的学习方法,也称之为无监督学习。 (一)聚类分析相关基础 1、聚类分析相关定义 聚类分析是将样品或变量按照他们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一是把每个样品或变量看成是多维空间上的一个点。在多维坐标中,定义点与点。类与类之间的距离。用点与点之间的距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。 2、聚类分析的种类(1)按照分组理论依据不同分类 1.系统聚类分析法。是在样品距离的基础上定义类与类的距离,首先将n个样品自成一类,然后每次都将具有最小距离的几个类合并,合并后在重新计算类与类之间的距离,在并类,之间过程一直持续到所有的样品都归为一类为止。 2.动态聚类分析法。是将n个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。 3.模糊聚类分析法。是利用模糊数学中模糊集理论来处理分类问题的方法,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。 4.图论聚类分析法。是利用图论中最小支撑树的概念来处理分类问题,是一种独具风格的方法。 5.聚类预报法。是利用聚类方法处理预报问题的方法。主要应用于处理一些出现异常数据的情况,如气象灾害性天气的预报,这些数据采用回归和判别效果不好,而聚类预报可以弥补回归分析及判别分析方法不足,是一个值得重视的方法。 (2)按照分析对象不同 1.Q型聚类分析。是对样品进行分类处理,可以揭示样品之间的亲疏程度 2.R型聚类分析。是对变量进行分类处理,可以揭示变量之间的亲疏程度以及变量变量组合之间的亲疏程度。 (二)聚类分析技术在电信行业中的应用 1问题与背景 电信行业业务营销状况直接影响着电信行业的发展,而电信行业的业务状况直接决定者是客户。因此,要搞好营销业务,就要对电信的客户进行各方面的调查和细分。电信行业从事的业务多种多样,本文就几种常见业务来对客户进行分类。众所周知,中国是一个人口、文化、消费、经济存在地域性差异的国家,因此各个地区的电信业务很可能受到人口、环境、经济等多种因素的影响,从而导致各个地区的客户消费群体总体上存在差异,由此电信行业制定决策不能笼统的以全国数据来做基础,也不能以单一的一个地区的客户群体消费为依据。要因地制宜,制定合理的规划。本文就以2008年全国各个地区的电信业务量来衡量地区之间客户的不同,从而为各个地域制定合适的营销政策,达到精确营销,比如北京,上海等地的梦网业务销量大,就要制定相对应的梦网套餐;西藏、贵州传统通信如长话等业务相对较大,就要制定相对的话费政策套餐,从而达到适合当地大量客户需要的业务,提高了业务的效率,达到资源的合理配置。这类以地理位置为基准的细分方法的优点在于易于辨认、易于集中媒介沟通渠道、易于组织分销,但缺点是作为描述性因素,对未来的购买行为不是很确定,因为各个区域的客户群总体上有差异、有分别,但是落实到具体的每一个客户则不清楚,因此本文只对地域性差异引起的客户进行总体上的营销规划,而不对单个客户进行精确营销,所以本文相当于把精确营销的实际操作应用得更广义即把地域性的客户群当成单个的客户来处理,从而来进行精确营销;即是在合适的时候以合适的方式把合适的产品推销给合适的地区,从而间接地营销给该地区的主流客户。 众所周知,以单个客户来为单位来进行细分就要了解单个客户的姓名、年龄、证件、SMS次数、国际呼叫等等,可以说有上百个变量不止。而以一群客户来整体分类就简单许多,从而对应的做出分类也方便,再根据分类进行精确营销也具有重要价值,因此此方法也是一种电信行业常用的方法,对电信企业的精确营销具有重要意义。就本文来说选取最常用的5个指标来对各个地区的电信客户进行聚类,从而一方面反应了地区与地区之间客户的消费差异性,另一反面也反应了这些地区的客户之间究竟在哪些方面存在差异。由此,电信营销决策者就可以根据以上情况做出适当的营销政策,提高营销效率,达到精确营销。本文选择如下5个指标:固定电话长途通话时长(X1);移动电话长途通话时长(X2);IP电话通话时长(X3);移动短信业务量(X4);互联网上网人数(X5).其中X1的单位是亿分钟反应的是一个地区所有电信用户固话长途的时间;X2的单位是亿分钟反应的是一个地区所有电信用户移动长途话时的时间;X3的单位是亿分钟反应的是一个地区所有电信用户IP时长;X4的单位是亿条反应的是一个地区所有电信用户短信总和;X5的单位是万人,指平均每周使用互联网至少1小时的6周岁以上中国公民人数。以上5个指标是衡量电信业务的主要指标,由此来对其对应的地区客户进行精确营销。 2.具体分析过程第一步:录入原始数据如下: 地区X1X2X3X4X5 北 京 29.8675661.9796168.23477337.68018980 天 津 9.765728.9029722.01284105.38535485 河 北 38.3019175.3917124.17326362.232981334 山 西 20.4459561.180989.11422177.91695819 内蒙古 12.9274527.670759.15766130.98021385 辽 宁 34.728455.1226548.71204219.484471138 吉 林 10.5145616.491369.03011134.89226520 黑龙江 22.4447543.2035520.18973167.40145620 上 海 29.6752636.02219130.52531306.731841110 江 苏 105.09805161.1029137.39931634.41152084 浙 江 85.9033221.3307839.74194570.332912108 安 徽 13.6298736.0450345.30787242.57751723 福 建 33.55156113.4988631.56063204.929841379 江 西 16.3694348.9669110.7309150.8904610 山 东 41.7611696.4937372.85159480.336121983 河 南 43.0807385.0615813.41037280.613781283 湖 北 38.4368138.4872646.03128204.471651050 湖 南 31.2612440.5929145.8396200.90766999 广 东 175.49559357.16722402.42794829.957694554 广 西 28.4997754.4693613.69652151.7649734 海 南 6.346528.430236.7135541.44631216 重 庆 10.5595113.8219529.6138897.70118598 四 川 33.525445.0063789.47752316.364941103 贵 州 10.1127928.2228919.8885866.55563433 云 南 17.843742.8838533.47915174.67069548 西 藏 4.930966.418642.623110.3366447 陕 西 26.1485634.4512650.75825171.38596790 甘 肃 13.5197729.098558.2454986.06554327 青 海 4.255098.298934.041620.19524130 宁 夏 3.4807510.828644.0555731.90228102 新 疆 18.2415625.6698447.5989386.36786625首先利用EXCE可以得出以下五个图表:(1) 全国各地区固定电话长途通话时长对比折线图: (2) 全国各地区移动电话长途通话时长对比折线图:(3) 全国各地区IP电话通话时长对比折线图: