商务智能论文范文.docx
《商务智能论文范文.docx》由会员分享,可在线阅读,更多相关《商务智能论文范文.docx(14页珍藏版)》请在三一办公上搜索。
1、商务智能论文范文电信客户流失影响因素与预测分析 一、 引言 随着世界经济的全球化、市场的国际化和我国加入WTO步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理
2、的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 当今电信市场竞争激烈,运营商每月客户流失率在1%3%,挽留将要流失客户,降低客户流失率是近年来热门的研究领域。而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。 客户流失会给电
3、信企业的利益带来多方面的损害,使企业在竞争中处于不利地位。电信企业在争取新客户的同时,必须采取有效措施预防老客户的流失,挽留一个老客户能够带来很大的收益,可是这个客户挽留活动毕竟只是公司众多市场活动中的一个,预算也有限。因此分析流失客户的特征是很关键的,现要求对数据库中的数据进行分析,看看哪些客户可能会流失?这些客户都有哪些特征?根据流失客户的特征组织一个市场营销活动来遏制这种趋势。 二、 问题分析 根据已有的结果流失客户,寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分
4、析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。 对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。 三、 算法简介 分类分析 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。分类技术已经在很多领域得到成功应用,如医疗诊断,客户流
5、失预测,信用度分析,客户分群和诈骗侦测。常见的分类方法有贝叶斯分类,神经网络,遗传算法和决策树分类器。在这些分类方法中,决策树分类器在大规模的数据挖掘环境中已经获得了最为广泛的应用。 决策树演算法 决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。 一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。 决策树演算法的比较 决策树演算法依据其演算原理以及可适用分析数据类型的不同
6、延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 C&R Tree 四种。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分将会针对这四类决策树演算法进行简单的介绍和比较,而详细演算法原理将不会在本文中详述。 1. C5.0 由 C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准 (In
7、formation Measure) 来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0 的目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。而输入字段的数据型态则适用连续类型 (Continuous) 的测量级别。 2. CHAID (Chi-Square Automatic Interaction Detector) 此演算法和前述的 C5.0 概念很像,均可以在每一个节点产生不同数目的分支来分割数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定 (Chi-square F test) 来进行分支,
8、通过卡方检定来计算节点中的 P-value,来决定数据是否仍须进行分支。另外,CHAID 的目标字段 (Target) 的测量级别可适用于连续类型 (Continuous) 的测量级别,但在输入字段则只适用分类类型 (Categorical) 的测量级别。 3. QUEST (Quick Unbiased Efficient Statistical Tree) 此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST 在变数的数据型态限制上,跟 C5.0 一样,目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。但
9、在输入字段的测量级别则适用连续类型 (Continuous) 的测量级别。 4. C&R Tree (Classification and Regression Tree) 又称为 CART,构建决策树的原理是使用 Gini Ratio 作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数 (Target) 以及输入字段的测量级别均适用连续类型 (Continuous) 的测量级别做分析。 决策树演算法的选择 决策树的几大优点“ 第一, 与神经网络和贝叶斯分类器相比,决策树提供非常直观的描述,这种描述易于被吸收,转化为标准的数据库查询 第二, 训练神经网络模型时要
10、花费大量的时间,要进行大量的重复操作,与之相比决策树效率要高很多,适合于大的训练集。 第三, 决策树生成算法除了训练集中包含的信息外不需要附加的信息。 第四, 决策树有着可比的或更高的准确率。 在使用决策树演算法进行分析之前,首要工作就是选择适当的演算法。一般来说,会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的决策树分析出来的结果,选择最适合的决策树演算法。 四、 实验与分析 4.1 数据准备 数据来源:电信客户流失数据.sav 数据有8个字段,其中包含一些客户个人信息,例如年龄、教育程度、退休、性别和客户类别, 还包含一些客户使用电信服务信息以及客户的上网
11、月数,因为我不能将数据修改,所以下面我使用了分区将数据分为训练,测试以及验证,为了展示预测数据的结果) 以下为部分数据的截图: 4.2 参数设置 目标变量表示了数据挖掘的目标,在客户流失分析中目标变量通常为客户流失状态。 输入变量用于在建模时作为自变量寻找与目标变量之间的关联。我们主要从客户种类信息,客户在网月数信息,客户基本信息,客户的工作年限信息,客户的退休信息这几方面选取输入变量。 4.3 挖掘过程 1. 读取数据 SPSS Modeler 中需要根据数据档案格式,来选择不同的源节点读取数据。本篇文章中我们使用的数据档案格式为 .sav档,因此我们将使用Statistics文件节点。在节
12、点设定方面,文件标签下我们先读入数据“电信客户流失数据.sav”,接着勾选读取名称和标签以及读取数据和标签。 2.数据类型定义 为了产生决策树模型,我需要在数据建模前就定义好各栏位的角色,也就是加入字段选项下的类型节点。将类型节点拉入串流后,我会先点选读取值按钮,接着设定角色。是否流失是我最后预测的目标,因此先将其角色设定为“目标”,余下的栏位则是要设定为“输入”。 3.数据分区 为了在训练出模型后能够分析模型准确度,在此我加入字段选项下的分区节点,将数据分为 50%训练数据、40%测试数据以及10%验证数据。在分区节点的编辑页中,点选预览可发现每笔数据已经多出了一个栏位分区,栏位中的值被随机
13、归类为1_训练、2_测试以及3_验证,让决策树节点可判别是否要使用此资料做为训练数据,测试数据以及验证数据。在完成资料分区后,我已经完成数据准备,可以套用决策树模型节点了。 4.决策树节点设定 SPSS Modeler 共提供四种决策树节点建模,包括 C5.0、C&R 树、Quest 和 CHAID。考量到数据特性以及我希望提供的决策树具有多元分类法,因此我将建立 C5.0 和 CHAID 两种分类模型。 C5.0 节点设定 将 C5.0 节点与类型节点连结后,我将于此节点编辑页面中的模型标签下设定相关的变数。以下为各变数的详细介绍,此定义来自SPSS Modeler 15 Modeling
14、Nodes 文件。 使用分区数据:如果定义了分区字段,则此选项可确保仅训练分区的数据用于构建模型。 为每个分割构建模型:给指定为分割字段的输入字段的每个可能值构建一个单独模型。 输出类型:在此指定希望结果模型块是决策树还是规则集。 组符号:如果选中此选项,C5.0 将试图组合输出字段中具有相似样式的符号值。如果未选中此选项,C5.0 将为用于分割父节点的符号字段的每个值创建一个子节点。 使用 boosting:C5.0 算法有一个特殊的方法用于提高其准确率,称为 boosting。它的工作原理是在序列中构建多个模型。第一个模型按常规方式进行构建。构建第二个模型时,将焦点集中于由第一个模型误分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 智能 论文范文
链接地址:https://www.31ppt.com/p-3092798.html