商务智能课程论.docx
《商务智能课程论.docx》由会员分享,可在线阅读,更多相关《商务智能课程论.docx(12页珍藏版)》请在三一办公上搜索。
1、商务智能课程论目录 引言. 2 1.决策树演算法 (Decision Tree) 简介 . 2 1.1决策树演算法的原理 . 2 1.2决策树演算法的选择 . 3 1.3 CHAID算法简介 . 3 2.自行车销售数据栏位和特征分析 . 4 3.建立决策树模型串流 . 5 3.1读取数据 . 5 3.2 数据类型定义 . 6 3.3决策树节点设定 . 6 4.生成模型与修正模型 . 8 5.模型分析 . 12 基于SPSS Modeler的自行车销售预测分析 引言 随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分
2、析时很常用的分类方法,本文将使用 IBM SPSS Modeler进行实作,介绍决策树 (Decision tree) 演算法于零售领域的应用实例。IBM SPSS Modeler包含多种决策树模型,包括 C5.0、C&R Tree、Quest、CHAID。首先,本文将会简介决策树演算法的基本原理,接着会针对案例数据 (某公司自行车销售数据) 进行初步的数据分析,并套入决策树模型中,分析、解释并讨论最后的结果。本文所用分析工具为IBM SPSS Modeler 17 试用版,所建立模型需IBM SPSS Modeler 15及以上版本才可正常查看。 1.决策树演算法 (Decision Tre
3、e) 简介 1.1决策树演算法的原理 决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。 一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。 决策树演算法的比较 决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及
4、C&R Tree 四种。 1.)C5.0 由 C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准 (Information Measure) 来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0 的目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。而输入字段的数据型态则适用连续类型 (Continuous) 的测量级别。 2.)CHAID (Chi-Square Automatic Interaction Detector) 此演算法和前述的 C5.0 概念很像,均可以在每一个节点产生不同数目的分支来分割
5、数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定 (Chi-square F test) 来进行分支,通过卡方检定来计算节点中的 P-value,来决定数据是否仍须进行分支。另外,CHAID 的目标字段 (Target) 的测量级别可适用于连续类型 (Continuous) 的测量级别,但在输入字段则只适用分类类型 (Categorical) 的测量级别。 3.)QUEST (Quick Unbiased Efficient Statistical Tree) 此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST 在变数的数据型态限制上,跟
6、 C5.0 一样,目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。但在输入字段的测量级别则适用连续类型 2 / 13 (Continuous) 的测量级别。 4.)C&R Tree (Classification and Regression Tree) 又称为 CART,构建决策树的原理是使用 Gini Ratio 作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数 (Target) 以及输入字段的测量级别均适用连续类型 (Continuous) 的测量级别做分析。 1.2决策树演算法的选择 在使用决策树演算法进行
7、分析之前,首要工作就是选择适当的演算法。一般来说,会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的决策树分析出来的结果,选择最适合的决策树演算法。 使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分仅针对CHAID算法进行简单的介绍和应用展示。 1.3 CHAID算法简介 CHAID,或卡方自动交互效应检测,是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割
8、来构建决策树的分类方法。“卡方”是在分类模型中应用的一个统计量;“交互作用”是指进行成功预测所需要考虑的各变量之间的相互关系;“检验”是研究者想要完成的工作;“自动”则意味着这项指导性技术是可用的。下文中列举了一些在响应模型中应用 CHAID的好处。 研究人员通常会搜集大量的预期解释变量。CHAID可以用来提前筛选数据以剔除随机变量。另外,对于那些已进入CHAID的变量,其进入的次序揭示了他们对预测的重要程度。 一个分类变量包含着若干类别,但对响应变量而言并不是每一个类别都实际显著。 CHAID可以帮助解决哪些类别需要合并的问题。比如,一组数据分为十二类,分别代表不同的地区,但是也许这12个类
9、别仅有3种不同的响应模式。在这种情况下,应该合并地区分类。CHAID将进行统计检验,合并不显著的类别。 有些解释变量可能由无序类别组成,有些则可能由有序类别组成。如果统计上可行的话,研究人员希望合并前者中所有的无序类别,而仅合并后者中临近的类别。CHAID 可以实现这两种合并。 回归分析适用于揭示线性关系。例如,假设随着受访者受教育程度的增加,针对相应问题回答“是”的百分比也增加了。那么这种模式就是线性的,回归分析可以揭示出这种关系。但是,如果随着受教育程度的增加,针对相应问题回答“是”的百分比是先增加后下降的,那么,单纯的运用回归分析就无法揭示应答与教育水平之间的显著关系了,因为这个模式不是
10、线性的。换句话说,CHAID揭示非线性关系。 回归分析揭示出主要的影响因素。也就是说,我们做回归分析时假设某个解释变量的影响相对于其他解释变量的取值而言是不变的。但事实未必如此。因此,研究人员在确定某一个解释变量对响应变量的影响之前,需要指定其他解释变量的水平。这被称为一个“指定影响”或一个“交互作用”。CHAID能够揭示解释变量间的交互作用。 CHAID会生成一个分类树。研究人员可以从该分类树上找到统计上显著的分割点。由于 3 / 13 CHAID在内置统计检验中运用了 Bonferroni调节,这种基于一组数据构建的分割模型在一个类似的抽样样本中可以得到很好的交叉验证。 2.自行车销售数据
11、栏位和特征分析 这次分析使用的数据来自某自行车零售商的自行车销售数据,数据内容包括:客户的基本数据,及客户的业务相关数据,一共十四个字段。数据的前十条记录预览情况如图1所示。 图1 自行车销售数据展示 为了保证样本抽取的随机性,我们设置一个“样本抽取”节点,随机抽取70%的样本进行模型分析。如图2所示。 图2 样本抽取 在模型建置前,首先要了解数据的组成。通过“数据审核”中简单的图表及统计数据,我们可以察觉数据的异常、极端值。以年龄栏位为例,我们可以通过最大、最小及平均值,来观察有无异常分布。年龄32102岁及平均51岁属于正常分布,所以不需要做特殊处理。其它栏位可以通过同样方式检视,以增加对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 智能 课程
链接地址:https://www.31ppt.com/p-3367223.html