商务智能课程论.docx

上传人：牧羊曲112

文档编号：3367223

上传时间：2023-03-12

格式：DOCX

页数：12

大小：43.10KB

《商务智能课程论.docx》由会员分享，可在线阅读，更多相关《商务智能课程论.docx（12页珍藏版）》请在三一办公上搜索。

1、商务智能课程论目录引言. 2 1.决策树演算法 (Decision Tree) 简介 . 2 1.1决策树演算法的原理 . 2 1.2决策树演算法的选择 . 3 1.3 CHAID算法简介 . 3 2.自行车销售数据栏位和特征分析 . 4 3.建立决策树模型串流 . 5 3.1读取数据 . 5 3.2 数据类型定义 . 6 3.3决策树节点设定 . 6 4.生成模型与修正模型 . 8 5.模型分析 . 12 基于SPSS Modeler的自行车销售预测分析引言随着资讯科技的演进，如何通过方法有效的分析海量数据，并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分

2、析时很常用的分类方法，本文将使用 IBM SPSS Modeler进行实作，介绍决策树 (Decision tree) 演算法于零售领域的应用实例。IBM SPSS Modeler包含多种决策树模型，包括 C5.0、C&R Tree、Quest、CHAID。首先，本文将会简介决策树演算法的基本原理，接着会针对案例数据 (某公司自行车销售数据) 进行初步的数据分析，并套入决策树模型中，分析、解释并讨论最后的结果。本文所用分析工具为IBM SPSS Modeler 17 试用版，所建立模型需IBM SPSS Modeler 15及以上版本才可正常查看。 1.决策树演算法 (Decision Tre

3、e) 简介 1.1决策树演算法的原理决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。一个决策树的架构，是由三个部分所组成：叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支。决策树演算法的基本原理为：通过演算法中所规定的分类条件对于整体数据进行分类，产生一个决策节点，并持续依照演算法规则分类，直到数据无法再分类为止。决策树演算法的比较决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中，主要提供了四种常用的决策树演算法供使用者选择，分别为：C5.0、CHAID、QUEST 以及

4、C&R Tree 四种。 1.）C5.0 由 C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准 (Information Measure) 来构建决策树，并对每一个节点产生不同数目的分支来分割数据，直到数据无法分割为止。C5.0 的目标字段 (Target) 测量级别，不适用于连续类型 (Continuous) 的测量级别。而输入字段的数据型态则适用连续类型 (Continuous) 的测量级别。 2.）CHAID (Chi-Square Automatic Interaction Detector) 此演算法和前述的 C5.0 概念很像，均可以在每一个节点产生不同数目的分支来分割

5、数据，用来建立决策树。但是在背后分类的原理则利用卡方分析检定 (Chi-square F test) 来进行分支，通过卡方检定来计算节点中的 P-value，来决定数据是否仍须进行分支。另外，CHAID 的目标字段 (Target) 的测量级别可适用于连续类型 (Continuous) 的测量级别，但在输入字段则只适用分类类型 (Categorical) 的测量级别。 3.）QUEST (Quick Unbiased Efficient Statistical Tree) 此演算法是利用统计方法分割数据，即以判定决策树是否仍需进行分支，以建立二元的决策树。QUEST 在变数的数据型态限制上，跟

6、 C5.0 一样，目标字段 (Target) 测量级别，不适用于连续类型 (Continuous) 的测量级别。但在输入字段的测量级别则适用连续类型 2 / 13 (Continuous) 的测量级别。 4.）C&R Tree (Classification and Regression Tree) 又称为 CART，构建决策树的原理是使用 Gini Ratio 作为判定决策树是否仍须进行分支的依据，并建立二元的决策树。此演算法不管是在目标变数 (Target) 以及输入字段的测量级别均适用连续类型 (Continuous) 的测量级别做分析。 1.2决策树演算法的选择在使用决策树演算法进行

7、分析之前，首要工作就是选择适当的演算法。一般来说，会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的决策树分析出来的结果，选择最适合的决策树演算法。使用者可依据数据类型以及分析需求的不同，选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异，但概括来说，决策树的主要原理均为通过演算法所定义的规则，对数据进行分类，以建立决策树。鉴于篇幅所限，以下部分仅针对CHAID算法进行简单的介绍和应用展示。 1.3 CHAID算法简介 CHAID，或卡方自动交互效应检测，是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割

8、来构建决策树的分类方法。“卡方”是在分类模型中应用的一个统计量；“交互作用”是指进行成功预测所需要考虑的各变量之间的相互关系；“检验”是研究者想要完成的工作；“自动”则意味着这项指导性技术是可用的。下文中列举了一些在响应模型中应用 CHAID的好处。研究人员通常会搜集大量的预期解释变量。CHAID可以用来提前筛选数据以剔除随机变量。另外，对于那些已进入CHAID的变量，其进入的次序揭示了他们对预测的重要程度。一个分类变量包含着若干类别，但对响应变量而言并不是每一个类别都实际显著。 CHAID可以帮助解决哪些类别需要合并的问题。比如，一组数据分为十二类，分别代表不同的地区，但是也许这12个类

9、别仅有3种不同的响应模式。在这种情况下，应该合并地区分类。CHAID将进行统计检验，合并不显著的类别。有些解释变量可能由无序类别组成，有些则可能由有序类别组成。如果统计上可行的话，研究人员希望合并前者中所有的无序类别，而仅合并后者中临近的类别。CHAID 可以实现这两种合并。回归分析适用于揭示线性关系。例如，假设随着受访者受教育程度的增加，针对相应问题回答“是”的百分比也增加了。那么这种模式就是线性的，回归分析可以揭示出这种关系。但是，如果随着受教育程度的增加，针对相应问题回答“是”的百分比是先增加后下降的，那么，单纯的运用回归分析就无法揭示应答与教育水平之间的显著关系了，因为这个模式不是

10、线性的。换句话说，CHAID揭示非线性关系。回归分析揭示出主要的影响因素。也就是说，我们做回归分析时假设某个解释变量的影响相对于其他解释变量的取值而言是不变的。但事实未必如此。因此，研究人员在确定某一个解释变量对响应变量的影响之前，需要指定其他解释变量的水平。这被称为一个“指定影响”或一个“交互作用”。CHAID能够揭示解释变量间的交互作用。 CHAID会生成一个分类树。研究人员可以从该分类树上找到统计上显著的分割点。由于 3 / 13 CHAID在内置统计检验中运用了 Bonferroni调节，这种基于一组数据构建的分割模型在一个类似的抽样样本中可以得到很好的交叉验证。 2.自行车销售数据

11、栏位和特征分析这次分析使用的数据来自某自行车零售商的自行车销售数据，数据内容包括：客户的基本数据，及客户的业务相关数据，一共十四个字段。数据的前十条记录预览情况如图1所示。图1 自行车销售数据展示为了保证样本抽取的随机性，我们设置一个“样本抽取”节点，随机抽取70%的样本进行模型分析。如图2所示。图2 样本抽取在模型建置前，首先要了解数据的组成。通过“数据审核”中简单的图表及统计数据，我们可以察觉数据的异常、极端值。以年龄栏位为例，我们可以通过最大、最小及平均值，来观察有无异常分布。年龄32102岁及平均51岁属于正常分布，所以不需要做特殊处理。其它栏位可以通过同样方式检视，以增加对

12、客户数据的了解。 4 / 13 图3 数据审核 3.建立决策树模型串流 3.1读取数据 SPSS Modeler中需要根据数据档案格式，来选择不同的源节点读取数据。本文使用的数据档案格式为.xls，因此我们将使用EXCEL文件节点。在节点设定方面，文件标签下我们先读入数据“vTargetMail.xls”，选择工作表“按索引”，工作表范围“范围从第一个非空行开始”，对于空行选择“停止读取”，接着勾选“第一行存在列名称”。过滤掉不分析的字段。如图4所示。图4 读取数据 5 / 13 3.2 数据类型定义为了产生决策树模型，我们需要在数据建模前就定义好各栏位的角色，也就是加入字段选项下的“类型

13、”节点。将类型节点拉入串流后，我们会先点选读取值按钮，接着设定角色。在本案例中，字段“BikeBuyer”是我们最后预测的目标，因此将其测量设定为“标记”，角色设定为“目标”，余下的栏位则是要设定为“输入”。在完成这一步后，点击“读取值”读取数据，就已经完成数据准备，可以套用决策树模型节点了。图5 “促销购买”类型节点设置图6 数据准备完成 3.3决策树节点设定如前面所述，SPSS Modeler共提供四种决策树节点建模，包括 C5.0、C&R 树、Quest 和 CHAID。由于篇幅有限，因此本文将只建立CHAID分类模型。将 CHAID 节点与分区节点连结后，我们将于此节点编辑页面

14、中的模型标签下设定相关的变数。由于 CHAID 节点设定较多，以下将挑选我们有修改预设值的变数进行详细介绍。此定义来自“SPSS Modeler 17 Modeling Nodes文件”。最大树深度：指定根节点以下的最大级数。修剪树以防止过拟合：修剪包括删除对于树的精确性没有显着贡献的底层分割。修剪有助于简化树，使树更容易被理解，在某些情况下还可提高广义性。 6 / 13 停止规则：设置最小分支大小可阻止通过分割创建非常小的子组。如果节点中要分割的记录数小于指定值，则父分支中的最小记录数将阻止进行分割。如果由分割创建的任意分支中的记录数小于指定值，则子分支中的最小记录数将阻止进行分割。

15、在建模节点的“字段”选项卡中，已选中“使用预定义角色”，这意味着将按在类型节点中的指定使用目标和输入。如图7所示。图7 模型字段选项卡 “构建选项”包含的选项可以用于指定要构建的模型类型。由于我们想要一个全新的模型，因此使用默认选项构建新模型。我们还要求它为单个标准决策树模型，并且不包含任何增强，因此保留默认目标选项构建单个树。如图8所示。图8 构建选项除图9和图10设置，其它设置按照默认设置不变。 7 / 13 图9 构建选项基本图10 构建选项高级 4.生成模型与修正模型决策树节点设定完成后，点击主工具列的运行当前流前即可看到决策树模型的产生。添加一个“评估”图形节点和“分析”

16、输出节点，方便后续比较预测模型精确度并检验预测结果。模型整体如图11所示。图11 自行车销售CHAID预测模型双击决策树模型则可看到模型结果，而我们最主要要观察的是模型标签及查看器标签下的内容。模型标签内容如图 9 所示，左栏位使用文字树状展开，表现每一阶层的分类状况及目标变数的模式；右栏位则是整体模型预测变量的重要性比较。我们也将会根据变量重要性调整模型设定、变数选择，持续的训练出较佳的模型。查看器标签则是将一样的决策树结果用树状图的方式展现。对于 CHAID 模型块，“模型”选项卡以规则集的形式显示详细信息，规则集实际上是可根据不同输入字段的值将各个记录分配给子节点的一组规则。在规则

17、集的右侧，“模型”选项卡显示预测变量重要性图表，该图表显示评估模型时每个预测变量的相对重要性。通过这一点，我们看到“NumberCarsOwned”变量的重要性水平最显著，其次是“Age”“YearlyIncome”、“TotalChildren”、“CommuteDistance”等，而最不重要的就是“Gender”变量。模型分析结果如图12-14所示。 8 / 13 图12 图13 9 / 13 图14 图15 10 / 13 图16 图15和图16表明，预测数据与原始数据拟合程度不够好，由于预测结果的错误率较高，经过思考与探索发现是由于数据没有清洗导致，所以在模型中加入“自动准备数据”

18、节点进行预处理并进行“数据审核”。如图17所示。图17 修改后的模型经过运行之后，得到的模型分析结果。可以看到错误率明显下降了，正确率从66.2%提高到73.79%。但是预测准确率依然不是很理想的原因有可能是分析的数据量不够大或者不具有代表性的原因。图18 修改后的模型正确率提高 11 / 13 5.模型分析如图19所示，各预测变量的重要性由高到低排列分别为：NumberCarsOwned，TotalChildren，YearlyIncome，Age，Region，CommuteDistance，HouseOwnerFlag，MaritalStatus，NumberChildrenAt

19、Home，Gender，有上述权重我们可以看出NumberCarsOwned变量是最重要的预测变量，权重最大，其次分别为TotalChildren、YearlyIncome、Age和Region，因此这五个变量将作为决策树的重要分支用于目标预测，而Gender是最不重要的预测变量，所占权重只有0.01。图19 预测变量重要性排序图20决策树中树干决策树中树干“BikeBuyer”两个类别的比例各自接近50%，说明抽取样本的分布比较均匀，结果具有一定的分析意义。从上面我们也可以看出，抽取的样本数为5644。P值0.001表示样本通过显著性检验。见图20。以下是根据“NumberCarsO

20、wned”变量分出的第一层枝干，可以看到拥有车辆数量小于等于1的情况下，客户偏向于购买自行车；而拥有车辆数量大于1的情况下，客户选择不购买自行车。联系实际，如果客户出行时有二至四辆代步小汽车，那通常不会骑自行车出门，购买自行车的可能性就比较低。图21 决策树第二层树枝模型的分析结果如图22所示。由于我们的关注点在于哪些类型的是购买自行车的潜在客户，所以以下仅选取“NumberCarsOwned”变量值为0或1的情况进行下一步分析。“NumberCarsOwned”变量第一层枝干之下是根据“Age”变量分出的第二层枝干，拥有汽车数量为0且年龄在49岁以下的客户偏向于购买自行车，而年龄高于49

21、岁的客户可能由于身体状况等问题不便骑自行车出门而消费可能性不大。拥有汽车数量为1且年龄在40到61岁之间的客户偏向于购买自行车。“NumberCarsOwned”变量值为0 的情况下，“Age”变量第二层枝干之下的第三层分支分别为“YearlyIncome”和“Region”，其中“YearlyIncome”之下有第四层分支“TotalChildren”。 12 / 13 根据分析结果，拥有汽车数量为0且年龄在46至49岁、居住在“Europe”和“Pacific”之间的客户偏向于购买自行车。 “NumberCarsOwned”变量值为1的情况下，“Age”变量第二层枝干之下的第三层分支分别为

22、“EnglishOccupation”、“CommuteDistance”、“HouseOwnerFlag”和“MaritalStatus”，其中“MaritalStatus”之下有第四层分支“TotalChildren”。拥有汽车数量为1且年龄在46到49岁之间、平时出行路程在两公里以内的客户偏向于购买自行车。拥有汽车数量为1且年龄在53到61岁之间、家中没有孩子的已婚客户偏向于购买自行车。根据分析结果，该公司可以针对拥有汽车数量小于等于1且年龄在61岁以下的客户制定营销计划，以下三类客户应该单独制定有针对性的营销计划才能提高自行车的销售量：拥有汽车数量为0且年龄在46至49岁、居住在“Europe”和“Pacific”之间的客户；拥有汽车数量为1且年龄在46到49岁之间、平时出行路程在两公里以内的客户；拥有汽车数量为1且年龄在53到61岁之间、家中没有孩子的已婚客户。图22模型分析结果 13 / 13