数据仓库与数据挖掘课程设计.docx
通信与信息工程学院数据仓库与数据挖掘分析课程设计班 级:XXXX姓 名:XXX学 号:XXXXXX指导教师:XXXXX设计时间:XXXXX成 绩:评 语: 通信与信息工程学院 二一X年工作完成统计表:组员完成任务说明自评教师评定XX1、聚类分析和关联分析建模2、相关图表分析3、撰写相关内容报告2XX1、决策分析和聚类分析挖掘建模2、相关图表分析3、撰写相关内容报告4XXX1、 顺序分析与聚类分析模型和目标邮递方案2、 相关图表分析处理3、 撰写相关内容报告4XX1、 聚类分析和决策分析模型2、 撰写相关内容报告3、 相关图表分析处理 教师签名:目录1绪论11.1项目背景11.2提出问题12数据仓库与数据集市的概念介绍12.1数据仓库介绍12.2数据集市介绍23数据仓库33.1数据仓库的设计33.1.1数据仓库的概念模型设计43.1.2数据仓库的逻辑模型设计53.2 数据仓库的建立53.2.1数据仓库数据集成53.2.2建立维表84.OLAP操作105.数据预处理125.1描述性数据汇总125.2数据清理与变换136.数据挖掘操作136.1关联规则挖掘136.2 分类和预测176.3决策树的建立186.4聚类分析227.总结258.任务分配261、 绪论 1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。1.2 提出问题对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。2、数据库仓库与数据集的概念介绍2.1数据仓库数据仓库介绍: 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据集介绍: 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。3、 数据仓库3.1 数据仓库的设计 3.1.1数据仓库的概念模型设计概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。 3.1.2数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。3.2 数据仓库的建立 3.2.1数据仓库数据集一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。为了提高速度,对数据集市中的数据一般都建立大量的索引。换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。3.2.2建立维表维是分析问题的角度,度量是要分析的问题。多维视图:用包含度量和维的表的数据结构可以创建一个多维视图,用试题和维创建的多维模型称为星型模型,星型模型生成的主要表格被称为事实表。事实表的属性值几乎都有连续值。事实表是规范化的。与维表不同不是随时间的推移变化,而是不断变大。维表:星型模型也具有非常小的表,用来装载描述信息。维表是逆规范化的。如果把维表置于第二范式中,这样的表称为雪花模型。维表包括主键,通常对应事实表的外部键。如果维表的主键不在实事表中,这个主键字便被称作退化的维。维表的分类:(1)结构维:表示在层内组成中的信息量度。如客户地理位置维、时间维、产品维等。结构维包含一组相关的成员,组成结构维的属性之间有一对多的关系。加法度量:可以相加的属性值(2)信息维:计算字段如利润额、平均值等(每个商品的利润)。(3) 分区维:以同一结构生成两个或多个维。如:按时间分区,预测额度、实际额度等。(4)分类维:通过对一个维的属性值分组而创建。如果工资收入500-2000;200-4000;5000-7000;等创建维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上的事实表。基本有些充当维事实表。星型模型:所有信息维都放在同一个维表中。维表信息包含一个唯一的标识符(ID)和通过这个维表建立的所有维所需的属性。星型模型由小的维表与大的事实表组成,多称为“小表和大表”。事实表一般是标准表。雪花模型:把信息分为3种标准格式。产品表、类别表、子类别表。把这些信息放到一起需要一定数据的连接。雪花模型比星型模型效率低,占空间少。所有的事实表都有一个与之相关的时间维表。4. OLAP操作联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。OLAP展现在用户面前的是一幅幅多维视图。维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)。度量(Measure):多维数组的取值。OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)5. 数据预处理 5.1描述性数据汇总对于许多数据预处理任务,希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。这些描述性统计量有助于理解数据的分布。5.2数据清理与变换数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。 通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。6.数据挖掘操作 个人的两个作业:6.1关联规则挖掘 1) 需求分析 关联规则挖掘是数据挖掘和知识发现中的一个重要问题,自提出以来得到了广泛的研究.目前关联规则挖掘算法可以分为广度优先算法和深度优先算法两大类,每类都有经典高效的算法提出.但是,这些算法大都是从其自身的角度来描述的,缺乏系统的分类和比较.文章从关联规则挖掘的形式化定义出发,给出频集挖掘的解空间,对两大类算法中的几种经典算法进行了概述,并分析了它们的优缺点.2) 概要设计关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。关联规则挖掘的第一阶段必须从chaoshi集合中,找出所有高频项目组。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度,以一个包含A与B两个项目的2-itemset为例,我们可以经由公式求得包含A,B项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则A,B称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。3) 详细设计在准备用于关联规则模型的数据时,应理解特定算法的要求,其中包括所需要的数据量以及使用数据的方式。关联规则模型的要求如下:· 单个key列每个模型都必须包含一个数值或文本列,用于唯一标识每个记录。不允许复合键。· 单个可预测列一个关联模型只能有一个可预测列。通常它是嵌套表的键列,例如列出已购买的产品的字段。这些值必须是离散或离散化值。· 输入列输入列必须为离散列。关联模型的输入数据通常包含在两个表中。例如,一个表可能包含客户信息,而另一个表可能包含客户购物情况。您可以使用嵌套表将该数据输入到模型中。有关嵌套表的详细信息,请参阅嵌套表(Analysis Services 数据挖掘)。支持”(有时候将其称为“频率”)表示包含目标项目或项目组合的事例的数目。只有至少具有指定支持量的项目才可包含在模型中。“常用项集”指满足以下条件的项目集合:该项目集合所具有的支持超过由 MINIMUM_SUPPORT 参数定义的阈值。例如,如果项集为 A,B,C而且每一个MINIMUM_SUPPORT 值为 10,则每个单个项目 A、B 和 C 必须均可在要包括在模型中的至少 10 个事例中找到,而且项目 A,B,C 的组合也必须可在至少 10 个事例中找到。注意 通过指定项集的最大长度(这里长度指项目数目),还可控制挖掘模型中项集的数目。 默认情况下,对任何特定项目或项集的支持均表示包含该项目或项集的事例的计数。不过,还可以将 MINIMUM_SUPPORT 表示为占数据集的总事例的百分比,方法是键入数字作为小于 1 的小数值。例如,如果指定 MINIMUM_SUPPORT 值为 0.03,就意味着至少有 3% 的数据集总事例必须包含该项目或项集以包含在模型中。应当试用模型,以确定是使用计数还是百分比更有意义。 恰恰相反,规则的阈值不用计数或百分比表示,而用概率(有时称为“置信度”)表示。例如,如果项集 A,B,C 和项集 A,B,D 均出现在 50 个事例中,而项集 A,B 出现在另外 50 个事例中,则很明显,A,B 不是 C 的强预测因子。因此,为了将某个特定结果对所有已知结果加权,Analysis Services 通过以下方法来计算单个规则(例如 If A,B Then C)的概率:用对项集 A,B,C的支持除以对所有相关项集的支持。 可以通过设置 MINIMUM_PROBABILITY 的值来限制模型生成的规则的数目。Analysis Services 为创建的每个规则输出一个指示其“重要性”(也称为“提升”)的分数。项集和规则的提升重要性的计算方法不同。项集重要性的计算方法为项集概率除以项集中各个项的合成概率。例如,如果项集包含 A,B,Analysis Services 首先计算包含此 A 和 B 组合的所有事例的数目,并用此事例数除以事例总数,然后将得到的概率规范化。 规则重要性的计算方法为:在已知规则左侧的情况下,求规则右侧的对数可能性值。例如,如果规则为 If A Then B,则 Analysis Services 计算具有 A 和 B 的事例与具有 B 但不具有 A 的事例之比,然后使用对数刻度将该比率规范化。功能选择 Microsoft 关联规则算法不执行任何一种自动功能选择,而是提供参数来控制其自身使用的数据。上述情况可能包括对每个项集大小的限制,或对将项集添加到模型中所需的最大和最小支持的设置。· 若要筛选出太常见因而不受关注的项目和事件,请减小 MAXIMUM_SUPPORT 的值以将常见项集从模型中删除。· 若要筛选出罕见的项目和项集,请增大 MINIMUM_SUPPORT 的值。· 若要筛选出规则,请增大 MINIMUM_PROBABILITY 的值。· 主要步骤:(1)定义多维数据集在该任务中,将使用多维数据集向导来定义一个初始 Analysis Services 多维数据集。(2)定义维度,向维度中添加属性,在该任务中,将使用维度向导来定义维度。定义维度层次结构,(3)修改度量值,和增加新的度量值在此任务中,为多维数据创建新的命名计算定义操作,钻取使用管理角色(7)部署 Analysis Services 项目结果分析关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组A,B所产生的规则AB,其信赖度可经由公式求得,若赖度大于等于最小信赖度,则称AB为关联规则。就chaoshi而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则购买数量,购买商品序号,满足下列条件,将可接受购买数量,购买商品序号的关联规则。从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。5) 提交结论和执行结果6.2 分类和预测 6.2聚类分析设计内容:根据超市现有数据,用决策树、依赖性等分析方法分析出哪些条件对顾客会员卡的办理起着决定性的影响,哪些产品的销量最好,哪些产品应该摆放在一起提高销售量,哪些产品应该适当促销提高收入。同时还做了会员的丢失率和会员的贡献度,平均交易间隔时间和次数等问题的分析, 设计思路: 将数据导入sqlserver2008中后,可以利用analysis servers对数据进行操作,进行多维数据集的创建及维度表等的相关操作,同时运用MDX及sql语言来发掘数据的关联,得到相关问题的答案。工作流程:1.将chaoshi.xlx表格中的数据导入sqlserver 2008企业管理器中的chaoshi数据库中;2. 将chaoshi数据源在analysis里面更新;3.创建chaoshi多维数据集; 4.我们采用星型结构创建维度,因此要创建事实表和维度表;5. 创建多维数据集成功后进行存储设计处理;6. 处理完成之后,在“处理进度”和“处理挖掘结构 - 顺序分析和聚类分析”对话框中,单击“关闭”。7. 在,“顺序分析和聚类分析”模型已经生成,可以使用数据挖掘设计器的“挖掘模型查看器”选项卡中的 Microsoft 顺序分析和聚类分析查看器浏览该模型了。Microsoft 顺序分析和聚类分析查看器包括五个选项卡:“分类关系图”、“分类剖面图”、“分类特征”、“分类辨别”和“状态转换”。 8. “分类关系图”选项卡 “分类关系图”选项卡以图形方式显示在数据库中发现的算法的分类。关系图中的布局表示分类之间的关系,其中相似的分类分在一起。默认情况下,节点颜色的明暗度表示分类中所有事例的密度,节点越暗,包含的事例越多。可以更改节点明暗度代表的含义,使其表示属性和状态。例如,在“明暗度变量”列表中选择“模型”,并在“状态”列表中选择“购买商品序号”。9. “分类剖面图”选项卡 “分类剖面图”选项卡显示每个分类中存在的序列。分类列在“状态”列右边的单个列中。在查看器中,Model.samples 行表示序列数据,Model 行说明了分类中各项的总体分布。Model.samples 行的每个单元中颜色序列的每个线条表示分类中随机选中的用户的行为。单个序列直方图中的每个颜色代表一个模型。10. 分类特征”选项卡 “分类特征”选项卡汇总了分类中各状态间的转换,其中的各栏说明了所选分类属性值的重要性。例如,在分类 4 中,其中一个最重要的特征是客户倾向于先在4月进行购物。11. 分类辨别”选项卡 使用“分类辨别”选项卡,可以比较两个分类,确定模型及其倾向的分类。该选项卡包括四个列:“变量”、“值”、“分类 1”和“分类 2”。如果分类倾向于特定模型,则在“变量”列中相应模型行的“分类 1”或“分类 2”列中将出现一个蓝条。蓝条越长,模型越倾向于该分类。例如,在查看器中使用“分类辨别”选项卡,可以通过在“分类 1”中选择分类 2 以及在“分类 2”中选择分类 5,来比较分类 2 和分类 5。12. 状态转换”选项卡 在“状态转换”选项卡上,可以选择分类并浏览其状态转换。每个节点都表示模型的一个状态。线条表示状态间的转换,每个节点都基于转换的可能性。背景色表示分类中节点的频率。例如,从“分类”中选中“分类 3”,选中 商品ID节点,然后将“所有链接”滑块降低几格。 6.3 聚类分析设计内容:根据超市现有数据,用决策树、聚类分析等分析方法分析出哪些条件对顾客购买商品的影响,哪些产品的销量最好,哪些产品应该摆放在一起提高销售量,哪些产品应该适当促销提高收入。平均交易间隔时间和次数等问题的分析,设计思路: 将数据导入sqlserver2008中后,可以利用数据挖掘教材对数据进行操作,进行数据挖掘,数据模型设计等的相关操作,同时运用它对数据的决策树设计,聚类分析等分析数据间的关系。工作流程:1.将超市execel表格中的数据导入sqlserver 2008企业管理器中的sqlserver 2008数据库中;2.将超市数据源在analysis里面更新;3.创建超市数据的挖掘模型。 4.首先是对两个表销售流水表和品牌表进行模型设计。 5.创建多维数据集成功后进行存储设计处理; 6.浏览创建好的数据挖掘模型的下钻; 7.创建决策树、聚类分析的数据挖掘模型,分析超市如何运用OLAP和依赖性分析来了解顾客购买习惯和商品之间的关联,正确的摆放商品位置以及如何运用促销手段对商品进行销售。1.销售流水表(聚类分析)分类关系图 从图中可以看出只有分类5和分类8只有最强的关联性,无论两个的关系如何变化,只要有5商品则必然有8商品,所有链接的关系越大,则他们的关系越复杂。各个商品的关系也越来越明确。分类剖面图从分类剖面图可以看出各个商品在总的商品中所占的比例,为我们分析数据提供一定的方便。分类特征该表展示了所有商品的属性在所有类型中所占的比例,从而分析各个属性的影响因素。分类对比6.4决策树决策树关系图依赖关系网络表示了商品id和购买数量的绝对的关系,及无论怎样这两个都从在一定的 关系。2.品牌表(聚类分析)分类关系图分类剖面图从图中可以看出只有分类和分类3只有最强的关联性,无论两个的关系如何变化,只要有2商品则必然有3商品,所有链接的关系越大,则他们的关系越复杂。各个商品的关系也越来越明确。分类特征从分类剖面图可以看出各个品牌在总的商品中所占的比例,为我们分析数据提供一定的分类特征方便分类对比(2)(2)决策树决策树关系图6.5 顺序分析和聚类分析挖掘1.需求分析 分类和预测 是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。然而,分类是预测分类标号(或离散值),而预测建立连续值函数模型。2.概要设计 相关性分析:数据中许多属性可能与分类和预测任务不相关。此外,其它属性可能是冗余的。因此,可以进行相关分析,删除学习过程中不相关或冗余属性。理想地,用在相关分析上的时间,加上从“压缩的”结果子集上学习的时间,应当少于由原来的数据集合上学习所花的时间。因此,这种分析可以帮助提高分类的有效性和可规模性。预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。速度:这涉及产生和使用模型的计算花费。强壮性:这涉及给定噪音数据或具有遗漏值的数据,模型正确预测的能力。可规模性:这涉及给定大量数据,有效地构造模型的能力。可解释性:这涉及学习模型提供的理解和洞察的层次。3.详细设计数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类或概念集。通过分析由属性描述的数据库元组来构造模型。第二步使用模型进行分类。首先评估模型(分类法)的预测准确率,主要步骤:1. 在 Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖掘结构”,再选择“新建挖掘结构”。系统将打开数据挖掘向导。2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。3. 在“选择定义方法”页中,选择“从现有关系数据库或数据仓库”,再单击“下一步”。 4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选择“Mi crosoft 顺序分析和聚类分析”,再单击“下一步”。 “选择数据源视图”页随即显示。默认情况下,“可用数据源视图”下的 chaoshi为选中状态。5在“指定表类型”页上,选中 “商品分类表” 旁的“事例”复选框,选中“品牌表”表旁的“嵌套”复选框。单击“下一步”。6.在“指定定型数据”页上,通过按如下所示复选框如下图7.在“指定列的内容和数据类型”页上,验证已经按如下所示为每个列设置了单击下一步8.在“完成向导”页的“挖掘结构名称”中,9.在“挖掘模型名称”中,单击“完成”。 此时将打开数据挖掘设计器,显示刚创建的商品信息表 挖掘结构。处理挖掘模型:在 Business Intelligence Development Studio 的“挖掘模型”菜单上,选择“处理挖掘结构和所有模型”。此时将打开“处理挖掘结构 - 顺序分析和聚类分析”对话框。单击“运行”。系统将打开“处理进度”对话框,以显示有关模型处理的信息。模型处理可能需要一些时间,具体取决于您的计算机。1. 处理完成之后,在“处理进度”和“处理挖掘结构 - 顺序分析和聚类分析”对话框中,单击“关闭”。浏览顺序分析和聚类分析模型现在,“顺序分析和聚类分析”模型已经生成,可以使用数据挖掘设计器的“挖掘模型查看器”选项卡中的 Microsoft 顺序分析和聚类分析查看器浏览该模型了。Microsoft 顺序分析和聚类分析查看器包括五个选项卡:“分类关系图”、“分类剖面图”、“分类特征”、“分类辨别”和“状态转换”。“分类关系图”选项卡 “分类关系图”选项卡以图形方式显示在数据库中发现的算法的分类。关系图中的布局表示分类之间的关系,其中相似的分类分在一起。默认情况下,节点颜色的明暗度表示分类中所有事例的密度,节点越暗,包含的事例越多。可以更改节点明暗度代表的含义,使其表示属性和状态。”。分类关系图显示分类,明暗变量选购买数量,状态选平均值,显示如图。“分类剖面图”选项卡 “分类剖面图”选项卡显示每个分类中存在的序列。分类列在“状态”列右边的单个列中。行的每个单元中颜色序列的每个线条表示分类中随机选中的用户的行为。单个序列直方图中的每个颜色代表一个产品模型。“分类特征”选项卡 “分类特征”选项卡汇总了分类中各状态间的转换,其中的各栏说明了所选分类属性值的重要性。“分类对比”选项卡 使用“分类辨别”选项卡,可以比较两个分类,确定模型及其倾向的分类。该选项卡包括四个列:“变量”、“值”、“分类 1”和“分类 2”。如果分类倾向于特定模型,则在“变量”列中相应模型行的“分类 1”或“分类 2”列中将出现一个蓝条。蓝条越长,模型越倾向于该分类。“状态转换”选项卡 在“状态转换”选项卡上,可以选择分类并浏览其状态转换。每个节点都表示模型的一个状态。线条表示状态间的转换,每个节点都基于转换的可能性。背景色表示分类中节点的频率。4.总结:分类和预测据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。然而,分类是预测分类标号(或离散值),而预测建立连续值函数模型。数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类或概念集。通过分析由属性描述的数据库元组来构造模型。或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。第二步使用模型进行分类。首先评估模型(分类法)的预测准确率评估分类准确率的多种方法。从而对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。6.6决策树的建立 二、目标邮递分析1.需求分析以视图方式建立数据模型可简化联机业务分析,提高查询性能。通过创建数据源视图,Analysis Manager 可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。2. 概要设计(1) 利用给定的数据库,新建一个数据挖掘项目;(2) 依次建立数据源,数据源视图,维度,多维度数据集,挖掘机构;(3) 选择不同的算法对挖掘的结果进行分析,预测.(4) 根据以上分析,提出可以执行的决策3.详细设计(1) 在analysis manager 的解决资源方案管理器中右击“挖掘结构”,在列表中选择“新建挖掘结构”;在使用数据挖掘页面,单击“下一步”;在“选择定义方法”页面,“使用何种方法定义挖掘结构?”框中选择“从现有关系数据库或数据仓库”,单击“下一步”;(2) 在“创建数据挖掘结构”页面,“你要使用何种数据挖掘技术”的下拉列表中选中“Microsoft决策树”,单击“下一步”;(3) 在“选择数据源视图”页面确保“可用数据源视图”框中选中“超市数据”,单击“下一步”;(4) 在“指定表类型”页面,“输入表”框:“事例”选择“销售流水表1019”,单击“下一步”;在“指定数据类型”页面,“挖掘模型结构”框中,“键”选择“流水号”,“输入”选择“购买商品序号、商品ID”,“可预测”选择“购买数量、总额,单击下一步:(5) 在“指定列的内容和数据类型”页面,单击“检测”,单击“下一步”;(6) 在“创建测试集”页面,单击“下一步”;(7) 在“完成向导”页面,设置“挖掘结构名称、挖掘模型名称”,“挖掘结构名称”后选择“允许钻取”,单击“完成”;挖掘结构(17)挖掘模型:(19) 购买数量决策树:(20) 购买数量的依赖关系图:总结:决策树分析法是常用的风险分析决策方法。该方法是一种用树形图来描述各方案在未来收益的计算。比较以及选择的方法,其决策是以期望值为标准的。人们对未来可能会遇到好几种不同的情况。每种情况均有出现的可能,人们目前无法确知,但是可以根据以前的资料来推断各种自然状态出现的概率。在这样的条件下,人们计算的各种方案在未来的经济效果只能是考虑到各种自然状态出现的概率的期望值,与未来的实际收益不会完全相等。6.7决策树实验分析:1. 实验目标使用SSAS进行决策树模型挖掘实验。2. 实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。3.实验内容利用tomcat的表中销售流水表分析顾客购买商品的特征分布4.实验步骤 (1)进入项目的新增挖掘结构,使用数据挖掘向导来建立,进入“数据挖掘向导”后点击“下一步”按钮;(2)从现在的关系型数据库或数据仓库中读取数据,即为默认值,故直接在这个页面点击“下一步”按钮;(3)到选择挖掘技术部分选择“Microsoft决策树”后,点击“下一步”按钮;(4)选取“tomcat”数据库后,点击“下一步”按钮;(5)选取“销售流水表”表后,点击“下一步”按钮;(6)选择所需输入的变量与预测变量,以及索引键以商品ID为索引键,销售总额为预测变量,并按下建议键以了解预测变量与其他变量之间的相关性,可找出较具影响力的输入变量,之后点击“完成”按钮,这时回到原来的页面,点击“下一步”按钮(7)此时程序会提出一些变量的相关系数,用户可自行选择输入与否;(8)显示正确的数据属性,此时修正了一个变量的数据属性,完成后点击“下一步”按钮;(9)更改挖掘结婚够的名称,点击“完成”按钮;(10)选择上方的挖掘模型查看器,程序问是否建立部署项目,选择“是”;(11)接下来点击“运行”按钮;(12)执行完以后点击“关闭”;(13)建模完成。生成数据挖掘结构接口包含挖掘结构,挖掘模型,挖掘模型查看器,挖掘准确性图表以及挖掘模型预测;其中在挖掘模型结构中,主要是呈现数据间的关联性以及分析的变量;(14)根据上面设置的参数,在挖掘模型查看器则呈现此树形结构;(16)对数据的分布进一步加以了了解,从“依赖关系网络”可以了解因变量与自变量间的关联性强弱程度。6.8聚类分析实验分析:1. 实验目标使用聚类分析模型挖掘实验。2. 实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。3.实验内容利用tomcat的表中销售流水表分析顾客购买商品的特征分布4.实验步骤 (1)进入项目的新增挖掘结构,使用数据挖掘向导来建立,进入“数据挖掘向导”后点击“下一步”按钮;(2)从现在的关系型数据库或数据仓库中读取数据,即为默认值,故直接在这个页面点击“下一步”按钮;(3)到选择挖掘技术部分选择“Microsoft聚类分析”后,点击“下一步”按钮;(4)选取“tomcat”数据库后,点击“下一步”按钮;(5)选取“销售流水表”表后,点击“下一步”按钮;(6)选择所需输入的变量与预测变量,以及索引键以商品ID为索引键,销售总额为预测变量,并按下建议键以了解预测变量与其他变量之间的相关性,可找出较具影响力的输入变量,之后点击“完成”按钮,这时回到原来的页面,点击“下一步”按钮(7)此时程序会提出一些变量的相关系数,用户可自行选择输入与否;(8)显示正确的数据属性,此时修正了一个变量的数据属性,完成后点击“下一步”按钮;(9) 更改挖掘结婚够的名称,点击“完成”按钮;(10)选择上方的挖掘模型查看器,程序问是否建立部署项目,选择“是”;(11)接下来点击“运行”按钮;(12)执行完以后点击“关闭”;(13)建模完成。生成数据挖掘结构接口包含挖掘结构,挖掘模型,挖掘模型查看器,挖掘准确性图表以及挖掘模型预测;其中在挖掘模型结构中,主要是呈现数据间的关联性以实验心得: 在本次实验中,从新建工作流一直到获得最终结果,整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解,特别是决策树模型应用的理解,同时,也学会了如何使用决策树通过建模和直观化显示发现数据库中的关系(即链接)以及利用这些链接与数据中的案例组相对应关系可以通过建模可详细研究这些组并描绘其特征,增强了运用决策树模型和聚类分析模型的能力。 通过这次学习让我意识到,对于数据我们不仅要能利用统计来分析它的规律,也要能会通过数据挖掘软件来挖掘数据当中的潜在信息,并且利用数据挖掘所得到的有利信息更好的服务于数据使用者。7.大总结 :坚持好一段时间,终于把完成了任务,通过这几次实验报告的实践操作,我收获很大,不但学习相关数据挖掘的知识,关于Microsoft Visual Studio2008了解更多,操作也比原来熟练多了。虽然过程中有点折磨过,但当你克服了,耐心去一步一步操作,那些烦躁的心情就会慢慢消失,还得要有耐心,认真的态度去操作,才能有结果