数据挖掘与商务智能技术.ppt
第6章 数据挖掘与商务智能技术,6.1 商务智能概述,6.1.1 商务智能技术的发展商务智能的定义商务智能是指透过资料的萃取、整合及分析,支持决策过程的技术和商业处理流程,其目的是为了使使用者能在决策的时候,尽可能得到更好的协助。商务智能是运用数据仓库、在线分析和数据挖掘技术来处理和分析数据的技术,它允许用户查询和分析数据库,进而得出影响商业活动的关键因素,帮助用户做出更好、更合理的决策。,6.1 商务智能概述(续),6.1.1 商务智能技术的发展(续)商务智能的定义(续)商务智能是通过利用多个数据源的信息以及应用经验和假设,来促进对企业动态性的准确理解,以便提高企业决策能力的一组概念、方法和过程的集合。商务智能是通过获取与各个主题相关的高质量和有意义的信息来帮助人们分析信息、得出结论、形成假设的过程。,6.1 商务智能概述(续),6.1.2 商务智能与管理决策商务智能技术能够帮助企业实现商业信息收集和处理的自动化,以降低运营成本;商务智能能够帮助企业真实地分析财务状况和盈利水平,规范企业的业务行为和管理行为,使企业的管理决策实现由人为经验型到科学决策型转变;,6.1 商务智能概述(续),6.1.2 商务智能与管理决策(续)使用商务智能可以使企业深入了解自己的客户并保持稳定的客户群;商务智能的引人可以帮助企业整合这些集成应用系统,使这些相对独立、各自为战的系统发挥更大的作用,使数据信息得到更有效的利用。,6.1 商务智能概述(续),6.1.3 商务智能的大众化,6.1 商务智能概述(续),6.1.3 商务智能的大众化,6.1 商务智能概述(续),6.1.3 商务智能的大众化,纽约时报是美国新闻界的领头羊和风向标。在IT技术的应用方面,它不惜重金。2009年,其IT研发部门宣布,将围绕实时分析、智能预测和用户互动三大IT技术来提高新闻发布和时事分析的质量。这三大技术,都在不同程度上涉及到商务智能。,6.2 商务智能过程,6.2.1 知识发现知识发现的特征知识模式是使用一种形式化语言来进行的表达,表达描述了事实集合的子集中的一种显著的事实。通过某种知识发现方法得到一个顾客细分的结果子集为41岁顾客,42岁顾客,48岁顾客,43岁顾客,64岁顾客,可以归纳为“40岁之上的顾客”或者“中年以上的顾客”等。知识发现强调模式的有效性、新颖性、潜在有用性以及最终能被理解。,6.2 商务智能过程(续),6.2.2 知识发现过程1、理解所要进行研究的领域、与之相关的以前的知识、以及用户的目标;2、创建/选择目标数据集合;3、数据清理和预处理;4、数据缩减和投影;5、选定数据挖掘任务;6、选择数据挖掘算法;7、数据挖掘过程;8、对挖掘出来的模式进行解释;9、完善和巩固所发现的知识。,6.2 商务智能过程(续),6.2.3 知识表达形式与数据挖掘数据挖掘方法分类分析例如信用卡用户可以分为按时还款客户和拖欠还款客户等。回归分析根据历年的劳动力水平,总投资等因变量来回归得到与GDP有关的回归模型方程,进一步用以预测。关联规则 如“年轻顾客会购买Levis牛仔裤”,“购买信息系统一书的顾客经常会购买C语言一书”。聚类分析 将相似的对象聚集在一起的一种分析方法。,6.2 商务智能过程(续),6.2.4 数据预处理(1)数据集整理将相关的数据都整理在一个或多个二维表中;注意数据的一致性以及完整性。(2)数据采样通过随机采样等方法从海量数据中抽取少量的记录;采样只能在记录维度上,而不能在属性维度上。(3)数据清洗将不必要的属性剔除;修正或删除有明显错误和冲突的数据;识别异常值。,6.2 商务智能过程(续),6.2.4 数据预处理(续)(4)缺失数据处理缺失值指的是应该有但却没有的数据;采用该属性的平均值或是众数替代;采取回归或神经元网络等技术来进行计算和预测相应的数值;利用软计算方法来处理缺失值。(5)初步统计分析描述均值,中位数,众数,最大值,最小值,标准差,数据个数;两两相关系数、数据直方图等。,6.3 数据挖掘方法,6.3.1 分类分类分析是对对象的特征进行分析,并将之归类到已定义类中。分类分析的过程首先,基于训练数据集,采用分类算法来构造分类器;训练数据集指一个已有的数据集,其中每条记录都已经属于一个已知的类别中。其次,使用分类器对新数据集进行分类。,6.3 数据挖掘方法(续),6.3.1 分类(续)分类分析的评估标准速度:即生成和使用分类器的计算花费;鲁棒性:即给定噪音数据,分类器能够正确预测的能力;可伸缩性:即在大量数据规模时,有效构造分类器的能力;可解释性:及通过训练得到的分类器可理解和被解释的层次和水平。,6.3 数据挖掘方法(续),6.3.2 聚类聚类分析是将一个数据对象的集合按照某种标准进行划分,但是要划分的类是未知的。一个聚类内部的数据对象按照该标准具有极高的相似性,而类与类之间的数据对象的相似性很低。如猫和狗、动物和植物。聚类分析软件:SPSS、SAS等。,6.3 数据挖掘方法(续),6.3.2 聚类(续)聚类的局限性对数据要求严,要聚类结果要明确,就需分离度很好的数据。所有聚类方法分析的仅是简单的一对一的关系,可能忽视商务和经济系统多因素和非线性的特点。,6.3 数据挖掘方法(续),6.3.3 关联规则大规模客户交易数据库中会存在着数据项之间所潜在的相互关系的知识模式。如“年轻顾客会购买Levis牛仔裤”,“购买信息系统一书的顾客经常会购买C语言一书”等。关联规则挖掘已经成为商务智能中引人注目且发展相当迅速的分支。,6.4 复杂类型数据挖掘,6.4.1 空间数据挖掘空间数据包括:地图,遥感图片,医学图像等。空间数据的特点包括距离、位置、色块、气温等信息。通常按照复杂、多维的空间索引结构组织数据。,6.4 复杂类型数据挖掘(续),6.4.1 空间数据挖掘(续)空间数据挖掘是指对空间中非显式存在的知识、空间关系或其他有意义的模式等进行提取,需要综合数据挖掘与空间数据库技术。例如,通过对地质断裂带应力分析可以推断出哪些地方近期发生地震的概率较高,这个挖掘过程中,不但需要对地址断裂带的地理位置数据进行处理,还需要结合地震历史数据和时间数据进行挖掘。,6.4 复杂类型数据挖掘(续),6.4.2 多媒体数据挖掘多媒体数据包括:音频数据、视频数据、图像数据等。典型的多媒体数据库系统包括Google Earth,百度图像,人类基因数据库等。如在反恐档案和追踪系统中,应用恐怖份子图像查询和搜索,音频匹配与语音识别等方面。,6.4 复杂类型数据挖掘(续),6.4.3 时序数据和序列数据挖掘时序数据库是指由随时间变化的序列值或事件组成的数据库,即每个数据对象都有一个相应的时间属性值。如,股票市场的每日行情等。时序数据库和序列数据库挖掘的主要内容包括趋势分析,相似性搜索以及序列模式挖掘。,6.4 复杂类型数据挖掘(续),6.4.4 文本数据挖掘文本数据来自各种数据源,如新闻文章、研究论文、电子书籍、电子邮件和Web页面等。文本数据库中存储最多的数据是半结构化数据,它既不是完全结构化的也不是完全无结构。例如,一个电子邮件中即包括标题、作者、出版日期、长度和时间等结构化数据,也会包含大量非结构化数据内容,如内容文本和摘要等。Google和百度搜索引擎就是典型的文本挖掘的系统应用。,6.4 复杂类型数据挖掘(续),6.4.5 网络挖掘网络数据特点:复杂性更大,网络数据具有极强的动态性,用户需求多种多样。网络数据挖掘应用网页有效排序链接结构挖掘Web文档的自动分类和组织Web记录挖掘,6.5 商务智能应用与发展趋势,6.5.1 商务智能的决策考量应用商务智能需要考虑的因素要根据企业自身的特点考虑是否应用商务智能技术,以及构建怎样的商务智能系统,切忌盲目跟风;树立商务智能技术应用的成本收益观,切不可盲目认为只要构建了自己的商务智能系统,就会获得“一本万利”的效果;应用商务智能技术既要充分考虑技术因素,还要注重相应企业文化及理念的培育;建立完善的企业信息系统,做好实施商务智能的基础性工作。,6.5 商务智能应用与发展趋势(续),6.5.2 商务智能系统框架和产品商务智能和数据挖掘工具分类:通用单任务类 通用多任务类(最常用)面向专门领域类,6.5 商务智能应用与发展趋势(续),6.5.2 商务智能系统框架和产品(续),图 61 商务智能系统架构示意图,6.5 商务智能应用与发展趋势(续),6.5.3 商务智能的应用(1)金融数据挖掘与商务智能利用分类分析方法对贷款偿还进行预测,利用回归分析方法对收益率进行预测,利用聚类和分类方法对目标市场客户进行分析和归类;利用关联规则分析方法对金融欺诈进行分析,等等。,6.5 商务智能应用与发展趋势(续),6.5.3 商务智能的应用(续)(2)营销与客户关系管理利用聚类和分类分析方法识别顾客购买行为,利用关联规则分析发现顾客购买模式,利用序列分析发现顾客购买趋势,利用分类分析方法对顾客忠诚进行分析,等等。(3)电信业中的数据挖掘利用聚类分析方法对盗用和异常模式进行分析,利用序列分析方法对通讯模式进行分析,利用关联规则方法对客户行为模式进行分析,6.5 商务智能应用与发展趋势(续),6.5.4 商务智能的发展趋势商务智能技术标准商务智能系统如要得到发展,目前面临的一个瓶颈就是缺乏技术标准。各大主流商务智能厂商,如IBM,Oracle,SAS,Business Objects等都不断推出自己的商务智能系统,所采用的技术标准差异很大。有些学者提出了类似SQL的DMQL语言等技术标准,试图推动商务智能技术标准,但是还是处于初步阶段。,6.5 商务智能应用与发展趋势(续),6.5.4 商务智能的发展趋势(续)移动商务智能移动网络已经逐渐成为了与传统互联网并驾齐驱的大网络环境,而且在移动网络上的服务和数据类型逐渐丰富。移动网络和传统互联网也实现了无缝融合。下一阶段,移动商务智能将会成为商务智能乃至信息系统发展的重点。,本章习题,什么是数据挖掘?数据挖掘在商务智能应用中有何地位与作用?数据挖掘包括哪些主要的方法?这些方法各有怎样的特点?适用于怎样的决策分析需求?数据挖掘方法具有怎样的发展趋势?商务智能应用系统包括哪些主要的结构和功能?如何才能建立并实现有效的商务智能应用?,本章课外实践,课程实践2 案例分析客户数据分析通过对给出的客户数据,分析理解客户关系管理的价值,题目自拟;根据给定的案例资料和数据,采用叙述、数字或图表的形式分析客户价值,言简意赅,1000-3000字;小组完成,每个人都需要参与工作;自荐3个小组在11月4日的课上展示作业。,