数据库新技术.ppt

上传人：小飞机

文档编号：6296479

上传时间：2023-10-14

格式：PPT

页数：54

大小：330.82KB

《数据库新技术.ppt》由会员分享，可在线阅读，更多相关《数据库新技术.ppt（54页珍藏版）》请在三一办公上搜索。

1、第11章数据库新技术,11.1 XML数据库,随着Web技术的快速发展，XML数据已经成为网络数据交换的基本形式，从而使XML发展成为网络数据标准。,11.1.1 XML与数据描述,XML（eXtended Markup Language，扩展标记语言）是W3C（World Wide Web Consortium，万维网联盟）制定的用于网络数据交换，并且自行定义标记的语言（网络数据交换标准）。XML和HTML（Hyper Text Markup Language，超文本标记语言）作为SGML（Standard Generalized Markup Language，标准通用标记语言）的子集，

2、XML吸取了SGML和HTML的优点。即：扩展性、描述性、简洁性、分离性和结构性等。XML的简单、开放、扩展、灵活、描述等特性，使得XML在数据库领域以及商业应用领域占据了重要位置。,11.1.1 XML与数据描述,XML文档是数据和标记及其数据描述的集合，而对XML数据的压缩、存储、索引、传输、交换和查询等管理技术则形成了XML数据库技术。即：XML文档（如图11-1所示）是数据集合，XML及其相关技术是数据库管理系统，DTD（Document Type Descriptors，文档类型定义）或者Schema是数据库模式设计，XQL（XML Query Language，XML查询语言）是数

3、据库查询语言，SAX（Simple API for XML，简单XML API）或者DOM（Document Object Model，文档对象模型）是数据库处理工具。XML数据库产品主要包括：中间件、支持XML的数据库、XML本源数据库、XML服务器、Wrappers和内容管理系统等。XML数据库主要用途概括：（1）有效管理XML数据，并提供XML数据的查询和修改功能。（2）高效集成基于Web的各种数据源。,11.1.1 XML与数据描述,XML 数据库主要包括两种类型：NXD（Native Xml Database，XML本源数据库）：专门对XML数据格式的文档进行存取管理和数据查询的数据

4、库技术。XED（Xml Enable Database，支持XML的数据库）：在传统数据库的基础上，通过增加对XML数据的映射功能，从而实现对XML数据进行存取管理的数据库技术。,11.1.2 XML数据模型,XML文档是XML数据库的数据区，是基本存储单元，是XML数据的存储格式。XML文档相当于关系数据库的表。XML文档由说明、元素、属性、处理指令和注释等组成。XML数据库的数据模型包括DTD和Schema等，用来描述XML数据的结构（相当于关系数据库的模式）。根据DTD和Schema可以存取XML数据。XML数据模型可以支持任意层次的数据嵌套，对半结构化数据提供了良好的支持。DTD规定元

5、素、属性、PCDATA（非嵌套字符型数据）及文档内容的顺序和嵌套关系等信息。DTD通常存入*.dtd文件，可被XML文档共享，因此DTD是对XML数据建立索引的主要方法。Schema 是W3C 推荐的XML 数据模型标准，Schema比DTD提供了更加严格的规范。例如：在DTD中，不支持参照约束；而在Schema中，则可以方便的进行参照约束控制。,11.1.3 XML查询与处理,常用的XML数据库查询语言是：XQL、XPath和XSLT。XQL是W3C提出的对XML文档进行信息检索的查询语言标准。XPath是W3C提出的描述数据元素在XML文档内部位置的标准。XSLT（eXtensible S

6、tylesheet Language Transformation）是对XML 数据进行转换的语言。XSLT与XML的关系，相当于SQL语言与关系数据库的关系。常用的XML数据库处理工具是DOM、JDOM和SAX等。DOM是对XML数据进行组织管理的标准和编程接口规范。JDOM是采用JAVA 语言实现的DOM。SAX是目前多数XML数据库使用的开发标准。SAX几乎支持所有的XML解析器。SAX与DOM相比，SAX 是轻量级的处理工具。,11.1.4 NXD,NXD作为直接对XML文档进行存取管理和数据查询的专用数据库技术，是通过基于XML文档的逻辑模型，来实现XML数据的存取。NXD分为：文本

7、类型和模型类型。基于文本的NXD是文本格式文件，是RDBMS的二进制大型对象（Binary Large Object，BLOB）或者特定文件格式。基于模型的NXD非文本格式文件，是根据文件构造内部模型，并将模型存储于数据库。其数据存取依赖于数据库。NXD数据库设计的可塑性好，变化空间较大NXD的关键技术：数据存储、查询处理、事务处理、代数系统和模式规范化。,11.1.4 NXD,NXD相对于传统数据库，具有如下特点：（1）有效管理半结构化Web数据。（2）提供对标签和路径的操作。传统DBMS不能对元素名称操作。（3）有序性。XML文档的内容是有顺序的，不许随便调整元素、属性、PCDATA的顺序

8、。缺点是有序性使得XML文档的查询操作比较复杂。（4）便利的层次化数据操作。（5）Web数据的交换能力。由于XML是标准的数据交换格式，因此NXD 能够存储和查询各种不同结构类型的文档，对异构环境的信息存取提供了良好的支持，为异构环境的数据集成提供了一种新的方法。总之，NXD适合管理复杂数据结构的数据集，对于XML格式的Web信息管理，采用NXD利于文档的存取和检索，能够提供高质量的全文搜索引擎，特别适合半结构化数据的管理；对于结构化数据管理，则RDBMS会更适宜。,11.1.5 XED,XED作为支持XML数据管理的数据库技术，是通过XML数据与DBMS数据的映射功能实现对XML数据的存取管

9、理。支持：SQL Server系列（例如：SQL Server 2008）、Access系列（例如：Access 2007）、IBM 的DB2 XML系列、Informix系列和Oracle系列（例如：Oracle 9i）等。XED产品基本均是使用DTD实现与关系数据的转换，而且对XML文档的查询符合XPath标准，执行查询的XED 核心是采用XQL标准。由于传统关系数据库的表与以数据为中心的XML文档，在数据结构上很类似，因此由XED管理的XML文档可以方便的存入关系数据库，同理关系数据库的表可以转换成XML文档。事实上，XED是在传统数据库的基础上增加了对XML数据的映射机制，通常只能对结

10、构化程度较高的XML文档进行管理，实现XML文档与传统数据库之间的映射。,11.1.5 XED,关键技术是XML文档与关系模式的映射与存储。（1）模型映射。需要把XML文档模型（即：文档树结构）映射为关系模式，使用关系模式表示XML文档的构造。（2）结构映射。需要把XML模式（或者DTD）映射为关系模式，使用关系模式表示XML文档的逻辑结构。利用RDBMS存储和查询XML数据的常用策略：（1）边模型映射法。（2）点模型映射法。（3）结构映射方法。（4）模式设计法。要求用户或者DBA自行设计用于存储XML文档的表结构；而表中的数据，则直接以XML文档方式发布，也可以由用户或者DBA使用XML查询

11、语言或者中间件定义关系对应的XML视图。,NXD和XED的优点和缺点对比,选择XML数据库的考虑方面,（1）针对格式复杂的，而且数据本身包含复杂层次关系，或者只有XML数据的情况，由于NXD对XML标准有更完备的支持，而且能够提供更好的访问性能，则可以选择NXD。（2）针对格式简单、内容比格式更重要的XML文档，特别是在传统数据库上需要提供XML访问接口的应用，则可以考虑选择XED。（3）针对数据安全要求较高的应用（例如：银行系统、财政系统、股票系统和金融系统的数据库），由于NXD在完整性控制、并发控制、数据恢复等传统数据库技术方面还需要进一步的检验，而建立在传统数据库上的XED相对更有优势，

12、因此建议选择XED。,11.2 数据仓库,数据库系统是以数据库为中心，进行联机事务处理（On Line Transaction Processing，OLTP）的技术，并得到了非常成功的广泛应用，但是却无法满足管理人员的决策分析需求。为此，在数据库技术的基础上，产生了以历史数据为中心的联机分析处理（On Line Analytical Processing，OLAP；关系数据库之父E.F.Codd 于1992年提出）技术，以及能够满足决策分析需要的数据仓库（Data Warehouse，DW）。,11.2.1 数据仓库的概念,从不同角度给出的数据仓库不同定义：（1）W.H.Inmon定义（创始

13、人）：数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持经营管理中的决策制定过程。（2）Informix定义（公司）：数据仓库将分布在企业网络中不同信息岛上的业务数据集成到一起，存储在一个单一的关系型数据库中，利用这种集成信息，可方便用户对信息的访问，更可使决策人员对一段时间内的历史数据进行分析，研究事务的发展走势。（3）SAS定义（软件研究所）：数据仓库是一种管理技术，旨在通过流畅、合理、全面的信息管理，达到有效的决策支持。,数据仓库的基本特征：,（1）主题性。从高层对系统数据，进行面向应用主题的综合、分类、分析和抽象。（2）集成性。对历史数据进行抽取，并进行清理、转化和装

14、载等加工处理和集成。（3）稳定性。数据仓库中的数据，通常是不可更新的。（4）时变性。随着时间的变化，需要不断增加新数据；同时删除确实无用的数据。（5）集合性。数据是以多维数据集合、关系集合、或者混合模式的数据集合进行存储的。不难看出，数据仓库是对原始数据进行多种处理，并且转换成面向主题的、集成的、稳定的、时变的综合数据集合，同时提供功能强大的分析工具，对数据集合进行多方位的分析，以帮助决策人员做出更符合发展规律的正确决策。,11.2.2 数据仓库的数据模型,多维数据模型的建模要素是观察事物的角度和希望得到（关注）的事实数据。前者称为维度，后者称为事实。因此，主题可以表示为由多个维度数据和多个事

15、实数据构成的数据模型。多维数据模型是根据分析主题所涉及数据的特征，确定分析问题的角度和需要得到的数据，从而确定相应的维度表和事实表及其二者之间的关联关系，进而抽象并建立的数据模型。即：多维数据模型是由多个维度表和事实表及其关联关系组成的结构模型（如图11-2所示）。关于多维数据模型的存储，既可以使用多维数组直接存储多维数据，也可以使用RDBMS的表依次存储维度表和事实表及其关联关系。说明：多维数据模型中的维度表和事实表可以直接来自多维数据，也可以来自RDBMS的关系表。不难看出，关系模型关注的是数据的结构；而多维数据模型关注的是数据的含义。,11.2.2 数据仓库的数据模型,常用多维数据模型：

16、星型模型、雪花模型、星座模型和星系模型等。星型模型：最常用的多维数据模型，它是以事实表为中心，维度表为叶结点组成的星型结构。事实表用来存储事实的度量值和各个维度的主码值，而维度表用来存放维度数据（维度属性数据、属性类别等信息）。星型模型的结构如图11-2所示。,11.2.2 数据仓库的数据模型,星座模型：由一系列同质而不同综合程度（粒度）的事实表共享一系列维表而形成的星型模型。星座模型的结构如图11-3所示。,11.2.2 数据仓库的数据模型,星系模型：如果星型模型中包含多个不同的事实表，且这些事实表连接的维表不完全相同，但共享多个维表，则这种星型模型称为星系模型。星系模型的结构如图11-4所

17、示。,11.2.2 数据仓库的数据模型,雪花模型：对星型模型维度表的进一步拓展、标准化和规范化。对维度层次较多的数据，则需要把星型模型中的每个维度表展开为二级维度表（即：雪花模型）。在雪花模型中，每个维度表都具有标准化的形式，可以最大限度地减少数据冗余，节省存储空间。,11.2.3 数据仓库的ETL,ETL（Extraction，抽取；Transformation，转换；Loading，加载）是把OLTP系统中的数据抽取出来，并把不同数据源的数据进行转换、整合和规范化，然后装入数据仓库的过程。在创建数据仓库的过程中，ETL贯穿整个过程，ETL整合数据的质量直接影响后续的分析结果。把系统数据经过

18、抽取和转换，并载入数据仓库的过程称为ETL过程，制定ETL过程的策略称为ETL策略，而完成ETL过程的工具称为ETL工具。ETL过程主要包括：数据抽取、数据转换和数据加载等。如果抽取出来的数据存在“脏”数据，则对数据进行转换之前，需要进行数据清洗。,1.数据抽取,数据抽取是ETL的首要步骤，用于确定需要抽取的数据和抽取方式，从而从一个或多个源数据库中通过记录选取，进行数据复制的过程。数据抽取过程将记录写入ODS（Operational Data Store）或者临时区（Staging Area）以备后用。数据抽取的常用策略如下：（1）陈旧档案数据抽取。一般用于保险公司和危险品公司等。（2）全部

19、数据抽取。抽取现存操作型环境中的全部数据。（3）差额数据抽取。抽取上次抽取后的更新数据。变化数据捕获（Change Data Capture，CDC）可以使用时间戳、DELTA文件、读取RDBMS日志文件或者使用源系统中的触发器等方法实现。使用时间戳是最简单、最常用的方法。例如：超市管理系统数据库中几乎每个表均设计了“插入记录日期”和“更新记录日期”字段，这是规范数据库的基本标准。,2.数据转换,数据转换是指根据抽取数据的特征和应用需求，设计转换规则，对抽取出的数据进行过滤、合并、解码、翻译等转换，从而为数据仓库创建有效数据的过程。转换过程需要理解业务侧重点（Business Focus）、信

20、息需求（Informational Needs）和可用源数据（Available Sources）。具体转换原则如下：（1）字段级数据类型转换以及增加上下文数据。（2）清洗和净化。保留特定值字段或者特定范围记录、检查完整性和清除重复记录。（3）多数据源整合。采取字段映射、代码变换、合并和派生等进行数据整合。（4）聚合和汇总。,2.数据转换,在ETL中，T是核心，E和L可以看成T的输入和输出。ETL和OLTP的区别是OLTP系统通常是单个记录的Insert、Update、Delete和Select等操作，而ETL过程一般是批量操作。所以实现ETL，主要是实现ETL的转换，而且需要考虑如下方面：（

21、1）空值处理。捕获字段空值，进行加载或者替换为具有确定含义的数据。（2）规范数据格式。实现字段格式约束定义，对于数据源的数据，可以自行定义加载格式。（3）拆分数据。依据应用需求，可以对字段进行分解。（4）验证数据正确性。利用Lookup及其拆分功能进行数据验证。（5）数据替换。根据应用需求，可以实现无效数据或者缺失数据的替换，建立ETL过程的主码、外码约束，保证字段完整性。对于无依赖关系的非法数据，可以替换或者导出到错误数据文件，保证记录数据的加载。,3.数据清洗,数据仓库中必须存放大家公认或者经过验证是有价值的，符合一致性要求的、并且符合元数据定义的“优质数据”（Quality Data）。

22、数据清洗（Cleaning）是指对通过检测发现的违规数据，或者清除，或者转换成“清洁”数据，使其符合规则，然后加载到数据仓库。常用方法：拼写检查、分类检查、名字和地址的检查与修正等。数据清洗的执行过程：（1）预处理。对于数据加载文件（特别是新的文件和数据集合）进行预诊断和检测。（2）标准化处理。利用数据仓库的标准字典，对地名、人名和产品名等进行标准化处理。（3）查重。利用各种数据查询手段，避免装入重复数据。（4）出错处理和修正。出错记录和数据写入日志文件，以备后用。,4.数据加载,数据加载是指在完成数据的抽取、转换和清洗后，利用数据加载工具或者加载程序，把正确的、完整的、一致的高质量数据加载到

23、数据仓库的过程。在数据加载时，可以选择最基本的Import、SQL Loader和SQL语言等加载工具和实用程序，也可以自行设计数据转换函数库（或者子程序库）。通过ETL，可以利用源系统的数据生成数据仓库。ETL是OLTP和OLAP的桥梁。ETL的常用工具：Informatica、Datastage、OWB、DTS和IBM Visual Warehouse 等。,11.2.4 数据仓库设计,数据仓库的开发过程通常包括数据仓库的规划与分析、数据仓库的设计与实施和数据仓库的应用等阶段。其中数据仓库的设计与实施是整个过程的重点。数据仓库设计与实施的内容主要包括：数据仓库的概念模型设计、数据仓库的逻辑

24、模型设计、数据仓库的物理模型设计、源数据的ETL设计、数据表达与访问设计和数据仓库维护方案设计等。其中数据仓库（概念模型、逻辑模型和物理模型）设计是该阶段的核心。,1.数据仓库的概念模型设计,概念模型设计的主要任务是通过分析系统的运行过程和系统需求，确定系统的主题域，从而确定数据仓库的数据类型及其相互关系（即：事实表和维度表），进而创建概念模型。（1）需求分析。分析用户需求，确定决策类型、原始数据和系统边界。（2）确定主题。根据用户需求和决策分析类型，确定系统应该包含的主题域；从而进一步确定各个主题域的要素及其描述属性。具体包括：分析问题时所关心的事实、分析问题时的各种观察角度和描述事实及其观

25、察角度的属性。（3）确定事实。根据主题域所包含的事实，确定用于描述事实的各个属性的名称、类型和粒度等具体信息。（4）确定维度。根据分析问题的观察角度，确定主题域所包含的维度，进一步确定用于描述维度的属性的名称、类型和粒度等具体信息。（5）建立概念模型。根据主题域所包含的事实和维度及其关系，建立适合于决策分析系统的多维数据模型。,2.数据仓库的逻辑模型设计,根据数据仓库的概念模型，不能直接建立数据仓库的物理模型，必须首先建立数据仓库的逻辑模型，由逻辑模型指导DW的物理实施。设计数据仓库逻辑模型的主要任务是粒度层次划分，数据分割策略的确定，关系模式的定义，数据源及其数据抽取模型的确定等。（1）定义

26、事实实体。利用RDBMS的关系模型，定义事实实体的关系模式及其详细信息。（2）定义维度实体。利用RDBMS的关系模型，定义维度实体的关系模式及其详细信息。（3）定义事实实体与维度实体的联系及其属性。在设计数据仓库的逻辑模型时，需要进行适当的粒度划分、采取合理的数据分割策略，对事实表和维度表进行适当的划分，并定义相应的数据源。,3.数据仓库的物理模型设计,物理模型是根据逻辑模型，选择数据仓库的访问方法、设计数据仓库的存储结构、确定数据仓库的存储位置和选择存储介质等，从而为数据仓库提供最佳的物理环境。主要任务：设计数据的存储结构、确定数据的存储位置和索引策略（1）设计存储结构（2）确定存储位置。（

27、3）确定索引策略。总之，数据仓库是企业体系化环境的核心，是建立智能决策支持系统的基础。在实施其数据仓库时，数据仓库模型设计是关系到数据仓库成功与否的关键。数据仓库的数据内容、结构、粒度、分割及其决策分析设计，需要根据用户反馈的信息不断地调整和完善，而且数据仓库需要通过不断地理解用户的分析需求，向用户提供更准确、更有用的决策信息，所以数据仓库对灵活性和扩展性有较高的要求，因此数据仓库设计是一个动态、反馈、循环和精益求精的过程。,11.2.5 联机事务处理OLTP,OLTP是指利用计算机网络，将分布在不同地理位置的业务处理计算机设备或者网络与业务管理网络中心连接，以便在任何网络节点进行统一、实时的

28、业务处理活动或者客户服务。OLTP系统是传统数据库系统进行事务处理的主要部分。特点：拥有大量并发用户，而且用户在积极地完成数据的实时修改。成功应用事例：航空售票系统和银行业务系统等。OLTP系统对DB完整性的维护，通常利用DB平台的事务ACID属性。例如：ATM系统取钱业务的工作过程，充分体现了OLTP对数据库完整性的维护。原子性：如果ATM取钱业务在支付现金时更新了你的账户信息。一致性：ATM支付的钱与记入账户的钱相同，则数据是一致的。隔离性：ATM办理业务中，有程序读写账户信息，则应拒绝操作。持久性：如果ATM取钱业务完成或提交，ATM取钱业务永久生效。,OLTP系统的研发应该遵守的基本准

29、则：,（1）OLTP与决策支持工作量。（2）数据放置与文件组。（3）调整OLTP事务。（4）控制数据内容。（5）数据备份。（6）索引。对于OLTP系统，索引的个数不是越多越好。通常应该避免为表创建过多的索引。因为每次在增加行或者修改索引字段时，创建的每个索引都必须更新。如果定义了太多不必要的索引，则当系统更新大量的索引数据时，将会影响数据的访问效率。,11.2.6 联机分析处理OLAP,因为数据仓库本身不能进行复杂的、灵活多样的数据查询分析，所以需要借助OLAP及其相关技术和工具，对数据仓库的数据进行多角度、多视图的查询分析。,1.OLAP的概念,OLAP是一种软件技术，它使分析人员能够迅速、

30、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。其特征是共享多维信息的快速分析（Fast Analysis of Shared Multidimensional Information，FASMI），快速性分析性共享性多维性信息性,OLAP产品的十八条原则（原规则12条，新规则6条）。,（1）基本特性。多维概念视图、直观的数据操作、可存取性、分批提取VS解释（新）、OLAP分析模型（新）、客户/服务器体系结构、透明性、支持多用户。（2）特殊特性。处理非规范化数据（新）、保存OLAP结果且与源数据分离（新）、抽取遗漏数据（新）、处理遗漏数据（新）。（3）报表特性。灵活的报表生成能力、

31、稳定的报表生成性能、自动调节物理模式的能力。（4）维控制特性。维的等同性、不受限制的维和聚集层次、不受限制的跨维操作。OLAP策略通常是针对特定问题，把关系型的或者普通的数据进行多维数据存储，通过对信息的多种可能的观察形式进行快速、稳定、一致和交互的存取，从而达到OLAP的目的。,2.OLAP的基本分析操作,（1）切片（Slicing）。在1个或者多个维中选定一个属性成员，而在其它维中选取一定区间的属性成员或者全部属性成员，进行观察数据的分析方法。（2）切块（Dicing）。在各个维中选取一定区间的成员属性或者全部成员属性，进行观察数据的分析方式。切片是切块的特例，切块是切片的（叠合）拓展。（

32、3）钻取（Drilling）。包括下钻（Drill Down）和上钻（Drill Up）操作。钻取的深度与维的划分层次相对应。下钻是指从概括性数据出发获得相应的更详细的数据。上钻是指从详细的数据中获得相应的概括性数据。（4）旋转（Pivoting）。改变一个报告或者页面显示的维方向。,3.OLAP的实施,（1）ROLAP（Relational OLAP，关系联机分析处理）。采用关系数据库存储多维数据，并进行联机分析处理。OLAP工具多数使用的是基于关系型的ROLAP。（2）MOLAP（Multidimensional OLAP，多维联机分析处理）。采用多维数据库（多维数组）存储多维数据，并且是

33、以多维数据库为核心的OLAP。MOLAP的典型工具是EssBase。（3）HOLAP（Hybrid OLAP，混合联机分析处理）。HOLAP综合了基于多维数据库的OLAP和基于关系数据库的OLAP的优点，把事实表保存在关系数据库中，充分利用了成熟的关系模型所带来的高性能、高可靠性的特点，同时又把聚集信息保存在多维数据库中，很好地满足了联机分析处理的需要。,MOLAP和ROLAP的性能对比,4.OLTP和OLAP的比较,OLTP和OLAP在背景和目的、数据模型、数据综合程度、数据更新和处理方式等方面均存在一定的差异。OLAP关注的是如何理解聚集的大量数据。其目的是通过分析数据，发现能够起决策作用

34、的有价值的信息。OLAP是以数据仓库（或者数据库）为基础，其最终数据源来自底层的数据库系统，OLTP针对操作人员和低层DBA，而OLAP则是为决策人员和高层管理人员提供分析服务。,11.3 数据挖掘,尽管以数据仓库为中心的联机分析处理技术，在一定程度上满足了高层管理人员的决策分析需要，但是随着数据仓库及其应用技术的快速发展，人们希望能够提供更高层次的数据分析功能，从而对决策分析或者科学研究提供更高层次的支持，因此产生了基于统计学、信息论、神经网络、模糊集、仿生学（遗传算法）、粗糙集、机器学习和数据仓库等技术的数据挖掘（Data Mining，DM）技术。,11.3.1 数据挖掘概念,技术定义：

35、DM是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。挖掘发现的知识都是相对的，是有特定前提和约束条件、面向特定领域的，同时还要易于用户理解。商业定义：DM是一种崭新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理，从中提取辅助商业决策的关键知识。为商业决策提供真正有价值的信息，进而提高竞争力，获得利润。,11.3.1 数据挖掘概念,DM是深层次的数据分析技术，与其它分析技术的区别和联系（1）DM与传统分析方法。DM是在没有明确假设的前提下挖掘信息、发现知识，所得到的信息具有

36、先前未知、有效和实用等特征。例如：商业应用中尿布和啤酒的典型例子。（2）DM与DW。DW是DM的应用基础；DM是DW发展的必然结果，同时促进了DW技术的发展。（3）DM与OLAP。DM的关键是在DW中自行寻找模型，非验证模型。OLAP可以用于探索数据，找到对问题比较重要的因素，发现异常数据和互相影响的因素，有助于数据挖掘时更好的理解数据，加快数据挖掘的过程。因此，DM和OLAP具有一定的互补性。（4）DM与KDD。KDD（Knowledge Discovery in Database，数据库中的知识发现）是从大量数据中抽取挖掘出未知的、有价值的模式或者规律等知识的复杂过程。通常由数据准备（清洗

37、、集成、转换）、数据挖掘以及挖掘结果的解释（知识表示）和评估（模式评估）等阶段组成。显然，DM是KDD的关键阶段，实际应用中已无明显区别。,11.3.1 数据挖掘概念,DM的主要研究内容包括：基础理论、DM算法、数据仓库技术、可视挖掘技术、定性定量互换模型、知识表示方法、挖掘知识的维护和利用、半结构化和非结构化数据中的知识发现、Web数据挖掘、多媒体数据挖掘、基于内容的图像检索以及DM的应用等。不难看出，DM作为融合多个学科的新的数据分析技术，其目标是从DW中发现未知的、隐含的、有意义的知识，从而使KDD成为可能。,11.3.2 数据挖掘参考模型,为了促进数据挖掘技术的应用，欧洲委员会联合数据

38、挖掘软件厂商提出了CRISP-DM模型（CRoss Industry Standard Process for Data Mining，1996），目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。如图11-6。,11.3.2 数据挖掘参考模型,1）业务理解（Business Understanding）。确定业务目标、项目可行性分析、确定数据挖掘目标和提出项目计划。2）数据理解（Data Understanding）。收集原始数据、描述与探索数据和检查数据质量。3）数据准备。数据选择、清洁、创建、合并和格式化。4）建立模型。选择建模技术、测试方案设计

39、、模型训练和模型测试评估。5）模型评估（Evaluation）。结果评估、过程回顾、确定下一步工作。6）系统部署（Deployment）。部署计划、监控和维护计划、做出最终报告和项目回顾。CRISP-DM规定数据挖掘项目应该产生11个报告：业务理解报告；原始数据收集报告；数据描述报告；数据探索报告；数据质量报告；数据集描述报告；模型训练报告；模型评估报告；部署计划；监控和维护计划和总结报告等。,11.3.3 数据挖掘算法,1.关联规则：发现存在于数据库中的属性之间未知的或者隐藏的关系，从大量交易记录中发现有意义的关联规则，可以帮助商务决策，从而提高销售额和利润。在挖掘关联规则时，通常使用支持度

40、（Support）和可信度（Confidence）以及相应的域值。不难看出，支持度描述了关联规则的因果商品集在所有交易集中同时出现的概率；可信度用来衡量关联规则的可信程度。而且只有在支持度和可信度均大于相应的域值时，才说明A对B有促进作用，即：说明A和B之间存在指定程度的相关性。关联规则的经典算法是Apriori算法（Agrwal和Srikant，1994）及其改进和推广、AIS算法、SETM算法、DHP算法、PARTITION算法、Sampling算法和FP Growth算法，并得到了成功的广泛应用。,11.3.3 数据挖掘算法,2.决策树：采用自上而下的递归构造方法构造决策树。树的每一个结

41、点使用信息增益度选择属性，从而可以从决策树中提取分类规则。经典算法：Quiulan的ID3（Iterative Dichotomiser 3）算法，然后推广到C4.5、CART和Assistant算法。例如：春夏集团根据自身的经济实力和经营情况，准备在全国，再开设三类连锁计算机DIY商城，每一类两家。通过市场调查，目前全国经营的历史数据如表11-4所示。则经营情况决策树如图11-7所示。,11.3.3 数据挖掘算法,根据决策树得出的关联规则如下：IF 位置=大城市规模=大规模档次=低档 THEN 成功IF 位置=大城市规模=小规模档次=高档 THEN 成功IF 位置=小城市规模=小规

42、模档次=低档 THEN 成功因此，开设三类连锁商店的可行性方案：在大城市开设大规模低档连锁商店两家；在大城市开设小规模高档连锁商店两家；在小城市开设小规模低档连锁商店两家。,11.3.3 数据挖掘算法,3.聚类：把数据集划分为若干类的过程，并使同类的数据对象具有较高的相似度；而不同类的数据对象则相反。相似度依赖于数据属性的取值，通常使用距离。常用算法如下：（1）K均值聚类。（2）K中心聚类。（3）C均值算法。聚类算法通常分为：划分聚类（K均值、C均值和K中心等）、层次聚类（Cure、Chameleon和Birch等）、密度聚类（DBScan、Optics和DenClue等）、网格聚类（STI

43、NG、ClIQue和Wave Cluster）和模型聚类（Cobweb和神经网络算法）等。,11.3.3 数据挖掘算法,4.预测：首先构造模型，然后使用模型预测未知值。经典算法是线性回归、多元回归和非线性回归等回归分析。传统算法是趋势外推和时间序列等。优点是原理简单和理论成熟。（1）线性回归。（2）多元回归。预测理论研究的新领域是人工神经网络（ANN）预测、专家系统预测、模糊预测、粗糙预测、小波分析预测、优选组合预测等。,11.3.3 数据挖掘算法,5.分类：通过分析训练样本数据，产生关于类别的精确描述。其目的是通过创建分类模型，把数据映射到给定的类别。分类主要用于预测未来数据的趋势或者创建分

44、类器。分类过程：（1）建立分类模型，描述给定的数据集。（2）使用分类模型对数据进行分类。常用分类方法是决策树、KNN分类（K最近邻法）、SVM分类（支持向量机）、VSM分类（向量空间模型）、Autoclass分类（Bayesian网络，无监督）、神经网络分类（反向传播BP网络）、示例推理分类器、遗传算法分类（选择、交叉、变异）、粗糙分类（等价关系、上下近似集）和模糊分类（隶属函数、截集）等。在SQL Server 2008 Analysis Services(SSAS)中已经嵌入了决策树、聚类、关联、Naive Bayes、顺序、时序、神经网络、逻辑回归和线性回归等算法引擎，并提供了相应的挖掘算法。,11.3.3 数据挖掘算法,综上所述：因为DW和DM具有关联分析、决策分析、聚类、分类、预测、偏差检测和概念描述等功能，从而DW和DM在银行、金融、电信、保险、医药、交通、税务、零售等领域取得了成功的应用，而且逐步应用到Web数据挖掘、生物（基因）信息挖掘、文本挖掘、音频信息挖掘、视频信息挖掘、空间信息挖掘和分布式信息挖掘等领域。,习题,112,