面向服务的分布式数据挖掘.ppt
《面向服务的分布式数据挖掘.ppt》由会员分享,可在线阅读,更多相关《面向服务的分布式数据挖掘.ppt(40页珍藏版)》请在三一办公上搜索。
1、1,面向服务的分布式数据挖掘,刘军丹2011-04-29,2,主要内容:,综述。数据挖掘趋于分布式。数据挖掘趋向于面向服务。基于BPEL4WS的DDM处理。使未经过检查的数据有意义。局部数据抽象分层。从局部抽象得到全局模型。DDM的两个应用。积极开发自主的DDM。未来的工作。,3,综述,数据挖掘如今面临着两个挑战:如何使数据挖掘服务具有即时性和自主性;如何挖掘分布式的和具有私密性的数据.为了解决这些问题,作者采用了BPEL4WS(基于web服务的业务流程执行语言)的面向服务的DDM(分布式数据挖掘)平台来编辑DDM的服务组件,并且满足全局性的数据挖掘需求。他们也使用了从抽象学习(learnin
2、g-from-abstraction)的方法来实现对隐私保护的DDM。最后他们举例说明如何在隐私性政策强制添加的进程中实现小范围自治,以帮助实现面向服务系统的自治。,4,大多数的数据挖掘算法假定,为了随后进行的频繁的数据运算,数据分析人员愿意聚集从服务器的产生式系统中提取的数据。然而,在实际情况中有的涉及到了数据的隐私问题(例如,存储在银行服务器中的客户信息)以及受到数据传输时的带宽限制(影响远程实验室中的仪器或者超级计算机TB级字节的科学数据的传输)。研究表明,随着上述这些情况的增多,为了挖掘数据而进行数据的聚集几乎是不可能的。相反,寻求一种保证数据私密性的分布式数据挖掘算法是十分必要的。另
3、外,在当今变化莫测的市场中,需要在恰当的时机为人们提供准确的信息以支持商业决策。人们事先并不知道数据隐私的要求,能否提供面向需求和自适应的服务以便使这些公司能够处理来自异构数据库中的数据,这些需求对分布式数据挖掘(DDM)提出了新的挑战。,综述,5,我们可以从两个方面来说明这些挑战:1、分布式数据计算架构是否可以支持无缝整合、集成以及协调实时性和自主性的数据挖掘服务。2、具有潜意识的保密的数据挖掘算法能否在框架的顶层执行。在这篇文章中,描述了他们创造的一种新颖的分布式数据挖掘(DDM)算法:面向服务的从抽象学习(learning-from-abstraction)的平台,这种平台的底层处理采用
4、BPEL4WS语言。他们使用一种基于模型的方法来抽象化局部数据和分析全局数据。,综述,6,这种方法有如下优点:控制数据隐私;在进行数据挖掘的同时,能减少互联网的信息传输量;减小对全局数据分析计算的复杂性;支持自我调整的数据挖掘过程。他们通过两个具体DDM应用来解释他们的方法:分布式数据聚集和分布式数据多种可视化。,综述,7,数据挖掘趋于分布式,现存的DDM项目大多数是通过构建一组“分布式”专家服务来解决问题,其中每一个服务都有特殊的应用目的(有的进行数据清洗、有的进行数据预处理、有的进行数据挖掘)。为了自动构建每一步,人们经常使用规划算法,有时结合一个数据挖掘过程本体。然而在这篇文章中作者对“
5、分布式”有另一种理解。他们的兴趣点在于发现完全数据集中隐藏的模式。其中,这些数据集在逻辑上是分区的,物理上分布在不同的数据源上。(这两种关于DDM的概念绝不是孤立,而在一个完整的DDM平台上是共存的。)一个全局性的中介性服务协调了一组相同功能的专家服务,每个服务用同样的方式处理同一问题的不同部分(也就是说,在不同数据分区上执行局部分析处理)。然后,这个中介服务在局部结果的基础上进行进一步的分析从而得到全局性的结果。,8,数据挖掘趋于分布式,这篇文章描述了关于DDM的不同方法,分布式的关联规则挖掘几乎是最具有代表性的和广泛研究的数据挖掘实例。当然,Andreas L.Prodromidis 和P
6、hilip K.Chan已经考虑到一种结合基于水平分割(按记录分割,不同的记录可以分开保存,每个子表的列数相同。)数据的决策树分类器的元学习过程。Hillo Kargupta和他的同事第一次提出了集合数据挖掘,它适用于垂直分割数据,如果这些数据集是正交集的话能够结合局部数据源的直接结果。异质性存在于各级隐私涉及的不同局部数据源中,因此一些调查研究平衡这两方面的冲突性需求数据隐私和挖掘精度。,9,数据挖掘趋向于面向服务,SOAs(面向服务式架构)是通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。由于最近形成的Web服务相关的标准和技术,使得这个概念在过去几年很盛行,这些标准和技术包括
7、WSDL(web服务描述语言),UDDI(通用描述、发现与集成服务,是核心的Web服务标准之一),SOAP(简单对象访问协议)。可行的web服务(Web-service-enabled)SOAs现在被按需计算以及发展更具互通性的组内或组间系统广泛地接受。(虽然这些发展处于不同的发展阶段,取决于SOA的架构级别。),10,数据挖掘趋向于面向服务,基于Agent的分布式挖掘环境(DAME;Distributed Agent-based Mining Environment)以及XML分析(XMLA;XML for Analysis是一种关于客户端应用程序访问多维或OLAP数据源的标准),数据挖掘服
8、务请求借助网络以XML语言的格式由电子服务(e-service)实现。文中介绍了几个与DDM服务提供有关的项目。Weka4WS(使Weka 在网格环境下支持分布式数据挖掘的一种框架)和 Gridminer(网格数据挖掘系统)通过使用一种网络计算工具软件提供DDM服务,这种软件是应用于网格(grid,一个新兴的中介标准)上的一种开源的、面向服务的软件开发工具包,事实上是一种新兴的资源共享的中间件标准,例如计算能力,TB级字节的存储以及可信任的知识库。在这些项目中,DDM服务流由间接服务或中介服务组成(有时从图形用户界面获得帮助)然后这些服务流以协调和控制的流动方式执行。,11,数据挖掘趋向于面向
9、服务,采用SOA(面向服务架构)至少有以下三方面的优势:1 可以使得我们集中精力进行数据挖掘服务,而不必去处理类似消息传递协议的连接细节;2 通过简单地创建和发现新服务,我们很容易扩展和修改DDM的应用程序,指定相关介质来重置服务流声明;3 它使得面向需求的DDM成为可能。因此使用者可以仅仅关心他们的商业或科学问题而不必担心数据挖掘的实现问题。通常情况下,SOA(面向服务架构)作为基础可以使DDM的开发程序的重点从算法实现转变到发现下一代DDM应用程序的算法。,12,数据挖掘趋向于面向服务,我们提出的SOA框架采用了现有DDM系统的Web服务标准。我们使用WSDL(Web服务描述语言)来规范D
10、DM的组件如何在缓解互联网压力下输入和输出它们的功能,这就需要准确指定它们的端口,端口类型和绑定(消息传输协议)方法。另外,我们可以设置UDDI(通用描述、发现与集成)服务软件库,这样DDM服务提供者可以对DDM组件服务功能的高级描述进行说明和分类,使得服务使用者很方便的发现它们。对于具体的面向服务的DDM应用,我们可以把相关服务“融合”一体形成对应的服务流来开发系统。,13,基于EPEL4WS的DDM处理,WSDL支持一种简单的仅仅包括输入和输出的无状态的交互模型。不是用来处理长期运行的有状态的服务提供者和使用者的交互。然而,多数的DDM要求使用这样的交互模式,尤其是涉及到多方面的业务流程。
11、业内人士提出了多种标准来说明相应的长期运行的交互模式,包括WSCI(Web服务协作接口),WSFL(网络服务流程的叙述语言,WSFL是IBM公司制订的作为叙述网络服务流程的语言,其包括流程模型和总体模型)以及XLANG(是一种扩展的WSDL语言)。最终,IBM和微软公司将其提出的WFSL及XLANG组合到BPEL4WS中,形成目前关于指定业务流程行为的业界标准。,14,基于EPEL4WS的DDM处理,BPEL4WS通过网络服务端口为业务流程及它的伙伴之间的特定交互定义了模型及语法规范。Web服务之间的关系表现为合作链接()和进程()主要定义了在多个合作服务之间采取什么样的交互方式实现业务目标。
12、交互可能是时序的()并发的()或者是有条件的()。BPEL4WS也同样定义了处理特殊业务及引入补偿的机制,在发生异常或者某个伙伴请求撤销时起作用。作者采用了 BPEL4WS来说明DDM过程业务的目标及过程成为数据挖掘要求,并为执行有关的DDM服务组件定义了次序。目前的业务关系是局部和全局组件服务的角色关系。采用BPEL4WS意味着只要保证必要的DDM组件服务可以满足,我们只需要以服务流的形式说明DDM的应用,通常直接采取无环图的形式(DAGs)。,15,基于EPEL4WS的DDM处理,图1说明了一个以BPEL4WS描述、以无环图形式实现可视化的DDM执行方案。只要我们精确的定义了BPEL4WS
13、的描述,BPEL4WS的中间件可以自动处理执行服务的后续部分,异常处理过程及服务质量都将达到最佳性能。换句话说,DDM的应用程序开发人员可以只关注数据挖掘本身。这种方法的另一个优点是可以重复使用先前服务流程的组成部分,进一步加强DDM应用开发的灵活性。,16,使未经过检查的数据有意义,我们采用从抽象学习的方法使SOA(面向服务式架构)具有隐私控制能力。与借助端口控制规则保护数据的方法不同,从抽象学习的方法一般只对从数据中发现数据模式感兴趣,对外只显示局部数据的抽象分析。局部数据的拥有者使用隐私规则控制数据的粒度级别,并规定隐私保护程度。特别的,我们定义了一个类似于GMMs(由粗到细的连续的高斯
14、混合模型)的局部数据泛化。然后直接基于局部数据泛化使用不同的潜在变量模型学习进行全局数据分析,每一种都有一个特定的可控粒度级别。,17,局部数据抽象分层,假定分布式数据源包含特征向量形式的数据项,我们把每个数据源抽象为一个参数形式的概率密度分布函数。GMM可以作为任何多模式的分布式数据的逼近器,是一种基于向量表示形式的理想数据建模。(向量的形式已经广泛应用于描述性的程序诸如文档、传感器的信号接收以及客户的兴趣档案)给出如下公式 其中 表示混合比,满足。并且 表示第l个数据源的第j个高斯分量的参数包括期望 和协方差矩阵.,18,局部数据抽象分层,我们不可能满足所有数据源的所有要求,因此我们把每个
15、局部数据源描述为GMMS模式的一个分级,最低粒度级的数据源包含一个高斯分量(全部的数据由期望和方差概括)并且最高粒度级包含一系列的高斯分量等价于数据(也就是说,一个分量代替一个数据点)。在任何特定时间,从外部观察到的每个局部数据源仅仅是一个脱离整个抽象层次的在特定粒度级别的GMM抽象,这使得我们可以控制局部数据的隐私性。一个在低粒度级的GMM很明显的比在高粒度级提供的信息少(也就是说,隐私性更强)。在带宽方面,如果第l个数据源的数据总量 非常大,而粒度级别允许的数据量通常会比 低。因此,所要求的带宽很低了与传输数据相比,传输参数通常需要很低的的带宽。,19,局部数据抽象分层,为了计算局部数据抽
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 服务 分布式 数据 挖掘
链接地址:https://www.31ppt.com/p-6613953.html