面向数据挖掘云端实施方案.doc
《面向数据挖掘云端实施方案.doc》由会员分享,可在线阅读,更多相关《面向数据挖掘云端实施方案.doc(11页珍藏版)》请在三一办公上搜索。
1、面向数据挖掘的云端实施方案摘要:云端运算是一种基于互联网的新兴应用计算机技术,数据挖掘是商业智能的重要环节,Data Mining与云端运算的结合将极大提高数据挖掘的应用与统计科学的开展。本文提出了云端的数据挖掘即效劳DMaaS,Data Mining as a Serves的概念,分别从IaaS、PaaS与DMaas给出了面向数据挖掘的云端实施方案;设计出商用DM软件与开源DM软件的云端实施平台,引入R中平行运算技术对Cloud-R进展改良。关键词:云端运算;Data Mining;DMaaS;平行运算中图:C81 文献标识码:AThe Cloud puting Program for Da
2、ta Mining TechnologyAbstract: Cloud puting is a kind of newly emerging technology of puter application based on Internet. Data Mining is a key step in Business Intelligence. The bination of Data Mining and Cloud puting will greatly enhance the application of Data Mining and the development of Statis
3、tics Science. The paper proposes the concept of DMaaS and provides implication programs of cloud puting from the aspect of IaaS, PaaS and DMaaS respectively. The paper designs the cloud puting platforms of mercial DM software and open source DM software, and introduces parallel puting in R to improv
4、e Cloud-R.Keywords: Cloud puting; Data Mining; DMaaS; Parallel puting引言数据挖掘也是商业智能的重要环节,数据仓库是数据挖掘得以开展的根底,也是商业智能的支撑,由此可见数据仓库对于商业智慧来言具有很重要的作用,它集成了企业的最核心的数据,随着企业对数据的再次利用和深入挖掘,海量数据的高效计算问题成为企业最为关注的一个问题之一。在商业智慧(BI)活动中,数据仓库与数据挖掘要求的费用支出庞大,很多中小企业望而却步。云端运算的出现,对中小企业来讲,是一个振奋人心的好消息。如果云端运算应用在商业智能上,由于云端运算具有按需使用、按使用
5、收费特性,这将大大减少企业应用商业智能的本钱。此外,一方面,我们可以通过云的数据仓库实现海量数据的高效计算。另一方面,云端运算可以实现在线支付使用数据挖掘工具和商业智能相关分析处理软件。数据挖掘Data Mining具备更多的工具与更成熟的功能,与领导品牌的BI解决方案并驾其驱,但投资本钱却更低;Data Mining大幅提升的效能与新增强化的功能,吸引我们全面升级以发挥新技术的效益。例如,*广达电脑*以Intel搭配SQL Server,所消耗的本钱却低于Uni*的三分之一,创造了绝对的本钱优势。目前,在线数据挖掘效劳也受到大陆许多企业的青睐,中国的海量信息技术*提供的名“海纳睿的在线数据挖
6、掘效劳,可以利用其在在线网络数据挖掘技术上的优势,为用户提供个性化需求,定制个性模块效劳,以此来满足的不同需求。此外,开源商业智慧BI厂商生态系统逐渐崛起,包括Jasper Soft、Actuate、Pentagon、Spago BI等。云端运算(Cloud puting)是分布式处理(Distributed puting)、并行处理(Parallel puting)和网格计算(Grid puting)的开展,或者说是这些计算机科学概念的商业实现,它具有超大规模、虚拟化、高可靠度、高通用性、使用者付费、本钱低、高扩大性等特色。云端运算将庞大运算操作拆成千百个较小的操作,再交给远程、多台效劳器同
7、时运算;透过此种技术,网络效劳提供者可以在数秒之内,处理数以千万计的信息,并提供和超级计算机一样强大效能的网络效劳,以符合网络用户日增的各种需求。云端运算基于因特网的运算方式,它通过因特网为个人使用者或企业使用者提供按需即取的效劳。直观来讲,云端算法就是让网络上不同计算机同时帮你做一件事情,大幅度的提高了处理速度和效率。云端运算的最终目标即为所有的资源均来自于云端,使用者只需一个连接云端的设备手机等和简单的界面如浏览器等即可,Google搜寻效劳, Gmail, YouTube, Google Docs, Google Talk, iGoogle, Google Calendar已充分使用云端
8、运算技术;其它如微软, , AMAZON也采用这种技术提升网络效劳功能。从概念上说,使用者需要云端运算的计算平台或IT根底设施,并在这些平台与设施中运行应用。因此,计算云给予使用者进入硬件、软件及数据资源的效劳,此后,一个集成的计算平台以一种透明的方式进展效劳。软件即效劳SaaS平台即效劳PaaS架构即效劳IaaS图1 云端架构效劳层次示意图云端运算包括以下几个层次的效劳,架构即效劳IaaS, 平台即效劳PaaS和软件即效劳SaaS。云端运算效劳通常提供通用的通过浏览器存取的在线商业应用,软件和数据可储存在数据中心。架构即效劳提供了核心计算资源和网络架构的效劳,如防火墙、路由器、下载分配等。架
9、构即效劳供货商包括亚马逊的弹性计算云EC2和Joyent。平台即效劳提供平台给系统管理员和开发人员,为它构建、测试及部署定制应用程序。平台即效劳供货商包括微软的Azure、Google 的App Engine等。软件即效劳通过Internet 提供软件的模式,用户向提供商租用基于Web的软件,来管理企业经营活动,且无需对软件进展维护,效劳提供商全权管理和维护软件。软件即效劳供货商包括惠普的云打印效劳,IBM的Lotus Live为企业提供的协作和社交网络效劳。其它SaaS提供商如Birst和SAS提供按需商务智慧效劳,Salesforce.和Zoho提供客户关系管理(CRM)等。一、面向DM的
10、架构即效劳IaaS架构即效劳IaaS作为效劳或硬件效劳,指的是提供以IT根底设施为根底,基于虚拟或物理资源作为一种商品;这些资源满足内存,CPU类型和能力以及存储方面的最终用户的需求,并在大多数情况下是操作系统。用户按使用计费的根底上支付,必须建立对这些资源的主持和卖方所拥有的数据中心管理上他们的系统;架构即效劳提供了核心计算资源和网络架构的效劳。IaaS技术实施方案Technology机房建置Hardware构建软件平台Software图2 IaaS架构图面向Data Mining的IaaS,其软件平台、机房建置与技术实施可按照表1中的方案实施。表1 面向DM的IaaSIaaS构成实施方案构
11、建软件平台Software提供用户R软件完善的web接口,以及多台双核心效劳器的支持,进而缩短统计分析上所消耗的计算时间适用于Cloud-R云端实施平台以R统计软件为根底,透过网页浏览器即能做出统计运算,并且参加云端技术的支持,让使用者可以无限扩大运算能适用于Cloud-R云端实施平台采用SUN-Micro、Trend-Micro技术作为支持,完成硬件虚拟化根本架构以Open Source为主进展研发,掌握Total solution评估Centos, *en,Hadoop,Tashi, Eucalyptus, Ganglia, Nagios等开源软件集,进展各项运转测试机房建置Hardwar
12、e硬件建置:*86 PC/效劳器为根底的丛集系统整合云端测试套件(Test Suites);确认示范应用导入需求及测试规格GUI portal建置技术实施方案Technology虚拟平台机:以*86 PC效劳器架构丛集系统,建立虚拟机平台,运用开放原始码软件,建置如Amazon-like云端效劳,实作IaaS试营运自动化负载平衡:在多核系统上使用*en控制多台虚拟机并执行不同功能的伺服主机;变动*en的Credit CPU排程器的weight及cap参数设定, 来观察虚拟伺服主机的效能;利用观察的经历数据及机器学习算法建立效能函数模型;利用多目标决策规划寻找最正确的weight及cap参数设定
13、自动化大量数据切割与整合:以Java语言进展单机系统仿真大量数据切割与重组;设计出单机系统仿真大量数据切割与重组的多引线算法,并开发修正边缘计算效应的算法4效劳质量衡量:透过客户端程序与Hadoop Distributed File SystemHDFS上的NameNode daemon沟通,以得到对客户端程序存取最有利的DataNode daemon所在的主机位置及档案目录。接着,客户端程序再直接向DataNode daemon要数据或上传数据至该主机上GPU协同平行化程序分析与部属:以OpenMP、 Windows API Threads进展多核心CPU分布式算法设计,并使用NVIDIA
14、GUDA GPU进展分布式算法设计,使两种不同架构下的计算进展比拟与测试,也设计CPU与GPU协同运算算法。云端运算主机使用CPU与NVIDIA CUDA GPU协同运算,在时间、人力充足的情况下,可以考虑使用Threads API对硬件做进一步效能优化注:参考资料:1、谢邦昌.?云端运算在商业智能及数据挖掘的应用前沿综述?.2021。2、*财团法人信息工业策进会国立*大学.?*云端达算应用实验中心研发方案? .2021.二、面向DM的平台即效劳PaaSPaaS(Platform as a Service)就是将云计算时代相应的效劳器平台或者开发环境作为效劳提供给用户,用户可以在平台上进展软件
15、部署及软件开发等工作阵。平台即效劳PaaS作为一个效劳解决方案提供给用程序或开发平台,用户可以创立自己的应用程序将在云中运行。平台即效劳提供平台给系统管理员和开发人员,以及它构建、测试及部署定制应用程序。PaaS的实现提供了一个应用程序框架和一组API,可用于编程或开发人员组成的云应用程序的用户。在一些情况下,PaaS的解决方案通常提供为一体的综合开发平台,同时提供一个系统和一个顶尖的IT根底构造的申请将被执行。一接口效劳发布接口效劳发布是实现PaaS平台应用管理的关键技术。接口效劳按照SOA模式,采用WebService技术进展发布。以.Net平台下的接口设计和发布为例:将所有业务效劳功能封
16、装成接口实体类并编译,PaaS平台将实体类的名称、调用标准、功能描述等信息添加到应用接口列表中,并实现接口与业务实体类的映射;用户在使用接口时,向平台发送WebService请求;拦截器将请求截获后在接口列表中查找出相应接口和实体类,通过反射技术取得实体对象进展业务处理,最后将处理结果返回给用户。业务用户封装、编译接口调用请求业务实体类处理结果Web Service拦截器注册、映射应用接口列表机器学习 数据挖掘 统计分析 可视化通过反射机制进展接口和实体映射图3 面向DM的应用接口注册及调用逻辑构造二mon API 技术整合现有效劳的API,对现有云端效劳API进展研究 (Google API
17、s、Microsoft Azure APIs、salesforce. web service APIs),使用标准将定义成说明档,以利使用者查询。在使用者自制云端效劳的上传机制,也将撰写一个网页,以方便使用者上传至云端,供其他使用者使用。而在检查机制上,也会有所限定;利用DWR,让javascript去呼叫在云端的meta-api即云端效劳,以到达云端效劳的提供与实现。三、面向DM的软件即效劳DMaaS面向DM的软件即效劳DMaaS(Data Mining as a Serves是数据挖掘的新理念,通过Internet提供软件的模式,用户向提供商租用基于Web的DM软件,来进展企业或个人的数据
18、挖掘活动,且无需对软件进展维护,效劳提供商会全权管理和维护软件。DM软件在应用时作为效劳,通过互联网提供给顾客。图4 DMaaS示意图一DMaaS的商用软件DM云端实施平台DMssS商用软件DM云端实施平台是一种通过Internet向用户提供DM软件与效劳的模式,用户不用再购置软件,而改为向效劳提供商租用基于Web的商用数据软件来管理企业经营活动。商用软件DM平台降低了用户电脑安装或运行应用的需求,减轻了用户软件维护的负担,用户不需要担忧商业DM软件版本的不断更新的问题,只要通过Internet连接到该实施平台,就能够使用该平台提供的最新版本的商用软件,从而降低了企业与个人软件购置的费用,大幅
19、度提升了企业和个人进展数据挖掘活动的效率。DMaaS商用软件DM平台可以提供的DM软件包括:SQL server 2021、SPSS 19 (PAWS) IBM、SAS 、SQL 2021+E*cel (2021)-Data Mining Add-in、Clementine 12.0、Statistica 7.0、WEKA、R+E*cel ADD-IN等。相应的商用软件DM实施平台如表2所示。表2 DMaaS商用软件DM云端实施平台平台中DM商用软件DM云端平台名称DM云端效劳SQL server2021Cloud- SQL server决策树、聚类分析、关联规则、主成分分析、因子分析、类神经
20、网络、Logsitc回归、支持向量机、线性回归、文本数据挖掘SPSS 19(PAWS)Cloud- SPSSSASCloud- SASSQL 2021+E*cel (2021) Cloud- SQL +E*celClementine 12.0Cloud- ClementineStatistica 7.0Cloud- StatisticaWEKACloud- WEKADMaaS商用软件DM云端实施平台能够为用户提供便利的DM效劳,其优点是操作简便,用户界面友好,能够有效进展企业海量数据的处理与分析。但该平台也存在一些较为明显的缺点:1DMaaS商用软件DM云端实施平台的运营与管理的本钱较高,由于
21、该平台提供的是商用DM软件,需要花大量资金购置相应DM软件,随着商用软件版本的不断升级,为了满足业务的需要,该平台的商用DM软件业必须不断更新,这样进一步增加了该平台管理与运营的本钱。2DMaaS商用软件DM云端实施平台提供的DM效劳是基于商业DM软件的,由于目前数据挖掘方法开展迅速,DM方法不断更新,而常用的商用DM软件中提供的数据挖掘方法有限,在科学研究与特定商业数据处理过程中,用户需要用到的许多数据挖掘方法无法通过商用软件实现。为了解决商用软件DM云端实施平台的问题,开源软件DM平台有了广阔的应用与开展空间。二DMaaS的开源软件云端实施平台Cloud-R1. Cloud-R简介对于现今
22、的商业智能分析而言,通常需要进展海量数据的分析。因此,运用计算机的高效运算能对数据资进展统计分析已经是统计开展的必然趋势。以R 为首的多套统计软件都拥有强大的处以及统计能。由于R软件是以GNU 自由免费开发中的S language 工程而,具有广阔群众支持以及快速更新的优点,用户可以在R Project 中免费下载使用R软件。但在商业数据挖掘过程中,R 个人用户的计算机硬件配备无法支持庞大的计算量。此外,由于R软件版本与程序包更新较快,可能低一局部用户使用R 软件的意愿。针对以上R软件所固有的缺点,我们希望能够将R软件扩大成为一项 web service,R软件的广阔用户将能够透过web接口轻
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 数据 挖掘 云端 实施方案
链接地址:https://www.31ppt.com/p-1131275.html