欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载  

    课程设计(论文)基于VLDB和SIGMOD论文统计的数据库研究热点预测.doc

    • 资源ID:4068854       资源大小:721.50KB        全文页数:17页
    • 资源格式: DOC        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    课程设计(论文)基于VLDB和SIGMOD论文统计的数据库研究热点预测.doc

    基于VLDB和SIGMOD论文统计的数据库研究热点预测(华南理工大学 软件学院,广东 广州 510006)摘要:当今世界上,在数据库领域有几个最具权威性的国际学术会议,比如vldb、sigmod、icde等,它们为各国的数据库研究者、开发者和应用者提供一个讨论和交流的平台,引导和促进数据库学科的发展。我们可以从研究人员在这些会议上发表的论文看出当今数据库技术的热点,发现相关课题的未来的发展趋势。首先,我们分析了vldb和sigmod会议在2008年、2009年和2010年所接受的关于核心数据库技术的论文。我们还引用了Observation on Database Research Trends via Publication Statistics中对这两个会议从1997年到2006年进行统计的数据。我们把论文归为28个类中,其中的22个类是基于传统的数据库技术提出的,其他6个类是我们在分析的过程中加入的新类别。然后,我们预测了六个新类别将断续走红并成为未来的新热点,这也是本文的一大特色所在。最后,我们分析出最近几年数据库技术热点的变化趋势,并推测出未来数据库技术的发展趋势。关键词:数据库;研究热点;趋势Prediction of database research focus based on statistical data of VLDB and SIGMOD papersZhen Zhen, Lin Yong(School of Software Engineering, South China University of Technology, Guangzhou 510006, China)Abstract: Today, there are several authoritative international academic conferences in the area of database, such as VLDB, SIGMOD, and ICDE. They provide a platform for researchers, developers, and users of database from every country to discuss and exchange their minds, guiding and promoting the development of database. We can see the research focus of todays database technology and the trend of related topics in the future from researchers papers published in these conferences. First, We analyzed papers about core database technology, accepted by VLDB and SIGMOD in 2008, 2009 and 2010. We also referred to statistical data from 1997 to 2006 in Observation on Database Research Trends via Publication Statistics. We classified these papers to 28 categories. 22 categories are classified based on traditional database technology, and the others are new categories we added during the analyzing. And then we predicte these 6 new categories will be more and more porpular and become hot spots in the future, which is the main feature of this paper. Finally, we analyze the trend of database research focus in recent years, and predict the trend in the future.Keywords: database; research focus; trend目录1引言32 介绍33 统计数据及总体分析34 具体分析84.1 传统升温热点84.2 传统稳定热点94.3 传统降温热点114.4 新兴热点134.5 往年热门但现在不热门165 结论17参考文献171引言数据库技术从20世纪60年代中期产生至今,经历了人工与文件管理阶段、层次与网状数据库系统阶段、关系数据库系统阶段和新一代数据库阶段。今天,新的数据库应用领域为数据库的应用开辟了新的天地,在应用中管理方面的新需求也推动数据库技术的研究和发展,以关系数据库为代表的传统数据库已很难胜任新领域的要求。为了支持现代应用,数据库工作者们从各个角度对数据库技术进行研究。由于应用特征及其要求的变化多样,加之数据库工作者的不同立场、观点、策略和方法,从而形成了现代数据库世界百花齐放的景象。我们现在面临一个问题:当前数据库研究的热门是什么以及发展趋势怎么样?为了准确地回答这个问题,仅凭感觉是不行的。为此,我们研究了VLDB和SIGMOD近三年的论文,将它们进行归类,从统计数据出发,来分析当前数据库的研究热点。2 介绍为了更好地将会议论文进行分类,我们从网络资源中找到一些统计数据。这些统计数据是通过把VLDB和SIGMOD从1997年到2006年所有的会议论文分成了22个研究方向,并将每一年的论文按研究方向进行统计后得到的。这些数据准确提供了2006年以前十年的每一年每一方向论文所占的百分比。我们所完成的工作是将VLDB和SIGMOD从2008到2010年的论文按那22个方向和6个新兴方向进行归类统计。为了将每篇论文准确地分到一个研究方向中,我们阅读了每一篇论文的摘要部分。我们所增加的的新方向包括“云(Cloud)”、“概率数据库(Probabilistic database)”,“移动对象(Moving object)”、“GPU与多核(GPU/CPUs)”、“图数据库(Graph database)”、“社交网络(Social network)”。从我们的分析中,我们可以看到一些课题一直是研究热点,比如“查询处理(Query processing)”;而一些几年前的热点却已经不再是热点了,比如“多媒体(Multimedia)”;我们还可以发现几个新兴的热点,虽然所占比例不是很高,但可以看出发展势头不小,比如“云(Cloud)”、“GPU与多核(GPU/CPUs)”。值得注意的是,在所有数据中缺少了2007年的数据分析,这是时间有限所致。而且我们的统计数据是分两部分,2006年之前是引用其他学者的,2008年之后是我们自己分析的。这两部分数据在归类标准和判断尺度上无法保证一致性。这在一定程度上影响预测的准确性。但我们基本是把两部分数据先独立分析,再联合起来分析,尽力减小这种影响。另外我们进行归类的会议论文只包括“reseach session”部分,而未将“industry session”、“tutorial session”、“demo session”等其它部分包括在内。3 统计数据及总体分析表1 VLDB和SIGMOD 19972006,20082010年论文统计表TopicsYear1997199819992000200120022003200420052006200820092010Recent 3-year Total# of papers939310695103111128150150141118116115271Access methods0.11110.09790.10610.11300.10480.05070.08050.08920.05030.03550.00850.00860.00000.01Benchmark, performance tuning0.02080.02100.03790.00870.02420.00000.02870.01880.02010.03550.04240.02590.02610.03Data mining or information retrieval0.10420.20980.08330.15650.11290.08700.05750.07980.09050.04570.00850.04310.03480.03Data model and schema mapping0.04170.03500.05300.00870.00810.00000.03450.02820.05030.03550.03390.02590.00870.02Data Quality /Recovery0.00000.00000.00760.00000.02420.00000.01150.00000.00500.01520.00000.00000.00870.00Data storage0.03470.02800.01520.00000.02420.02170.04600.00940.00500.00510.02540.03450.04350.03Data warehousing0.07640.06290.08330.08700.08060.08700.02300.01410.04020.05080.00000.03450.00870.01DBMS architecture0.06250.02800.04550.01740.04030.02900.00000.01880.03520.00000.00850.00860.00870.01Extensibility or scalability0.01390.02800.00000.01740.00810.01450.00000.01880.00000.01520.00000.02590.00870.01Information Integration0.02780.02100.06060.02610.00000.02170.01150.00000.00500.01520.02540.01720.01740.02Multimedia0.02780.02100.00760.00000.00000.00000.00000.00000.00000.00000.00000.00000.00000.00Network and distributed environment0.06250.01400.03790.05220.04840.02170.04020.03290.04520.08630.03390.05170.03480.04Query processing0.27080.28670.31820.26960.32260.21010.28160.30050.28140.28930.34750.23280.40000.33Reliability0.01390.00000.01520.00000.00000.00000.00000.00000.00000.01520.00000.00860.00000.00Security or privacy0.00690.00700.00760.00000.00000.05070.02870.03760.03020.04570.05930.07760.06960.07Sensor network0.00000.00000.00000.00000.00000.00000.01150.01880.01010.04060.00000.03450.02610.02Special database (GIS, bio, scientific)0.05560.04200.03030.05220.04030.04350.03450.05160.07040.04060.01690.01720.01740.02statistical database0.00690.02100.00000.00000.00000.00000.00000.00000.00000.00000.00000.00000.00000.00Stream-based data management0.00000.00700.00760.00870.00000.08700.09200.10800.10050.09640.06780.04310.06090.06Transaction management0.02080.02100.00760.03480.00810.02900.01150.00940.00500.02030.00850.01720.00870.01Web and web services0.04170.04900.04550.10430.06450.07250.06900.04230.03520.03050.01690.05170.03480.03XML0.00000.00000.03030.04350.08870.17390.13790.12210.12060.08120.10170.07760.04350.07Cloud/0.00000.00860.02610.01Probabilistic Databases/0.11860.05170.03480.07Moving object/0.00000.01720.00000.01Gpu / cpus/0.00000.03450.03480.02Graph database/0.06780.04310.02610.05Social network/0.00850.00860.01740.01在表1中,我们新加了6个新的研究方向,它们们于表中的最后六行。表1中的最后一列是将2008到2010年的论文集合在一块进行的统计。图1是我们根据表1中的数据绘制的统计图。图1 19972006,20082010 各类论文统计折线图现在我们对表1和图1进行详细分析,可以看到“查询处理(query processing)”一直受研究者所欢迎,保持比较稳定的状态,这方面的主题还包括“性能调优(Benchmark, performance tuning)”、 “联网与分布式(Network and distributed environment)”。还有一些主题,比如“安全与隐私(Security or privacy)”、“数据存储(Data storage)”、“流数据管理(Stream-based data management)”等,在近几年来处于升温状态。而有一些主题,已经慢慢降温了,这包括“数据挖掘(Data mining or information retrieval)”、 “XML”等。有一些主题,例如“多媒体(Multimedia)”、“DBMS框架(DBMS architecture)”已经很少被研究者所关注了,尽管它们曾经备受关注。从图表中,我们也兴奋地看到了一些新兴的主题,这包括:“云(Cloud)”、“概率数据库(Probabilistic database)”,“移动对象(Moving object)”、“GPU与多核(GPU/CPUs)”、“图数据库(Graph database)”、“社交网络(Social network)”。它们是新的市场需求和新的技术带来的产物,它们将成为未来的数据库技术的发展方向。更加具体的分析,请看第四部分。图2 2008年-2010年 各类论文所占百分比饼图我们并不对所有28个类别进行详细分析,而只是分析当前的热点主题,和一些有特别意义的主题。为了便于接下来的讨论,我们规定,如果一个研究方向在2008年-2010年间的论文数量比重3%则定为研究热点。我们新加入的方向也为研究热点。根据图2,符合规定的研究热点包括下列16个:l Benchmark, performance tuningl Data mining or information retrievall Data storagel Network and distributed environmentl Query processingl Security or privacyl Sensor networkl Stream-based data managementl Web and web servicesl XMLl Cloudl Probabilistic Databasesl Moving Objectl Gpu / cpusl Graph databasel Social network在这16个热点中,我们将新加入的6个方向称为“新兴的”热点,其余10个方向称为“传统的”热点。这10个传统的热点根据现在的研究热度又可分为三部分:热度正在加大的热点、热度保持稳定的热点和热度降低的热点。另外,还有一些方向,以前是热门方向,但现在却已经不再是热点了,它们是:l Access methodsl Multimedial Statistical database4 具体分析这部分是针对第3部分提出来的热点主题进行的具体分析。总体上包括传统主题和新兴主题。4.1 传统升温热点传统升温热点,是指这些主题在若干年前就已经存在,它们是近几年的热点,并且可能继续升温。这些主题的论文比例在未来几年将会继续增加。(1) security or privacy安全与隐私图3 从图3我们可以看到这个主题从2001年之后越来越热。这表示数据库的安全问题越来越受重视,而且在这个方面大有可为,至今仍是一个十分活跃的热点。这应该和当前的国际形势有关,世界各地的恐怖袭击越来越多;企业也越来越重视数据的保护。(2) data storage数据存储图4数据存储主题,比较特别,从图上可以看到折线呈现一个“W”型。分别在2000年和2005年出现了两个低谷,在2005年的低谷之后,我们可以看到呈现上升趋势。研究人员应该是在近年来发现了一些新的存储技术,于是对这个主题又重新感到兴趣。(3) stream-based data management流数据管理图5随着网络路由、传感器网络、股票分析等应用的推广,产生了一种新的数据类型,即流数据。流数据的特点是数据持续到达,速度快,规模大,传统的数据库技术并不适用于这种新型数据。这使得此主题自2002以来一直是研究热点。 4.2 传统稳定热点传统稳定热点,是指这些主题在若干年前就已经存在,并且它们一直是数据库研究的热点,每一年的论文比例都比较高而且比例数值比较稳定。(1) Query processing查询处理图6查询处理一直是一个热点,每年都有超过五分之一的论文是这个方面的。这是因为数据库从一开始就是用来满足用户的查询需求的。怎样让查询更加高效,是一个非常重要的问题。 (2) benchmark, perfomance tunning性能调优图7数据库性能调优,是指采取一系列措施,对数据库进行优化,通常与查询调优有重叠,但它常常与操作系统和CPU有关。这个方面也一直是一个热点。(3) network and distributed environment联网与分布式图8为了提高数据库的性能,和满足一些特别的业务需求,出现了分布式数据库。这个主题一直是个热点。近年来,传感器网络和物联网的兴起,也促进这个主题的研究。 4.3 传统降温热点传统降温热点,是指这些主题在若干年前就已经存在,它们也是近几年的热点,但呈现出降温趋势。在未来几年,这些主题的论文比例可能会继续下降。(1) Data mining or information retrieval数据挖掘和数据检索图9从图表中可以看出,数据挖掘在七八年前还是研究热点,它的高峰期是1998年左右,但进入二十世纪之后,论文的数量每年都减少。其原因极有可能与统计数据库相同。(2) sensor network传感器网络图10传感器网络,是指利用分布在不同空间上的多个传感器,进行合作,联合监控一些物理的或者环境的条件,比如温度,声音,速度,压力等。从2003年以后是一个热门,但近年有回落趋势。(3) Web and web services网络和网络服务图11从图中我们可以看出这个主题曾经比较热门,可能是这个方面学者已经做了大量研究,所以在2003年之后逐渐冷却。虽然近两年有所提升,但比例也是比较小且又有回落趋势。(4) XML图12XML曾经也是个十分活跃的研究热点,但近年来渐渐趋于冷却。这一方面是因为XML并不是数据交换的唯一形式,它给XML查询处理、半结构化数据处理等方面带来新问题。另一方面是因为已经有大量的研究成果可以很好地处理XML了。 4.4 新兴热点新兴热点,是指在近三年才出现的研究主题,这包括:“云计算”、“社交网络”、“概率数据库”和“GPU及多核”。这是因为最近几年,云计算技术,社交网站蓬勃发展;数据的不确定性不断增强所致。它们都是新的市场需求和新的技术带来的产物,将成为未来数据库技术的主要热点主题。(1) Cloud“云”图13云计算几乎可以提供无限的廉价存储和计算能力,作为一种新的技术,它被各个企业甚至是政府高度重视。在现阶段,数据库的数据容量激增与管理任务烦琐的矛盾越来越突出,云计算技术或许能担当起拯救者的角色。因为云计算刚刚兴起,在很多方面还不成熟,还存在着许多问题。所以,很多数据库研究者便将目光转向了云技术。(2) Social network社会网络图14传统互联网正在迈向一个全新的时代社交服务网时代,个体的社交圈会不断地扩大和重叠并最终形成大的社交网络。社交网的一个显著特点是支持巨大用户数,在一些大规模的社交网站中,其数据中心运行着成千上台的服务器,为遍布全球的用户提供信息通讯服务。另外,任何两个社交网用户都可能交互,也就是必须支持任何两个数据库用户的数据关联操作。这对于服务端的数据库管理提出了极大的挑战。因此,该领域也正逐渐成为数据库研究者的研究热点。(3) Gpu / cpus图形处理器、多核CPU图15数据库处理查询时,往往要进行大量的运算,特别是执行表的连接操作的时候,会使计算时间大幅度地增长,导致查询效率的降低。现在,越来越多的计算机具有多个cpu;在有些显示芯片上,集成有很多的处理核。这就为在这些多余的处理核上分担CPU的工作量提供了可能。如果能将处理任务分配到这些处理核上,任务的执行效率将会得到极大的提高。因些,如何在这些硬件上分担任务成为了一个吸引人的研究领域。(4) Probabilistic Databases概率数据库图16目前广泛应用的数据库绝大多数是关系型数据库 ,它们均以E.F.Codd的关系代数为数据库理论的基础,由此导致了它只能存储、管理完全确定性信息。而现实世界中存在大量不确定信息如市场预测、专家系统、模糊分析等等 ,这就需要建立一种具有不确定性度量的数据库模式。随着数据采集的多样性,现在的数据中包含大量的嗓音和不确定性,这就使概率数据库大有市场,这方面的研究也成为一个新的热点。(5) Moving Object移动对象图17随着无线通讯技术与定位技术的不断发展,对移动对象的跟踪和定位变得越来越可行,如交通控制、生物保护、气象监视等都涉及到对连续移动对象的存储、查询与处理需求,这就需要移动对象数据库技术提供支持。在移动对象数据库的研究中,如何建模、索引并查询移动对象的位置信息是很重要的。对此人们正在进行大量研究。(5) Graph database图形数据库图18虽然图结构在理论上可以用关系数据库模型规范化,但由于关系数据库的实现特点,对于图结构的查询有严重的性能影响。每次操作都可能导致一次连接操作,以两个表的主键集合间的集合操作来实现,这种操作不仅缓慢,并且无法随着这些表中元组数量的增加而伸缩。图论的巨大用途被得到了认可,它跟不同领域的很多问题都有关联。然而,在很多情况下,这些算法的应用仅限制于研究,因为实际中没有任何可用于产品环境下的高性能图形数据库实现。因此,很多研究者致力于图形数据库和研究。4.5 往年热门但现在不热门(1) Access methods数据库访问方法目前,数据库访问有ADO、OLEDB、DAO、ODBC、JDBC等。ado的效率不是最佳,但是使用极为方便,而且通过压缩传输recrodset然后使用updatebatch功能极大的降低了网络的负载。同时ADO支持将recordset用XML的方式储存、读取(读取需通过Stream对象),对于通过HTTP协议传输recordset极为方便。DAO微软已经放弃。ODBC作为一个标准,地位正在受到OLEDB的挑战。OLEDB的可扩展性和与ADO完美的结合使得我们可以访问任意位置的数据。JDBC是一种可用于执行SQL语句的JavaAPI,它由些Java语言写的类。通过使用JDBC,开发人员可以很方便地将SQL语句传送给几乎任何一种数据库。(2) Multimedia多媒体从统计数据表中,我们可以看到,连续好几年都没有这个主题的论文了,虽然它曾经是一个热门主题。这表明现在在多媒体数据库这方面的技术已经非常成熟了。对于多媒体的存储、索引和查询已经有了较好的处理方法。(3) Statistical database统计数据库统计数据库管理统计数据的数据库系统。这类数据库包含有大量的数据记录,但其目的是向用户提供各种统计汇总信息,而不是提供单个记录的信息。尽管统计数据库是数据挖掘的基础,它在科学领域的应用也十分重要,但由于这个主题已经有足够的科研成果,所以科研人员已经不再对这个主题感兴趣了。5 结论此文主要是统计了数据库领域最具权威性的学术会议VLDB和SIGMOD在2008年2010年的学术论文,并引用Observation on Database Research Trends via Publication Statistics中对这两个会议在2006之前的统计数据,对数据库的发展趋势和热点主题做出尝试性预测。文中通过数据统计,分析出当前的热点主题,对它们进行分类、预测其走向,并进行分析论证。本文也指出了一些曾经是热点而当前不是热点的主题,并分析其冷却的原因。在统计的过程中,我们提出了六个新类别,通过分析,预测其将断续走红并成为未来的新热点,这也是本文的一大特色所在。综合文中的分析,可以看到“查询处理”一直受研究者所欢迎,保持比较稳定的状态,这方面的主题还包括“性能调优”、“数据储存”、“联网与分布式”。还有一些主题,比如“安全与隐私”、“数据储存”、“流数据管理”等,在近几年来处于升温状态。这两类主题,应该也是接下来几年的研究热点。而有一些主题,已经慢慢降温了,这包括“数据挖掘”、 “XML”等。有一些主题,例如“多媒体”、“DBMS框架”已经很少被研究者所关注了,尽管它们曾经备受关注。这很有可能是这部分的研究已经在过去几年做得比较充分了。我们也兴奋地看到了一些新兴的主题,这包括:“云计算”、“社交网络”、“概率数据库”和“GPU及多核”。这是因为最近几年,云计算技术,社交网站蓬勃发展;数据的不确定性不断增强所致。它们都是新的市场需求和新的技术带来的产物,将成为未来数据库技术的主要热点主题。但由于2007年没有加入统计,这使得数据的连续性受到了破坏。另一方面,因为2006之前的数据是引用自其他学者的论文,而20082010是我们自己分析的数据,这两部分数据在归类标准和判断尺度上无法保证一致性。这在一定程度上影响预测的准确性。但我们基本是把两部分数据先独立分析,再联合起来分析,尽力减小这种影响。参考文献1 Amanuel Godefa,David Kuo-Wei Hsu,Observation on Database Research Trends via Publication Statistics2 VLDB 2010 Accepted Paper: http:/www.vldb2010.org/accept.htm3 VLDB 2009 Accepted Paper: http:/vldb2009.org/?q=node/21 4 VLDB 2008 Accepted Paper: https:/www.cs.auckland.ac.nz/research/conferences/vldb08/index.php/Accepted_Papers5 SIGMOD 2010 Accepted Paper: http:/www.sigmod2010.org/research_list.shtml6 SIGMOD 2009 Accepted Paper: http:/www.sigmod09.org/program_sigmod.shtml7 SIGMOD 2008 Accepted Paper: http:/www.sigmod08.org/program_glance.shtml#sigmod_program

    注意事项

    本文(课程设计(论文)基于VLDB和SIGMOD论文统计的数据库研究热点预测.doc)为本站会员(laozhun)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开