大数据时代索引与数据库事业的发展与创新.ppt
《大数据时代索引与数据库事业的发展与创新.ppt》由会员分享,可在线阅读,更多相关《大数据时代索引与数据库事业的发展与创新.ppt(56页珍藏版)》请在三一办公上搜索。
1、大数据时代索引与数据库事业的发展与创新,大纲,结语,大数据时代索引与数据库事业面临的挑战及创新,索引与数据库的发展现状,大数据时代,引言,RCCSE 中国科学评价研究中心,1 引言,“大数据”(Big Data)已经在全球引起了广泛关注,正在引领了又一轮数据技术的革命。美国EMC公司于2011年5月在美国拉斯维加斯举办第11届EMC World大会,大会的核心是帮助企业利用IT变革的重要趋势。此次大会以“云计算相遇大数据(Cloud Meets Big Data)”为主题,着重展现当今两个最重要的技术趋势,正式提出了“大数据”概念。,RCCSE 中国科学评价研究中心,根据IDC数字世界研究项目
2、在2012年的统计,2010年全球数字资源的规模首次突破了ZB(1ZB=1万亿GB)级别,达到了1.227ZB;而2005年只有130Eb,五年增长了10倍。如果保持这种爆炸式的增长速度,到了2020年,我们的数字资源规模将超过40ZB,相当于世界上每个人拥有超过5200GB的数据。无疑,我们已进入了大数据时代。,RCCSE 中国科学评价研究中心,单位:ZB,1 引言,在 2011年12月,我国工信部发布了物联网“十二五”规划,提出了4项关键技术创新工程。信息处理技术的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大数据技术的重要组成部分;另外3项关键技术创新工程,包括信息感知技术、
3、信息传输技术、信息安全技术,这些也都与“大数据”密切相关。我国也对大数据技术给予了足够的重视。,RCCSE 中国科学评价研究中心,1 引言,1 引言,基于以上概述,我们认为,大数据时代已经到来,已经对我们的社会产生了重大影响。本文将尝试对大数据时代我国的索引和数据库事业的发展与创新进行研究和展望。,RCCSE 中国科学评价研究中心,2 大数据时代,2.1 大数据的定义和特征许多权威机构和企业对大数据给予了不同的定义。麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。”,RCCSE 中国科学评价研究中心,2 大数据时代,IBM公司认为,可以用3个特征相结
4、合来定义大数据:数量(Volume)、种类(Variety)和速度(Velocity),即庞大容量、极快速度和种类丰富的数据。IDC公司认为,“大数据不是一个事物,而是一个跨多个信息技术领域的现象。大数据技术描述了新一代的技术和架构,通过使用高速(Velocity)的采集、发现或分析方法,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”,RCCSE 中国科学评价研究中心,综合以上几种不同的见解,我们认为,具备以下特征的就是大数据。(1)数量大(Volume)。大数据所包含的数据量很大,而且在急剧增长之中。但是,在可供使用的数据数量不断增长的同时,可处理、
5、理解和分析的数据比例却在不断下降。,RCCSE 中国科学评价研究中心,2 大数据时代,2 大数据时代,(2)种类多(Variety)。随着技术的发展,数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传感器数据等原始的、半结构化和非结构化数据。(3)速度快(Velocity)。除了收集数据的数量和种类发生变化,需要处理和生成数据的速度也在变化。数据流动的速度在加快,要有效的处理大数据,需要在数据变化的过程中实时的对其进行分析,而不是滞后的进行处理。,RCCSE 中国科学评价研究中心,2 大数据时代,(4)价值量(Value)。在信
6、息时代,信息具有很重要的商业价值。但是,信息具有生命周期,数据的价值会随时间快速减少。另外,大数据的数量庞大,种类繁多,变化也快,数据的价值密度很低。如何从大量多样的数据中尽快的分析出有价值的信息非常重要。对海量的数据进行挖掘和分析,这也是大数据技术的难点。,RCCSE 中国科学评价研究中心,(5)真实性(Veracity)。这是一个衍生特征。真实有效的数据才具有意义。随着新数据源的增加,信息量的爆炸式增长,我们很难对数据的真实性和安全性进行控制,因此需要对大数据进行有效的信息治理。大数据在结构类型上也有其特点:大多数的大数据都是半结构化或非结构化的。,RCCSE 中国科学评价研究中心,2 大
7、数据时代,半结构化的数据是指具有一定的结构性并可被解析或者通过使用工具可以使之格式化的数据,如包含不一致的数据和格式的员工薪酬数据。非结构化的数据是指没有固定结构,通常无法直接知道其内容,保存为不同类型文件的数据,如各种图像、视频文件。根据目前大数据的发展状况,未来数据增长的绝大部分将是半结构化或非结构化的数据。,RCCSE 中国科学评价研究中心,2 大数据时代,2.2 大数据时代已经到来(1)大数据时代已经到来理论的提出:2008年,Nature杂志出版一期专刊,专门讨论未来的大数据(Big Data)处理相关的一系列技术问题和挑战。现实的节点:2007年是人类创造的信息量有史以来第一次在理
8、论上超过可用存储空间总量的一年。,RCCSE 中国科学评价研究中心,2 大数据时代,(2)大数据时代到来的原因首先,信息技术和计算机网络技术的发展,为大数据时代的到来奠定了坚实的技术基础。各种技术的发展,使得数据的来源、类型、数量变得越来越多,由此产生出了的数目庞大且不断急剧增长的非结构化数据、半结构化数据,整个社会发展进入到了大数据时代。,RCCSE 中国科学评价研究中心,2 大数据时代,2 大数据时代,其次,大量智能终端的广泛应用与网络应用的不断增长,为大数据时代的到来奠定了坚实的物质基础。通过互联网和社交网络、数码相机等工具,每个人的日常生活正在被数字化,人们可以随时方便的根据自己的需要
9、,产生大量的非结构化数据、半结构化数据。特别是智能手机和笔记本电脑的普及,是当前数据量爆炸增长的一个重要原因。,RCCSE 中国科学评价研究中心,最后,信息社会的快速建立,信息成为越来越重要的经济资源,也是大数据时代到来的重要原因。在信息时代,数据已经成为社会资源的重要组成部分,基于数据的处理、分析、挖掘等服务都被信息服务机构广泛应用和开展,信息的经济价值越来越大,人们对数据的重视程度越来越高,由此也产生了大量的数据。,RCCSE 中国科学评价研究中心,2 大数据时代,2 大数据时代,(3)大数据时代的到来,必定会对索引和数据库事业也产生重大影响。本文将论述大数据为索引和数据库带来的机遇和挑战
10、,探讨大数据时代索引和数据库事业的发展与创新,以引起业界学者对相关问题的关注与探讨。,RCCSE 中国科学评价研究中心,3 索引与数据库的发展现状,3.1 索引事业的发展现状按照钱亚新教授的说法,“将一种书报或一套书报中讨论所及的人名、物名、事名、地名、时名或篇名等分析而组合,用一定的方法排列它们的次序,并表明它们在书报中所在的地位的表,叫作索引。换言之,索引是一种检查指定范围内的书报所有特项知识的工具。”,RCCSE 中国科学评价研究中心,一般来说,索引的编制有手工和计算机编制两种方式,随着科技和时代的发展,目前基本都使用计算机编制索引的方式。九十年代以来,随着当代数字化、网络化、智能化技术
11、的发展,索引研究对象也随之从传统的印刷型扩大到了数字型,出现了索引数据库、文摘数据库、全文数据库,以及网页索引、网址索引、搜索引擎、学科导航等各种新兴工具,检索语言、标引方法和索引技术等领域都有了新的突破。,RCCSE 中国科学评价研究中心,3 索引与数据库的发展现状,3 索引与数据库的发展现状,目前使用最多的索引产品是数据库索引,南京政治学院上海分院信息管理系的张琪玉教授直接提出了现代的索引就是数据库的判断。目前国内外的索引事业随着计算机和网络技术的发展也取得了很大的进展。,RCCSE 中国科学评价研究中心,在国际,SCI等三大索引在科技界形成了重大影响,其他领域的索引应用也取得了广泛的成果
12、。在国内,各种类型的中文全文文献数据库纷纷上网,为科研工作者提供了很好的帮助,传统索引事业也稳步发展。网络信息检索工具是国内外索引研究和应用的热点,影响越来越大。,RCCSE 中国科学评价研究中心,3 索引与数据库的发展现状,根据本中心的研究,目前国内外在索引领域的研究表现出明显的差异性,但发展趋势基本一致。具体表现在以下四个方面:第一,国内外对电子索引技术的研究日益成熟,在国内正处于研究网络的中心,而在国外已逐渐处于网络边缘。这与国内信息技术研究比国外起步稍晚的原因是分不开的。,RCCSE 中国科学评价研究中心,3 索引与数据库的发展现状,3 索引与数据库的发展现状,第二,传统的索引理论的研
13、究仍然占据重要地位。国内外学者对传统索引理论的研究仍然非常重视。相对而言,国外学者的理论研究更具全面性和系统性。第三,索引的应用研究将成为索引研究中的重要内容,国外的应用研究相对国内更为广泛。国外对索引的实践与应用的研究已经深入到了引文分析、文献计量学、科学计量学、评价、绩效评估、医学等多个具体领域。,RCCSE 中国科学评价研究中心,第四,与其他学科相结合开展研究可能成为未来索引研究的发展趋势之一。在索引研究的过程中注重与其他学科的结合,一方面可以引入新的理论与方法,如社会学、本体、知识地图、元数据等,为索引理论和方法的研究带来新的视角;另一方面,索引的方法与研究成果也可以应用于其他学科,为
14、促进其他学科研究的发展做出贡献。,RCCSE 中国科学评价研究中心,3 索引与数据库的发展现状,此外,自从改革开放到现在,我国的索引从业人员数量一直在稳步增加,这一方面与国家重视图书馆的建设有关,另一方面也是索引事业发展的需要。但是我们与国外相比,索引事业的从业人员仍然数量偏少,素质有待提高。特别是在索引教育方面,我们取得的成绩还不够,比如我们至今没有一本公认的比较权威的索引学教材。,RCCSE 中国科学评价研究中心,3 索引与数据库的发展现状,3.2 数据库事业的发展现状数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。相对于索引事业,数据库事业的发展更为迅猛。目前,全世
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 索引 数据库 事业 发展 创新
链接地址:https://www.31ppt.com/p-5815405.html