《网络大数据.doc》由会员分享,可在线阅读,更多相关《网络大数据.doc(7页珍藏版)》请在三一办公上搜索。
1、第 36 卷 第 6 期 计 算 机 学 报 Vol. 36 No. 62013 年 6 月 CHINESE JOURNAL OF COMPUTERS June. 2013 网络大数据:现状与展望 王元卓 靳小龙 程学旗 中国科学院计算技术研究所 网络数据科学与技术重点实验室 北京 100190 中国 摘 要 网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的的大数据。网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,对现有的 IT 架构以及机器处理和计算能力带来了极大挑战。同时,也为人们深度挖掘和充分利用网络大数据的大价值带
2、来了巨大机遇。因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法。本文分析了网络大数据的复杂性、不确定性和涌现性带来的挑战,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会化计算,以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学,数据计算需要新模式与新范式,新型的 IT 基础架构和数据的安全和隐私等方面的发展趋势进行了展望。关键词 大数据;网络大数据;网络空间感知;大数据存储;数据挖掘;社会化计算 Network Big Data: Present and Future WANG Yua
3、n-Zhuo JIN Xiaolong CHENG Xue-Qi Key Lab of Web Data Science amp Technology Institute of Computing Technology Chinese Academy of Sciences Beijing 100190 ChinaAbstract Network big data refer to the massive data generated by interaction and fusion of the ternaryhuman-machine-thing universe in the Cybe
4、rspace and available on the Internet. The increase of their scale andcomplexity exceeds that of the capacity of hardware characterized by the Moore law which brings grand challenges tothe architecture and the processing and computing capacity of the contemporary IT systems meanwhile presentsunpreced
5、ented opportunities on deeply mining and taking full advantage of the big value of network big data.Therefore it is pressing to investigate the disciplinary issues and discover the common laws of network big data andfurther study the fundamental theory and basic approach to qualitatively or quantita
6、tively dealing with network bigdata. This paper analyzes the challenges caused by the complexity uncertainty and emergence of network big data andsummarizes major issues and research status of the awareness representation storage management mining andsocial computing of network big data as well as n
7、etwork data platforms and applications. It also looks ahead to thedevelopment trends of big data science new modes and paradigm of data computing new IT infrastructures and datasecurity and privacy etc.本课题得到国家自然基金重点项目“在线社会关系网络挖掘与分析”No.61232010; “支持舆情监控的Web搜索与挖掘的新理论和新方法”No.60933005;国家973项目课题“面向公共安全的社
8、会感知数据处理”No. 2012CB316303;国家自然基金面上项目“基于随机博弈网的网络用户信息行为模型及演化性分析”No.61173008;国家自然科学基金青年项目“通讯网络中可变服务容量调度系统的性能建模、分析与优化”No. 61100175的资助。王元卓,男,1978年生,博士,计算机学会高级会员E200007139S,E-mail: ,副研究员,主要研究领域为社会计算、网络行为分析、信息安全等。靳小龙,男,1976年生,博士,E-mail: ,副研究员,主要研究领域为社会计算、网络性能建模与分析、多智能体系统等。程学旗,男,1971年生,博士,E-mail: ,研究员,主要研究领域
9、为网络科学、网络与信息安全以及互联网搜索与服务。2 计 算 机 学 报 2013 年Key words Big Data Network Big Data Cyberspace Awareness Storage of Big Data Data Mining Social Computing 分利用这些数据。1 引 言 近几年,网络大数据越来越显示出巨大的影响 作用,正在改变着人们的工作与生活。2012 年 11 1.1 研究与发展现状 月时代杂志撰文指出奥巴马总统连任成功背后 近年来,随着互联网、物联网、云计算、三网 的秘密,其中的关键是对过去两年来相关网络数据融合等 IT 与通讯技术的迅
10、猛发展,数据的快速增 的搜集、分析和挖掘 。目前,eBay的分析平台每长成了许多行业共同面对的严峻挑战和宝贵机遇, 天处理的数据量高达 100PB,超过了纳斯达克交易因而信息社会已经进入了大数据(Big Data)时代。 所每天的数据处理量。为了准确分析用户的购物行大数据的涌现不仅改变着人们的生活与工作方式、 为,eBay定义了超过 500 种类型的数据,对顾客的企业的运作模式,甚至还引起科学研究模式的根本 行为进行跟踪分析 。2012 年的双十一,中国互联性改变。 网再次发生了最大规模的商业活动:淘宝系网站的 一般意义上,大数据是指无法在一定时间内用 销售总额达到 191 亿元人民币。淘宝之
11、所以能应对常规机器和软硬件工具对其进行感知、 获取、管理、 如此巨大的交易量和超高并发性的分析需求,得益处理和服务的数据集合1。网络大数据是指 “人、 于其对往年的情况,特别是用户的消费习惯、搜索机、物”三元世界在网络空间(Cyberspace)中彼此 习惯以及浏览习惯等数据所进行的酆戏治?。交互与融合所产生并在互联网上可获得的大数据, 网络大数据给学术界也同样带来了巨大的挑简称网络数据。 战和机遇。网络数据科学与技术作为信息科学、社 当前,网络大数据在规模与复杂度上的快速增 会科学、网络科学、系统科学等相关领域交叉的新长对现有 IT 架构的处理和计算能力提出了挑战。 兴学科方向正逐步成为学术
12、研究的新热点。近年,据著名咨询公司 IDC 发布的研究报告,2011 年网 Nature 和 Science 等刊物相继出版专刊来探讨对大络大数据总量为 1.8ZB,预计到 2020 年,总量将达 数据的研究。2008 年 Nature 出版专刊“Big Data”,到 35ZB。 从互联网技术、网络经济学、超级计算、环境科学、 IBM将大数据的特点总结为三个V,即大量化 生物医药等多个方面介绍了海量数据带来的挑战(Volume) 多样化 、 (Variety)和快速化(Velocity) 。 2。2011 年 Science 推出关于数据处理的专刊首先,网络空间中数据的体量不断扩大,数据集合
13、 “Dealing with data”,讨论了数据洪流(Data deluge)的规模已经从GB、TB到了PB,而网络大数据甚至 所带来的机遇3。特别指出,倘若能够更有效地组以EB和ZB(1021)等单位来计数。IDC的研究报告 织和使用这些数据,人们将得到更多的机会发挥科称,未来十年全球大数据将增加 50 倍,管理数据 学技术对社会发展的巨大推动作用。仓库的服务器的数量将增加 10 倍以迎合 50 倍的大 1.2 网络大数据研究的意义数据增长 。其次,网络大数据类型繁多,包括结 总体而言,网络大数据研究的重要性体现在以构化数据、半结构化数据和非结构化数据。在现代 下几个方面:互联网应用中,
14、呈现出非结构化数据大幅增长的特 (1)网络大数据对捍卫国家网络空间的数字点,至 2012 年末非结构化数据占有比例达到互联 主权,维护社会稳定、推动社会与经济可持续发展网整个数据量的 75以上。这些非结构化数据的产 有独特的作用。信息化时代,国家层面的竞争力将生往往伴随着社交网络、移动计算和传感器等新技 部分体现为一国拥有网络大数据的规模、活性以及术的不断涌现和应用。再次,网络大数据往往呈现 对数据的解释与运用的能力。国家在网络空间的数出突发涌现等非线性状态演变现象,因此难以对其 字主权也将是继海、陆、空、天四个空间之后另一变化进行有效评估和预测。另一方面,网络大数据 个大国博弈的空间。在网络
15、大数据领域的落后,意常常以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能充 http:/www.china- 作者名等:网络大数据:现状与展望 3味着失守产业战略制高点,意味着国家安全将在网 的重新审视,正在引发科学研究思维与方法的一场络空间出现漏洞。为此,今年 3 月,美国政府整合 革命。科学研究最初只有实验科学,随后出现了理六个部门投资 2 亿美元启动“大数据研究和发展计 论科学, 研究各种定律和定理。 由于在许多问题上,划”。在该计划中,美国国家科学基金会提出要“形 理论分析方法变得太过复杂以至于难以解决难题,成一个包括数学、统计基础和计算机算法的独特学
16、 人们开始寻求模拟的方法,这又产生了计算科学。科”。该计划还强调,大数据技术事关美国的国家 而大数据的出现催生了一种新的科研模式,即面对安全,影响科学研究的步伐,还将引发教育和学习 大数据,科研人员只需从数据中直接查找、分析或的变革。这意味着网络大数据的主权已上升为国家 挖掘所需要的信息、知识和智慧,甚至无需直接接意志,直接影响国家和社会的稳定,事关国家的战 触需研究的对象。2007 年,已故的图灵奖得主吉姆略安全。 格雷(Jim Gray)在他最后一次演讲中描绘了数据 (2)网络大数据是国民经济核心产业信息化 密 集 型 科 学 研 究 的 “ 第 四 范 式 ” ( The Fourth升
17、级的重要推动力量。“人、机、物”三元世界的融 Paradigm)5,把数据密集型科学从计算科学中单合产生了大规模的数据,如何感知、测量、利用这 独区分开来。格雷认为,要解决我们面临的某些最些网络大数据成为国民经济中许多行业面临的共 棘手的全球性挑战,“第四范式”可能是唯一具有系同难题,成了这些行业数字化、信息化的障碍和藩 统性的方法。篱。如何使不同行业都能突破这一障碍,关键在于 网络大数据的深挖掘、大规模利用是新兴产业对网络大数据基本共性问题的解决。譬如,对于非 界的立足点。即便针对大数据的研究目前还没有建结构化数据的统一表示与分析,目前缺少有效的方 立一套完整的理论体系,也缺少高效快速的处理
18、、法和工具。因此,通过对网络大数据共性问题的分 分析与挖掘的算法与范式,但大数据的应用前景毋析和研究,使企业能够掌握网络大数据的处理能力 庸置疑,因为大数据从根本上来说就是来源于应用或者能够承受网络大数据处理的成本与代价,进而 的问题。著名出版公司 OReilly 的创始人 Tim使整个行业迈入数字化与信息化的新阶段。在这个 OReilly 断言,大数据就是下一个 Intel Inside,未意义上,对网络大数据基础共性问题的解决将是新 来属于那些能把数据转换为产品的公司和人群。一代信息技术融合应用的新焦点,是信息产业持续 MGI 的研究报告也宣称,大数据是下一代革新、竞高速增长的新引擎,也是
19、行业用户提升竞争能力的 争力和生产力的先导,网络大数据可为世界经济创新动力。 造巨大价值,提高企业和公共部门的生产率和竞争 (3)网络大数据在科学和技术上的突破,将可 力,并为消费者创造巨大的经济利益。Gartner 公司能诞生出数据服务、数据材料、数据制药等战略性 则更具体地预测,到 2015 年,采用大数据和海量新兴产业。网络数据科学与技术的突破意味着人们 信息管理的公司将在各项财务指标上,超过未做准能够理清数据交互连接产生的复杂性,掌握数据冗 备的竞争对手 20。余与缺失双重特征引起的不确定性,驾驭数据的高 本文梳理了网络大数据所带来的挑战以及相速增长与交叉互连引起的涌现性(Emerge
20、nce)4, 关的研究体系,从网络空间感知与数据表示、网络进而能够根据实际需求从网络数据中挖掘出其所 大数据存储与管理体系、网络数据挖掘和社会化计蕴含的信息、知识甚至是智慧,最终达到充分利用 算,以及网络数据平台系统与应用四个方面回顾了网络数据价值的目的。涌现性是指由低层次的多个 相关领域的新近发展,探讨了网络大数据研究方向元素构成高层次的系统时展示出的每个单一元素 和所面临的挑战,并展望了未来的主要研究方向。所不具备的性质。网络数据不再是产业环节上产生的副产品,相反地,网络数据已成为联系各个环节 2 网络大数据带来的挑战的关键纽带。通过对网络数据纽带的分析与掌握,可以降低行业成本、促进行业效
21、率、提升行业生产 如上所述,网络大数据面临着来自诸多方面的力。因此,可以预见,在网络数据的驱动下,行业 挑战。但从研究的角度来说,根本挑战在于其复杂模式的革新将可能催生出数据材料、数据制造、数 性、不确定性和涌现性。对这三个基本特性的研究据能源、数据制药等一系列战略性的新兴产业。 决定着网络大数据的发展趋势、研究进展和应用前 (4)大数据引起了学术界对科学研究方法论 景。4 计 算 机 学 报 2013 年2.1 网络大数据的复杂性 其组成的数据内在模式将会以指数形式增长。首 先 ,数 据类型 的多 样化决 定了 数据模 式的 多样 复杂性造成网络大数据存储、分析、挖掘等多 化。不仅需要熟悉各
22、种类型的数据模式,同时也个环节的困难。网络大数据的复杂性主要包括数据 要善于把握它们之间的相互作用。这种面向多模类型的复杂性、数据结构的复杂性和数据内在模式 式学习的研究需要综合利用各个方面的知识(如文的复杂性。 本挖掘、图像处理、 信息网络、甚至社会学等等) 。 (1)数据类型复杂性。信息技术的发展使得 为此,Han 提出用网络来描述异质数据间的关系,数据产生的途径不断增加,数据类型持续增多。相 同时提出了“元路径(Meta-Path)”的概率来刻画应地,则需要开发新的数据采集、存储与处理技 目标数据模式11。这样通过定义合适的元路径,术。例如社交网络的兴起,使得微博、SNS 个人 便可在数
23、据网络中挖掘有价值的模式。其次,非状态信息等短文本数据逐渐成为互联网上的主要 结构化的数据通常比结构化数据蕴含更多的无用信息传播媒介。与传统的长文本不同,短文本由 信息和噪音,网络数据需要高效鲁棒的方法来实于长度短,上下文信息和统计信息很少,给传统 现去粗存精,去冗存真。搜索引擎就是从无结构的文本挖掘(如检索、主题发现、语义和情感分析 化数据中检索出有用信息的一种工具。尽管搜索等)带来很大的困难。相关的研究包括利用外部数 技术在工业上已经取得极大得成功,但仍然存在据源(如 Wikepedia6,搜索结果7等)扩充文档, 很多不足(如对一些长尾词的查询,对二义性查询或者利用内部相似文档信息来扩充
24、短文本的表达 词的理解等),都有待长足的进步。另外,网络大8。然而,无论是利用外部数据,还是利用内部 数据通常是高维的,往往会带来数据高度稀疏与数据,都可能引入更多的噪音。另一方面,不同数 维度灾难等问题。在这种情况下,由于数据模式据类型的有机融合给传统的数据处理方法带来了 统计显著性较弱,以往的统计学习的方法多针对新的挑战。例如在社交媒体的研究当中地域信息与 高频数据模式挖掘,因此难以产生令人满意的效内容的融合9,时空信息与内容信息的结合10等 果。近年来,受实际应用驱动,高维稀疏问题成等。 为了统计学习领域的热点问题12。相关理论研究 (2)数据结构的复杂性。传统上处理的数据 发现基于稀疏
25、表达的学习方法(如 LASSO 等),对象都是有结构的,能够存储到关系数据库中。 在获得较好学习效果的同时,还具有更高的效率但随着数据生成方式的多样化,如社交网络、移 和鲁棒性13。动计算和传感器等技术,非结构化数据成为大数 2.2 网络大数据的不确定性据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频等等。非结构化数据 不确定性使得网络数据难以被建模和学习,从当中蕴含着丰富的知识,但其异构和可变性质也 而难以有效利用其价值。网络数据的不确定性包括给数据分析与挖掘工作带来了更大的挑战。与结 数据本身的不确定性、模型的不确定性和学习的不构化的数据相比,非结构化数据相对组织凌乱,
26、确定性。包含更多的无用信息,给数据的存储与分析带来 (1)数据的不确定性。原始数据的不准确,以很大的困难。目前相关的研究热点,包括开发非 及数据采集处理粒度、应用需求与数据集成和展示关系型数据库(如 Google 的 BigTable,开源的 等因素使得数据在不同维度、不同尺度上都有不同HBase 等)来存储非结构化数据。Google 提出了 程度的不确定性。传统侧重于准确性数据的处理方MapReduce 计算框架,Yahoo、 Facebook 等公司在 法,难以应对海量、 高维、多类型的不确定性数据。此基础上实现了 Hadoop、 Hive 之类的分布式架构, 具体而言,在数据的采集、存储
27、、建模、查询、检对非结构化数据做基本的分析工作。国内各大公 索、挖掘等方面都需要有新的方法来应对不确定性司和科研单位也启动了用于支撑非结构化处理的 的挑战 14。近年来,概率统计的方法被逐步应用基础设施研发,如百度的云计算平台、中科院计算 于不确定性数据的处理中。一方面,数据的不确定所的凌云(LingCloud)系统等。 性要求我们使用不确定的方法加以应对;另一方 (3)数据模式的复杂性。随着数据规模的增 面,计算机硬件的发展也为这类方法提供了效率、大,描述和刻画数据的特征必然随之增大,而由 效能上的可能。目前,该领域研究尚浅,在学术界6期 作者名等:网络大数据:现状与展望 5和产业界尚有大量问题亟待解决。 络数据中,由于不同的数据在属性、功能等方面既 (2)模型的不确定性。数据的不确定性要求对 存在差异又相互关联,因此使网络大数据在结构、数据的处理方式能够提出新的模型方法,并能够把 功能等方面涌现出了局部.
链接地址:https://www.31ppt.com/p-2396340.html