论文大规模分布式互联网应用的.docx
《论文大规模分布式互联网应用的.docx》由会员分享,可在线阅读,更多相关《论文大规模分布式互联网应用的.docx(14页珍藏版)》请在三一办公上搜索。
1、大规模分布式互联网应用的测量摘要:日益提高的效率与安全性需求催生了大量的大规模分布式新型互联网应用。这些网络应用所呈现的动态、分散、可扩展、高容错、隐私性强等特点,给网络应用的设计与管理带来了挑战。针对大规模分布式互联网应用进行测量,了解其行为特征、拓扑结构和流量特征,对于改进和管理互联网应用具有重要的参考价值。本文总结了新型互联网应用的测量研究框架,对新型互联网应用的特点、测量需求、技术难点进行分析,并以对等网络(P2P)在线视频服务、分布式匿名通信服务为例进行实例分析,介绍测量关键技术和未来研究方向。关键词:分布式;互联网应用;测量1 引言在信息社会,通信网络成为21世纪全球最重要的基础设
2、施之一。功能各异、形式多样的应用系统对数字信息的综合采集、存储、传输、处理和利用,最终都通过无处不在的网络平台完成,从而将全球范围的人类社会更紧密地联系起来,以不可抗拒之势影响和冲击着人类社会政治、经济、文化、军事、日常工作和生活的方方面面。随着互联网在世界范围内的迅猛发展,通过网络实现全社会的信息共享已逐渐成为现实。人们对互联网应用的效率与安全性的需求也日益提高,这种应用需求直接催生了大量的大规模分布式新型网络应用,这些新型应用从服务模式上解决传统网络应用在性能、安全性上的瓶颈问题,因此得到了广泛接受与快速发展。例如,近年来,伴随着世界网络经济的快速发展,对于包括网络电视、远程教育、视频会议
3、、在线游戏等在内的大量新兴网络应用服务的需求量剧增,而这些应用服务又都需要在线视频广播技术的支持。因此,在线视频服务作为一种具有变革意义的新型网络服务类型,自其诞生之初就吸引了研究界和产业界的注意。然而,以IPTV为代表的视频服务的发展始终受到各种因素的制约和困扰。传统的客户/服务器模式提供的点播和单播服务存在服务器接入链路带宽、输入/输出性能的瓶颈,而IP组播(IP Multicast)体系结构1和内容传送网络技术(Content Delivery Networks)也存在着可扩展性、部署成本等方面的问题。对等网络(P2P)在线视频服务是近年来兴起的新型大规模分布式网络应用,相比于传统的在线
4、视频服务,对等网络体系结构具有很多优势:首先,对等网络技术不依赖于网络路由器和底层基础设施,因此具有高性价比和比较好的可扩展性;其次,在对等网络中,每个节点既是服务器又是客户端,既是资源消耗者又是资源提供者,因此有多少需求就会产生多少资源,这就解决了在线视频服务巨大的需求规模带来的问题;再次,对等网络技术解决了原本客户/服务器网络架构对服务器过分依赖而导致的利用率低等问题,在一定程度上实现了对网络带宽资源的合理分配,缓解了网络带宽不足的问题,而且还丰富了节目源,让用户的选择余地更大。基于上述原因,对等网络在线视频技术越来越受到产业界的广泛青睐,展现了巨大的生命力。分布式匿名通信服务是伴随着互联
5、网应用的普及而产生和兴起的另外一种典型大规模分布式新型互联网应用。所谓匿名,是指保护用户身份信息的隐私,它已经成为很多网络应用的基本需求。在电子商务、电子选举、电子拍卖以及Web浏览、电子邮件、即时通信、在线医疗咨询甚至军事通信、情报通信等各种网络应用中,都存在保护用户身份以及通信关系等隐私信息不被泄漏的需求。然而,当前的互联网协议并不提供对匿名性保护的支持,网络管理人员、网络服务提供商甚至非法监听者都可以通过种种手段来获取网络使用者的身份信息、行为习惯等,危害个人隐私。尽管加密协议(如SSL、TSL、IPSec等)可以防止对通信过程中传递的信息内容进行窃听和分析,但是通过对网络数据报文的分析
6、仍能解析出通信的源地址、目的地址、报文长度、通信时间以及通信频率等,从而获知通信者的身份信息、网络行为特征或通信者之间的对应关系,侵犯个人隐私。这种缺乏隐私保护的现状已经严重影响了互联网应用的普及。因此,网络匿名通信技术作为一种保护网络用户隐私的基本手段,已经成为学术界、企业界甚至国家安全部门普遍关心的重要技术。如今,伴随着通信网络尤其是互联网的飞速发展以及新的网络应用的不断产生与普及,匿名技术得到了长足发展。大量的实用匿名技术被开发出来并被应用到匿名连接、匿名邮件、匿名存储、匿名选举等领域中。这些新型的互联网应用的产生和发展使其用户人数快速膨胀,对于互联网的研究与管理也产生了巨大的影响。以P
7、PLive(一种典型的对等网络在线视频系统)为例,2005年使用PPLive的用户数量为370万人,到2009年其用户数量将达到3690万人 Multimedia research group inc. Global Forecast 0805.html。对等网络在线视频流量发展至今已经成为网络流量的重要组成部分,而且随着用户增长其比重呈现上升趋势。Tor匿名通信系统的用户规模也达到几十万,大量网络用户通过网络匿名系统进行无序无控的信息交换,对于互联网的管理提出了巨大的挑战。因此,针对大规模分布式互联网应用进行测量,了解其行为特征、拓扑结构和流量特征,对于改进和管理互联网应用具有重要的参考价值
8、。本文针对大规模分布式新型互联网应用的测量问题进行研究,首先概述了现有的新型互联网应用的应用特点、测量需求、技术难点,然后以对等网络在线视频服务、分布式匿名通信服务为例进行实例分析,介绍测量关键技术和未来研究方向,最后总结全文并指出互联网应用测量的未来发展方向。2 新型互联网应用测量概述针对新型互联网应用的研究需求主要由两部分构成。一方面,从管理角度,有必要对这些应用的发展情况、其拓扑特征以及流量特征等进行了解,以实现对其监测、引导、控制等方面的需求;从另一方面来看,现有的新型互联网应用基本上都是基于大规模分布式网络用户相互协作的模式提供服务,因此对用户行为特征、地理分布以及拓扑特征等信息有所
9、了解,有助于设计出更符合真实网络应用环境的系统或协议。目前,新型互联网应用存在诸多问题需要解决:这类应用通常启动多个并发进程(或线程)进行数据传输和消息通信,极大地增加了网络负担,使网络拥塞现象日益严重;另外,其参与者往往是处于互联网边缘的个人用户,这类计算机系统缺乏有效的保护措施,再加上防火墙穿透技术在新型网络应用中的广泛使用,使得原本一些相对安全的主机失去保护而暴露于各种网络攻击之下;最后,新型网络应用中的共享资源以及通信过程往往缺乏有效的监管机制,大量的数字媒体被非法传播或受到恶意篡改,给知识产权拥有者造成巨大的经济损失,给互联网的内容监管也带来了挑战。简单的封杀、禁止新型网络应用并不能
10、最终解决问题,需要寻求网络用户、网络运营商以及内容提供商三方公平博弈共赢的解决方案。准确细致地测量、分析新型网络应用的性能,在网络监管、网络应用优化以及可生存性等多个层次上探索可行的技术方案,是有效解决上述问题的关键。然而,目前的新型网络测量技术与分析方法尚未成熟,不能完整、准确地获取新型网络应用的拓扑结构、用户行为、系统性能和连接与流量特征等信息,很难系统地分析网络特征。主要原因在于:(1)新型网络应用成长速度快,网络规模巨大,现有的原本只适合于中小规模网络的测量和拓扑分析方法不能直接应用到新型网络应用环境;(2)新型网络应用具有很强的动态特性,节点上下线频繁,覆盖网络的流量特性也不再像传统
11、的电信业务流量那样符合泊松模型,传统的网络测量分析手段在速度和效率上不能满足要求;(3)新型网络应用本身具有异构特性,网络中的节点通过不同的方式连接到互联网上,原有手段难以测量处于防火墙后面的节点;(4)目前对新型网络应用本身了解甚少,测量分析工作不得不建立在一些假设基础上,难以保障测量数据和拓扑分析的准确性、有效性和完整性;(5)很多新型网络应用具有抵御测量的措施,以躲避针对新型网络应用的识别与监管,需要结合特定测量对象研究具有针对性的测量技术来破解这些措施。从新型网络应用的发展趋势和应用情况来看,目前针对新型网络应用测量的研究框架如下图所示:图1. 新型网络应用测量的研究框架具体的研究内容
12、包括:1. 测量框架研究:研究新型网络应用的体系结构,建立规范、完整的测量系统框架;研究快速测量方法和测量数据获取策略;研究主被动相结合的新型测量方案;利用形式化的方法研究测量结果的完备性与正确性;研究测量系统的评价指标,包括稳定性、资源消耗代价、结果可靠性、准确性等;开发测量系统的仿真验证平台等;2. 测量测度研究:定义统一的、具体的、可重复的测量测度,从而解决目前测量目标分散,结果各异的问题,满足研究者、用户、运营商、应用运行人员之间知识传递以及进行不同系统比较的需求;3. 测量关键技术:包括面向运行规律的测量和面向运行效果的测量。从具体的测量内容来看,面向运行规律的测量包括用户行为的测量
13、与建模、网络拓扑的测量与建模、网络流量的测量与建模等内容,需要解决的技术难点包括用户行为特征的发现与采集、网络流量的识别等;面向运行效果的测量主要是从用户的角度对互联网应用系统进行测量研究,包括系统可用性测量、系统效率的测量等内容,需要解决的技术难点是测量结果的可信性验证等问题;4. 新型网络应用的设计与改进:基于网络应用的研究成果,设计更符合新型网络运行特征的协议或系统。对等网络在线视频服务、分布式匿名通信服务是两种典型的大规模分布式互联网应用。接下来,本文以这两种系统的测量为例进行实例分析,介绍测量关键技术和未来研究方向。3 对等网络在线视频服务的测量3.1 相关研究概述随着对等网络在线视
14、频服务的广泛流行,大量成功的商业对等网络在线视频系统(如PPLive、PPStream等)迅速发展起来,对等网络在线视频流量在网络流量中迅速地占据着越来越大的比例。面对这样的情况,对对等网络在线视频系统进行详细的测量就显得尤为必要了。通过测量,我们能够了解对等网络在线视频系统的行为特征、拓扑结构和流量特征等信息,这些对于改进和管理对等网络在线视频系统、优化网络资源配置等都有着重要的参考价值。a.被动嗅探方法b.主动爬行方法图2. 测量方法示意图对等网络在线视频系统规模巨大并且具有动态性特征,加上对等网络在线视频协议大部分都是私有、未公开的,这些都增加了对对等网络在线视频系统进行测量的难度。如果
15、掌握了某对等网络在线视频协议,就可以比较容易地取得系统日志,根据日志提供的信息对系统进行分析。张(音译,Zhang)等人在2中对于CoolStreaming系统的用户行为和视频质量接受度进行了测量,这是第一篇对等网络在线视频测量的文章。 吴(音译,CWu)等人在3和4中分别给出了UUSee的拓扑结构特征和流量特征。对于那些不公开协议的系统,测量方法可以分为被动嗅探(Passive Sniffing)和主动爬行(Active Crawling)两类。黑晓军(音译,XHei)、阿里(SAli)、希尔沃斯顿(TSilverston)分别在57中使用的测量方法就是被动嗅探。被动嗅探方法可以对被测系统的
16、流量特征(包括上下行带宽、TCP Transmission Control Protocol,传输控制协议/UDP User Datagram Protocol,用户数据报协议流量比例、TCP连接特征等)进行测量,可以发现被测系统在网络资源占用方面的一些特征,但无法了解网络的全局情况;为了克服这一缺点而发展起来的主动爬行方法则需要设计符合被测系统通信协议并且专用于测量的客户端-爬行器(Crawler),这种客户端能够与被测系统所有的节点进行通信,通过通信可以获得所需要的测量数据。黑晓军的8、9和胡( 音译,L.Vu)的10、11则都是首先对被测系统的通信协议进行分析,然后通过设计一个支持协议的
17、爬行器来主动探测系统并收集信息,从而达到测量系统的目的。对于对等网络在线视频系统的测量内容有很多,可以总结分类为用户行为、系统性能和连接与流量特征三大类。在目前的相关研究中,对于PPLive的测量工作做得比较多也最为深入。整体上看对等网络在线视频系统设计方面的研究相对已经比较深入,而在系统测量和安全方面的研究目前仍处于起步阶段,其主要原因在于目前所有对等网络在线视频协议为各个商业公司私有,无形中成为制约这些研究开展的主要障碍。要进行详细科学的系统测量必须掌握通信协议。3.2 对等网络在线视频系统的测量方法目前关于测量方面的相关研究一般采取以下三种方法:1. 基于嗅探的被动测量方法:所谓被动方法
18、就是将被测系统看作黑盒,利用像Tcpdump等嗅探器来捕捉系统通信流量,再进行分析测量。这类方法可以在不了解协议约定的情况下使用,一般搭建一个真实环境,通过嗅探机对客户端与对等网络络的通信流量进行统计测量。这样的测量方法只能对TCP/UDP流量比、上传下载带宽占用情况等一些初步的流量行为进行测量,而且也只能反映出本地客户端的情况,无法对整个对等网络有一个全局的了解。早期的一些测量研究中由于没有协议格式约定因此普遍采用这种方法;2. 基于协议逆向工程的主动方法:所谓主动测量方法是首先对被测系统的通信协议进行分析,然后通过设计一个爬行器来主动探测系统并收集信息,从而达到测量系统的目的。由于协议私有
19、的原因,目前的对等网络在线视频协议通信数据并没有进行加密处理,所有协议数据通过明文传输。另一方面,由于目前流行的对等网络在线视频系统普遍采用数据驱动(Data-Driven)方法设计,思路基本接近,因此协议设计中存在一些公共的要素成分,像邻居表、缓存映像(Buffer Map,BM)、视频数据块、频道或用户标识(ID)等。通过包嗅探将原始数据捕获,结合系统设计原理,利用逆向工程的方法,一般可以在通信过程分析中发现这些重要的数据模式,进而可以分析出协议的格式约定和语义信息。目前出现的对等网络在线视频测量研究基本上采取这样的研究思路;3. 基于客户端接口的主动方法:主动方法需要收集各个客户端的数据
20、,最为准确方便的方法是客户端提供测量接口。但是这样的要求很难满足。一方面协议开发者在协议设计过程中很少考虑系统测量方面的接口,另一方面商业私有协议为了保证其优势地位也不愿提供这样的接口。不过目前对等网络在线视频研究是一个在学术界和工业界都非常活跃的领域,一些研究机构为了获得更为准确的数据往往与对等网络在线视频公司展开合作。公司发布一些带有测量接口的客户端供用户下载,研究人员利用这些测量接口进行数据收集和分析。这一类研究由于要求比较好的合作条件因此相对比较困难。代表工作像3、4,研究者与UUSee合作进行了大规模的数据采集与分析。综合来看,基于对等网络在线视频的测量研究仍然处于起步阶段,国外在这
21、方面的研究从2005年左右开始而国内则在近一两年才展开。由于协议私有化壁垒的限制使得测量规模有限,测量方法也很不成熟。比如,基于嗅探的被动测量方法,相关研究一般是在校园网或者实验室环境下搭建测试平台,虽然得到的统计数据是基于真实流量,但是其实验规模限制了结论的普适性。从数据获取方法上看,基于协议逆向解析的主动测量方法仍然是当前的主流方法。对等网络在线视频协议的逆向解析工作不仅是系统测量研究的基础,对于今后基于主动方式的对等网络视频监管也具有重要的实际意义;另外具备了良好的数据获取条件后,对等网络在线视频系统的主动测量策略也是需要深入研究的重要问题。与文件共享服务不同,视频服务对实时性要求高,系
22、统的行为表现与用户的行为相互影响,这些都使得系统拓扑表现出很强的动态特征,而在这种环境下如何有效提取系统的拓扑特征目前还没有比较有价值的参考工作。3.3 用户行为测量用户行为特征与系统性能存在互相制约的关系,了解了用户行为特征可以更好地优化系统性能,反之系统性能好坏将影响用户的行为表现。在对等网络在线视频系统中,影响系统性能的用户行为主要表现在节点数量、节点到来与离开规律、节点生存期等方面。用户一旦使用对等网络在线视频软件观看在线视频,那么他的主机就成为了对等网络在线视频系统中的一个节点(Peer),我们用IP地址与端口号(TCP/UDP)来标识一个节点。测量系统中节点的行为,即测量了系统的用
23、户行为。(1) 节点数量无论是单个频道规模(单个频道的节点数量)还是整个对等网络在线视频系统中节点总数的变化都是很有时间规律的5、8、10。在对PPLive系统一天中节点数量变化的统计测量实验中,节点数量的高峰值一般出现在北京时间晚八点到零点之间,而零点到上午八点之间节点数量迅速减少,上午八点以后节点数量再逐渐上升5。由此我们可以看出,节点数量的变化规律与人们的作息时间相符合,根据时间可以推测出PPLive系统的大部分用户来源于中国。频道规模与该频道节目受欢迎程度相关。据统计,流行频道的同时在线人数可达几千或上万人,而非流行频道的同时在线人数可能只有几十人甚至几人。中国的春节联欢晚会是中国人最
24、重视的一个节目,2006年1月28日,在播放春晚的八点到零点之间测量收看春晚的节点数量,其总数达到了20万之多5。(2) 节点的到来与离开规律用户选择了一个频道之后,他的主机就作为一个节点出现在系统之中,这叫做节点的到来。而用户离开一个频道或者关掉对等网络在线视频软件,则导致一个节点的离开。电影频道和电视频道的节点到来规律基本一致,并且符合节点数量的变化规律。而电影频道和电视频道的节点离开规律则有不同。在电影频道中,节点的离开数量每一个半小时或者两个小时会出现一个峰值,在电视频道中就没有这种峰值的出现5。之所以出现这种不同,是用户的观看习惯造成的。用户选择一个节目以后,一般会等到节目播完以后再
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论文 大规模 分布式 互联网 应用

链接地址:https://www.31ppt.com/p-1675610.html