毕业设计(论文)BitTorrent流量检测识别技术研究.doc
《毕业设计(论文)BitTorrent流量检测识别技术研究.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)BitTorrent流量检测识别技术研究.doc(45页珍藏版)》请在三一办公上搜索。
1、本科毕业设计(论文)学院(部)计算机科学与技术学院题目BitTorrent流量检测识别技术研究年级2006专业计算机科学与技术班级计科(1)班学号姓名指导教师职称讲 师论文提交日期20XX-X-XX目 录前 言1第一章绪 论21.1研究背景及意义21.2BitTorrent概述31.3本文的主要工作及创新点51.4本文的组织结构5第二章P2P流量检测识别技术72.1P2P流量识别的难点72.2研究现状分析72.2.1基于端口的检测技术72.2.2深度数据包检测技术82.2.3基于传输层特征的检测技术92.3本章小结10第三章BitTorrent明文流量识别方法113.1BitTorrent协议
2、及其应用层签名113.1.1Peer wire协议113.1.2TCP-Tracker协议123.1.3UDP-Tracker协议133.1.4DHT协议153.2BT流量检测识别软件Porpoise163.3实验与分析183.3.1Vuze哑客户端183.3.2网络拓扑与实验环境183.3.3Trace数据集193.3.4指标定义203.3.5实验数据分析203.4本章小结21第四章基于MSE协议特征的BT加密流量识别方法224.1P2P加密流量检测识别技术224.2MSE协议224.2.1MSE协议握手过程234.2.2MSE协议特征234.3BT加密流量识别方法244.4实验与分析254
3、.4.1网络拓扑与实验环境254.4.2Trace数据集254.4.3实验数据分析264.5本章小结27第五章基于节点列表的BT流量预识别方法285.1节点信息来源285.1.1Tracker服务器285.1.2DHT网络285.2BT流量预识别295.2.1预识别表的建立295.2.2预识别过程295.3实验与分析305.3.1Trace数据集305.3.2M1+M3 vs. M1305.3.3M2+M3 vs. M2325.4本章小结34第六章 总结与展望366.1本文总结366.2后续工作展望36参考文献38致 谢40摘 要近年来,P2P(Peer-to-Peer)系统在内容共享、协同计
4、算、即时通信、流媒体等领域获得了广泛应用。据统计,截至2009年,在全球不同国家和地区,P2P流量已经占据了ISP业务总量的43%70%不等,消耗了大部分网络带宽,使网络性能降低,服务质量下降,导致传统的Web、Email等关键应用受到影响。另一方面,P2P应用带来了知识产权和安全问题。因此,如何实现对P2P流量的有效识别和管理是当前亟需解决的问题。BitTorrent是一种重要且具有代表性的P2P应用。据统计,2009年,BT流量已经占据全部P2P流量的30%81%不等。因此,本文主要以BT为研究对象,分析了现有的各种P2P流量检测识别技术,对比各种检测识别技术的优缺点,深入分析了BT协议和
5、源码,并对传统的BT流量检测识别技术进行改进,除了采用串匹配方法对BT明文流量进行识别外,还提出了利用BT加密协议特征,对BT加密流量进行有效识别的方法,以及基于节点列表的BT流量识别方法。将上述方法的检测结果与BT哑客户端Vuze所收集的真实BT流量信息进行对比,结果表明,本文所提出的两种方法都能有效识别BT流量。尤其是基于节点列表的BT流量识别方法,在提高识别准确性和降低开销方面,都有明显的优势。关键词:对等网络;流量识别;消息流加密;预识别AbstractIn recent years, P2P systems have been widely used in file sharing,
6、 cooperative computing, instant messaging and video streaming. In the year 2009, P2P traffic had a percentage of 43%70% of all Internet traffic in different countries and regions around the world. It has occupied most of the network bandwidth, affected network performance and quality of Internet app
7、lications, such as Web and Email. On the other hand, P2P applications have brought intellectual property and security issues. Therefore, identification and management of P2P traffic has become necessary.BitTorrent is one of the most important and representative P2P applications. In the year 2009, BT
8、 traffic had a percentage of 30%81% of all P2P traffic. This dissertation mainly discusses the BT protocol. We analyze the existing P2P traffic identification methods, contrast the advantages and disadvantages of them, and do inside analysis of the BT protocol with the source code. Then we propose a
9、n enhancement of the traditional BT traffic identification methods. Besides the identification method of stream matching, a method to identify the encrypted BT traffic based on the characteristics of MSE protocol and a pre-identification method of BT traffic is proposed. We compare their identified
10、results with real BT traffic information collected by a dump Vuze client. The results indicate that our methods can identify the BT traffic efficiently. Especially with the peer-list-based BT traffic pre-identification method, we can improve the accuracy and decrease the computing complexity.Keyword
11、s: Peer-to-Peer; Traffic Identification; Message Stream Encryption; Pre-identification前 言P2P(Peer-to-Peer,对等网络)是目前计算机网络领域的研究热点。P2P系统基于分布式模型,能极大地提高网络中信息、带宽和计算资源的利用率,为大规模数据交换提供了一种充分使用网络资源的方法。由于在数据分发、容错等方面,与传统的C/S模型相比有明显的优势,近年来,P2P系统在内容共享、协同计算、即时通信、流媒体等领域获得了广泛应用。由于大部分P2P应用对带宽是一种侵占式的占用,造成网络拥塞,甚至影响到传统的We
12、b、Email等应用。因此,网络运营商、内容提供商及校园网都有对P2P流量进行管理的强烈要求。而要实现对P2P流量的管理,首先要解决的问题是实现对P2P流量的检测。按照技术发展历程,P2P流量检测技术分为基于端口的检测技术、深度数据包检测技术(DPI,Deep Packet Inspection)和基于流量特征的检测技术。但由于部分P2P协议不公开,对数据流进行加密等原因,很难有通用的检测技术对其进行有效检测。上述各种检测技术均有其适用的场合和网络环境。目前最为成熟的P2P流量检测技术仍为DPI技术,但存在无法识别未知P2P协议或加密流量的问题。基于传输层特征的检测技术虽能检测加密流量,但无法
13、达到实时性的要求,且准确率相比DPI技术较低。本文主要以BitTorrent(简称BT)协议为研究对象,分析现有的各种P2P流量检测识别技术,对比各种检测识别技术的优缺点。在深入分析BT协议和源码的基础上,实现了对BT流量的有效识别,并进行了实验验证。本文完成的主要工作及创新点有:(1)利用BT协议的特征字符串,通过串匹配方法对BT明文流量进行识别。(2)分析了BT加密协议MSE(Message Stream Encryption,消息流加密)协议的特征,并基于此进行BT加密流量的识别。(3)通过捕获BT节点获取的节点列表,有效实现对BT流量的预识别。(4)利用BT哑客户端Vuze,收集真实的
14、BT流量信息,以此作为标准的对比数据。通过充分的实验数据分析,验证了本文所提出的第(2)和第(3)种方法的正确性。尤其是第(3)种方法在提高准确性和降低开销方法,都有明显的优势。第一章绪 论本章首先介绍了P2P流量识别技术的研究背景和意义,其次简单介绍了BitTorrent系统的各个组成部分及其作用,并概述了本文所做的主要工作和贡献以及创新点,在本章的最后介绍了论文的组织结构。1.1研究背景及意义P2P(Peer-to-Peer,对等网络)是目前计算机网络领域的研究热点。P2P系统基于分布式模型,能极大地提高网络中信息、带宽和计算资源的利用率,为大规模数据交换提供了一种充分使用网络资源的方法。
15、由于在数据分发、容错等方面,与传统的C/S模型相比有明显的优势,近年来,P2P系统在内容共享、协同计算、即时通信、流媒体等领域获得了广泛应用。自1999-2000年P2P诞生以来,呈现出快速、持续增长的势头。根据IPOQUE的一项全球性统计数据,截至2009年,在全球各个地区P2P流量已经占据当地ISP业务总量的43%70%不等1,如图1.1所示。而在中国固网运营商的网络中,P2P流量白天大约占据了全部带宽的35%60%,晚上则能占到50%90%2。图1.1 网络协议流量比例由于P2P应用的特点,给互联网业务带来了极大的挑战,主要存在以下问题:(1)侵犯知识产权:在P2P网络中,所有信息分散存
16、储在各个节点中,在目前缺乏有效的监管机制情况下,对知识产权的侵犯也是必然的。(2)抢占网络带宽:P2P的贪婪性导致网络带宽越高占用得越多。P2P流量长时间占用ISP的Internet链路,对网络业务的正常开展产生很大的影响。(3)运营商经营成本上升:通常的网络设计成上下行不对称即下行大于上行,但是P2P的出现使得上行流量大大增加,另一方面,P2P使得夜间下载流量增加,这两方面都增加了网络负载的压力。P2P减少了服务提供商的利润,同时还增加了结算成本。(4)传播网络病毒:病毒或木马伪装成可用资源供人们下载,借助P2P的强大传播能力,比一般的网络传播危害大得多。(5)分发不健康内容:在P2P共享中
17、提供了搜索功能,而搜索出来的内容中色情内容仍占据了较大比例。由于法律监管手段的缺乏,P2P使用者可以将不健康资源任意共享出来而不会受到法律的监管。由于P2P应用给网络带来了很多的负面影响,网络运营商正在积极地寻找解决对策,其中最主要也是能够最快见效的方法就是识别P2P流量,并限制在用户以及运营商可接受的范围内。因此,P2P流量识别技术正逐步成为研究热点。1.2BitTorrent概述在P2P的各种应用中,BitTorrent(以下简称BT)是一种重要且具有代表性的内容共享类应用,由Bram Cohen于2002年提出,此后在全球受到热捧。据统计,2008年,在全球范围内,BT流量占全部P2P流
18、量的30%81%1,如表1.1所示。表1.1 主要P2P协议比例(单位)协议南非南美东欧北非德国南欧中东西南欧全部P2P65.7765.2169.9542.5152.7955.244.7754.46Ares0.2942.630.002.240.840.160.111.80BT48.3430.0280.8374.5170.7748.9478.8558.20DirectConnect0.010.0017.870.080.850.000.120.30eDonkey2.4825.991.167.7024.2247.1715.3735.99Gnutella18.600.360.1414.211.751.
19、665.002.75iMesh13.600.020.000.470.000.030.000.14Thunder14.040.800.000.690.771.640.520.62Other2.640.190.000.100.680.410.030.21BT是一个典型的用于内容分发和共享下载的P2P协议,从2002年首次公开发表以来,已经发展成为最重要的P2P应用之一3。BT下载的客户端也有数十种之多,常见的如:BitComet、BitSpirit、Torrent、迅雷等,这些客户端通常都支持标准的BT协议。BT的设计目的是在网络上高效地传输大型文件。当需要分发大型文件时,将之分解为文件块(pie
20、ce),并由多个节点提供下载,以此减轻网络中单个节点的成本和负载。当使用BT协议下载文件时,节点将同时上传文件块。一个典型的BT系统由以下五个实体组成:元信息(metainfo)文件、Web服务器、Tracker服务器、Peer和Node,如图1.2所示。图1.2 典型的BT系统 元信息文件在使用BT协议共享某个文件之前,必须先创建一个元信息文件,也称为种子文件(torrent文件)。这个种子文件包含了需要下载的共享文件中各个文件块的信息,包括Tracker信息、共享的文件块总数、所有文件块的哈希值等基本信息4。当下载完成后,可以利用这些哈希值来验证文件的完整性。此外,文件中还包含一个用其它部
21、分的元数据计算得到的哈希值InfoHash。InfoHash值是种子文件的唯一标识(指纹)。 Web服务器种子文件通常保存于Web服务器,用户通过HTTP或HTTPS等方式从Web服务器上下载种子文件。 Tracker服务器种子文件下载完成后,BT客户端根据文件中包含的Tracker服务器信息,使用TCP-Tracker协议4或UDP-Tracker协议5与Tracker服务器联系并获取正在为此文件做种的节点列表。 PeerPeer是指在TCP端口监听并实现了BitTorrent协议的客户端。从Tracker服务器获得节点列表后,客户端使用Peer wire协议4连接其他节点,在经过BitTo
22、rrent握手、文件块资源查询等信令交互后,即可开始下载和上传相关文件块。 NodeNode是指在UDP端口监听并实现了DHT协议6的客户端。DHT协议用于node之间查询共享文件对应的peer位置信息和邻居节点信息。1.3本文的主要工作及创新点本文主要以BT为研究对象,分析现有的各种P2P流量检测识别技术,对比各种检测识别技术的优缺点。在深入分析BT协议和源码的基础上,提出了基于MSE协议特征的BT加密流量检测方法和基于节点列表的BT流量预识别技术,并进行了实验验证。本文主要工作及创新点如下:(1)对BT及相关应用层协议的研究。通过对Peer wire协议、TCP-Tracker协议、UDP
23、-Tracker协议、DHT(Distributed Hash Table,分布式哈希表)协议和实际网络流量的分析,找出各协议中的特征字符串,从而利用特征字符串匹配对BT明文流量进行识别。(2)提出了对BT加密流量进行有效识别的技术,这是本文的创新点之一。本文通过对MSE协议、Diffie-Hellman密钥交换协议的研究,在分析MSE协议在握手阶段前三个消息具有的传输层特征的基础上,对TCP流进行重组,进一步还原为应用层消息流,并基于此进行加密流量识别。实验结果表明,这种方法对标准的BT加密流量的识别率较高。(3)提出了基于TCP-Tracker、UDP-Tracker、DHT协议获取的节点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 BitTorrent 流量 检测 识别 技术研究
链接地址:https://www.31ppt.com/p-3976426.html