在线电影点播系统标度特性研究毕业论文.doc
学科分类号 本 科 毕 业 论 文(设计) 题 目 在线电影点播系统标度特性研究 Title Study on characteristics of online movie on demand label 姓 名 学 号 院 (系) 物理与电子科学学院 专 业 物理学 年 级 年 五 月 目录摘要1Abstract21.引言31.1 研究背景及研究趋势31.2 研究目的及意义41.3研究方法52.相关理论知识52.1电影点播52.2 时间间隔和回复时间62.3.泊松分布和幂律分布73数据说明84.个体行为的标度特性84.1 个体用户活跃度842幂律分布研究94.3 电影点播时间间隔与次数的实证分析115.结束语13参考文献14致谢161717摘要本文利用电影点播网站公开的实证数据,对人类动力学在线电影点播系统标度特性进行研究。研究部分电影点播个体的活跃度;对用户连续两次观看电影的时间间隔进行统计分析,发现时间间隔并不是随机的和平稳的,用泊松过程来描述是错误的,具有幂律分布的特点和性质,出现前瘦尾胖的现象,存在标度特性,;最后从电影点播次数的角度对人类动力学行为进行统计分析,并对其产生机理进行了探究。关键词;人类行为动力学;活跃度;幂律分布;标度特性;电影点播次数Abstract This paper uses empirical data movies on demand web site open, characteristic of standard for the online movie on demand system of human dynamics research. Part of the movie on demand individual activity; user two times in a row to watch the movie time intervals for statistical analysis, found that the time interval is not random and smooth, with a Poisson process to describe is wrong, has the characteristics and properties of power-law distribution, the phenomenon of thin tail fat before, there are scaling properties; finally, carries on the statistical analysis to the human dynamics from the perspective of the number of movies on demand, and the mechanism of inquiry.Keywords: human dynamics; activity; power-law distribution; scaling properties of on-demand movie times1.引言1.1 研究背景及研究趋势近些年来,人们对人类的活动时间统计特性进行了大量的实证研究。Barabasi 在2005年发表于Nature的一篇论文【1】,从记录人类活动历史的数据库中挖掘出了人类行为的统计规律,这为定量研究人类社会行为提供了一个新方向。刚初步形成人类行为动力学学科时,对人类行为的研究,都是通过假设人类行为是平稳性、无后效性、普遍性的。在泊松分布描述中,人类相继行为的间间隔一般认为是均匀和稳态的,不会出现长时间的静默和短时间内发生大量的事件,但Barabasi 等人在研究中却发现,现实生活中大量人类活动都不满足泊松分布,有着偏离现象,人类总是在短时间内从事密集活动,而接下来会在很长一段时间内将其搁置,这些现象都违背了泊松分布条件,引发了许多学者的研究兴趣。近年来,探索人类行为动力学已经成为复杂系统与复杂网络中的一个新兴的热点。国际上已有许多工作者做了实证研究,探索人类行为的非泊松特性对网络传播、通信等动力学过程的影响,特别是从2005年以来,仅在Nature, PNAS,PRL等强影响因子期刊上就已经有发表了十余篇文章。在国内,实证方面,2008年6月,上海理工大学课题组的李楠楠、张宁等在复杂系统与复杂性科学杂志中发表了论文人类动力学基本概念与实证分析,通过电子邮件及钱学森先生的个人信件记录,对人类行为偏离泊松统计进行了研究【2】;樊超、郭进利 、韩筱璞、汪秉宏等在人类行为动力学研究综述中总结了人类在通信、访问网络、工作和自身生理特征4个方面表现出的时间标度特征和在迁移活动中表现出的空间标度特征【3】;2008年12月,上海交通大学王科、胡海波等人在复杂系统与复杂性科学杂志中发表了论文中国高校电子邮件网络实证研究发现社团规模累积分布满足幂律分布【4】;中国科学技术大学复杂系统课题组的周涛等人与瑞士弗里堡大学合作,研究了电影点播中的人类行为模式以及与个体活动性之间的关系【5】;中国科学技术大学复杂系统课题组、上海理工大学管理学院、上海交通大学自动化系等都已经有相关的研究论文在国内外学术期刊发表【6-9】。本文是通过统计在线电影点播的一个大规模数据库作为实证对象,进而观察分析以电影点播为基础的在线电影点播系统标度特性。1.2 研究目的及意义人类的行为是一种很复杂的现象,要想深刻地了解人类行为的特征,从人类行为动力学形成至今一直是人们坚持不懈努力的方向,它潜在的应用价值吸引了各界人士的关注,包括社会学、心理学、人类学、物理学家等众多学科的共同关注,不管是群体还是个体的研究,都是社会心理学攻克的主要问题。对人类动力学行为进行研究有助于解决网络实时通信的拥堵,电子邮件病毒的传播,谣言的传播和城市的交通拥堵等。人们观看电影行为,是人类娱乐的重要行为方式之一,研究人们观看电影的行为,能够较好地反映人类自身的行为特征,并为人类行为动力学的研究提供部分理论基础。本文通过对点播电影的大量统计数据进行实证分析,研究人类个体以及社会群体的行为特征、相互作用。研究的持续深入,还需我们的继续努力,相信不久的明天, 呈现在我们面前的必将是一幅描绘人类行为的五彩斑斓的美丽画卷。1.3研究方法论文以电影点播时间特性为依据,通过对大量的人类行为事件进行定量统计分析,研究当中所暗藏的统计性规律,其次根据所研究的问题,提出假设、分析,进行论证,来探究这些规律的产生机制和可能的人类行为动力学影响。通过对人们观看电影时间的记录,统计两次观看电影的时间间隔,分析活跃度并统计分析电影点播次数,用软件绘制成图表使读者一目了然,并对结果产生的机理进行分析。2.相关理论知识2.1电影点播随着时代进步,人类对于信息存储方式和质量的要求日渐提高。刚开始,人们没有文字,就选用一些物体来记录发生的重要事件,比如古代波斯人就用绳子或者画图来记录;直到后来人们慢慢有了文字,就逐渐开始使用文字来记录周边所发生的重大事件;经过几次重大革命之后人类发明了相机,人们就用照片来记录人类历史;到了二战后期,美籍保加利亚人、物理学家阿塔纳索夫发明了世界第一台计算机,并随着计算机的不断的更新和发展,互联网已经遍及世界的每一个角落,成为一种生活的必需品。在这样一个计算机引领的时代,每分每秒都有庞大的数据量在互联网上传输,而这庞大的数据流中又有相当一部分是电子商务的数据,电影点播在线视频技术发展,人们观看最新的影视作品或了解最新电影资讯,只需要轻轻点击鼠标即可。电影点播采用php+mysql构建,具有运行速度更快,更安全等特点,运行程序目录中install.php进行安装。采用模块化后台管理,可轻松管理电影数据,能实现影片等级制度等功能,同时还可实现会员分级制度。支持在线点播,在线下载,在线直播等方式发布音乐和视频。可结合BBS论坛,实现用户数据库共享。同时能保存观看历史,可以随时回味曾经看过的精彩影片。用户收费机制:用户可分扣点消费,包月消费。其拥有便捷的手机银行、网上银行、银行卡等支付方式,配合程序就能实现时时开通。流量统计功能,该功能可统计出用户从哪里进入该电影网站。2.2 时间间隔和回复时间从数学角度很容易将人类相继行为的发生看作具有特定时间序列的随机过程, 而人每天要做的大量工作又可以看作源源不断地到达服务台的任务。间隔时间和等待时间是排队理论中的主要指标, 前者决定了输入过程的类型和性质, 后者反应了服务台的工作效率, 取决于任务到达系统和接受服务的随机过程。“ 间隔时间”即连续两次相继行为发出的时间差, 如连续两次发送电子邮件、借阅图书、网上购物等行为之间的时间间隔, 反应了人类行为发生的密度和频率。而“等待时间”则指某项任务从到达系统直到开始接受服务所经过的时间, 如短信通信中从收到短消息到回复该条短消息所经过的时间、网上交易中从下订单到发货再到收货之间所经过的时间等等, 又称为“回复时间”【10】。 2.3.泊松分布和幂律分布泊松分布最初是由泊松在最初审判管理案件的工作中引入概率概念时提出的【11】。现在它已被广泛应用于人类活动的量化模型中,用以描述单位时间内或指定范围内特定事件出现次数的统计规律性 ,例如模拟交通流量的模式或事故发生频率【12】、商业话务中心的配置【13】、库存管理【14】、以及估计移动通信中占线的电话数量【15】。泊松分布是 18-19世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,并且在21 世纪前,人类的行为分布是以泊松分布为基础。泊松分布是概率论中常用的一种离散型概率分布。若随机变量 X 只取非负整数值,取 k 值的概率为:泊松分布 P()中只有一个参数,它既是泊松分布的均值,也是泊松分布的方差。非泊松分布泛指除泊松分布以外的所有分布,在人类动力学中极为常见,其中最广泛、形式最简单、最具动力学内涵的是幂律分布。人们对幂律分布的研究最早起源于早期对各种语言词频的分析中,幂律分布最大的特点是其分布函数的尾部衰减速度远远慢于指数函数的各种分布形式,因其尾部的衰减速度非常慢,所以会出现一个胖胖的尾部,因此也常常把幂律分布称为“胖尾分布”、“胖尾特性”或“重尾分布”。幂律分布的概率密度分布函数的表达式为:P(X)X-,其中幂律指数的取值范围常处于1到4之间。3数据说明本论文采用的数据来自于Netflixipf网站公开的数据库,Netflixpf是目前全球最大的在线电影共享系统之一,该数据库是用户http:/wwwnetflixcom的在线电影观看记录,收集了17770部电影、447139个用户和接近1亿条用户点播电影时的记录。数据采集从1999年11月至2005年12月,反映了用户a给电影e的评分i及观看时间t,评分的标准为根据观众对电影的喜爱程度评出 1.2.3.4.5五个不同的评分等级。需要说明的是用户的ID是用数字随机分配的地址。从数据库提取部分用户的点播记录,通过计算出用户观看电影的时间间隔。4.个体行为的标度特性 4.1 个体用户活跃度为理解观看电影用户行为,我们依据活跃程度来分析用户对观看电影的喜爱程度。任意电影点播用户i的活跃度Ai定义为 Ai=Ni/T其中,Ni 是用户i在时间T内点播电影的总数目,T是用户的最早和最晚点播电影的时间间隔。活跃度Ai 的值越大,表示该用户在单位时间内点播电影的次数越多,表明活跃性越高,用户电影点播行为越积极。反之,Ai 的值越小,则活跃度越低。图1 活跃度统计分析图对11个用户的活跃度进行统计分析,如图1。由图中可知每个用户的活跃度高低起伏,可见,不同的用户观看电影的活跃度不尽相同,3用户的活跃度最高达到1.4,在100天内该用户平均观看了约140部电影,是标准的电影爱好者或影评人员,也有可能是离退休人士,休闲时间充足;10用户和11用户的活跃度接近0.5,大部分用户的活跃度低于0.25;8用户活跃度最低只有0.02,在100天内该用户平均只看了2部电影,一定是非电影爱好者,当然有可能是受网络条件的限制或者学习、活节奏紧张,生活压力大,休闲时间少的人士。 42幂律分布研究本论文研究了电影点播用户个体层面连续两次点播电影的时间间隔分布。先抽取出多个用户点播电影的详细记录进行统计,以下展示了a、 b 、c 3位个体用户点播电影时间间隔分布图像。时间间隔表示为同一个用户连续点播电影的时间差,以天为单位,然后对每个时间间隔出现的次数进行了统计,得到频率次数。画出横坐标为时间间隔,纵坐标为相应的频率次数的双对数坐标图。如图2所示。红色方点为实证数据,黑色的直线为幂指数的拟合直线,幂指数标度如图中所标示。Slope =-0.991 (a) (b) (c) 图2 双对数坐标下a、b、c三个用户电影点播时间间隔统计图由图2所示,不同的用户有着不同趋势的拟合直线,幂率标度分别为-0.991、-1.005、-1.228。有着明显的胖尾分布现象,即三个用户点播电影的时间间隔满足幂律分布,具有标度特性,并非经典的时间间隔均匀的泊松分布。每个个体观看电影的频繁程度不均匀,有静默期和暴发期,体现了该用户对观看电影是否喜爱的一个阶段表现,也是该段时间有没有出现受欢迎电影的一个实证,以及他这段时间的工作繁忙程度,有多少空闲时间,都会影响该用户观看电影的活跃程度。每一个空闲时段都会迎来一个观看电影的高峰期。4.3 电影点播时间间隔与次数的实证分析图3图3表示为随机选择一个用户从2004年1月21日-2005年12月26日之间观看所有电影的时间间隔和点播次数进行统计研究的结果。最下排的数字表示为该用户在这段时间观看电影的具体天数,共40天,也是点播电影活跃度的一个参数。在规定的时间内点播电影的次数越多, 点播电影的频率越大,即说明活跃度越高,点播电影的次数越少,点播电影的频率越低,即说明活跃度相对较低。图中菱形方块所连接的蓝色线条表示该用户在此段时间依次观看电影的时间间隔,数字为连续两次观看电影时间间隔的统计数值,正方形方块连接的红色线条表示该用户在当天所点播电影的次数,均为实证数据。由图可知该用户观看电影的时间间隔最长间隔为85天,其次45天,在这段时间可能是该用户工作繁忙的时间范围,导致观看电影的活跃度处于低潮期。时间间隔最低为1天,其次为2天、3天,频繁的在线视频电影观看,分析原因可能有两因素构成:一是该用户的休闲期,工作、学习压力较小,能有较多时间驻足于视频点播网站,如学生的周末或寒暑假,二是该用户处于在线观看电影的兴趣区间,这段时间表明该用户观看电影的活跃度相对高潮。再看红色方点,对点播次数进行分析,大多数红色方点都为1,表明该用户一天只看了一部电影,即该用户此段时间活跃度低下。而有一部分方点为6、5、3,那么用户在这三天分别看了6、5、3部电影,相对说明这些天该用户的活跃度相对较高。此期间用户可定为电影爱好者了,每天24小时近一半的时间在观看电影,应是少数个体行为,发生几率不高。其中方点为15,说明该用户可能这天与别人共享了这个账号,因为一个人一天看15部电影是不可能的,应该删除这样的数据。5.结束语随着数据挖掘技术和统计分析技术不断提升以及理论水平的不断进步,人们曾经错误的认为关联不显著的人类行为却在通信流量、网络流量以及计算机指令的监控下呈现出标度特性。人类动力学行为分析及行为媒介的研究对信息或病毒的传播、舆论的形成和传播以及对他人想法的影响均有着不可替代的地位。近些年来数据库技术的发展和多学科学者的共同努力,使得人类动力学成为复杂性科学中非常活跃的一个新兴科学领域,很大程度上拓宽了对复杂性科学研究领域的视野,逐步显示出广泛的应用前景。目前在该领域已经初步形成了若干类基本研究范式。本论文主要针对个体行为在线电影点播的实证数据进行统计研究,研究了个体的观看电影活跃度、观看电影时间间隔统计规律满足幂律分布具有标度特性,最后分析了个体电影点播次数,并分析其发生的可能机理。虽粗略完成,但仍然有很多的不足需要加强,不管是厚度还是深度都有待更一步的提高。人类行为动力学有着很高的应用价值,受到了许多领域学者的关注,目前已经出现了百家争鸣的局面,但仍还有很多空白领域等待着大家的研究。参考文献1 Barabási A-L. The origin of bursts and heavy tails in human dynamicsJ. Nature,2005,435(7039): 207 211.2 李楠楠,周涛,张宁.人类动力学基本概念与实证分析J.复杂系统与复杂性科学COMPLEX SYSTEMS AND COMPLEXITY SCIENCE,2008,5(2) 3 韩筱璞,周涛,汪秉宏, 基于自适应调节的人类动力学模型, 复杂系统与复杂性科学 4(4), (2007) 1.4 王科,胡海波,汪小帆.中国高校电子邮件网络实证研究J. 复杂系统与复杂性科学COMPLEX SYSTEMS AND COMPLEXITY SCIENCE,2008,5(4).5 周涛.在线电影点播中的人类动力学模式J.复杂系统与复杂性科学,2008 ,5(1) 6 李平,汪秉宏.证劵指数的网络动力学模型J.系统工程,2006,24(3).7曹盼盼,阎春宁.人类通信模式的幂律分布和Zipf定律J.复杂系统与复杂性科学COMPLEX SYSTEMS AND COMPLEXITY SCIENCE,2009,6(4).8 樊瑛,狄增如,何大韧.探讨社会网络理论与分析的几个问题J.复杂系统与复杂性科学,2010,7(2-3).9 司夏萌,刘云.虚拟社区中人际交互行为的统计分析研究C.物理学报Acta Phys.sin.,201110 郭进利.论坛网络演化模型D. 上海理工大学管理学院.11 Poisson S D. Recherches sur la Probabilitédes Jugements en Matière Criminelle et en Matière Civile, Précédées des RèglesGénérales du Calcul des ProbabilitésM . Paris: Imp rimeur2L ibraire pour lesMathematiques, 1837.12 Haight F A. Handbook of the Poisson DistributionM . New York: JohnWiley and Sons, 1967.13 Reynolds P. Call Center Staffing: The Comp lete, Practical Guide to Workforce Management S . Lebanon: The Call CentreSchool Press, 2003.14 Greene J H. Production and Inventory Control HandbookM . 3 rd ed. New York: McGraw2Hill, 1997.15 Anderson H R. Fixed BroadbandWireless System DesignM . New York: Wiley, 2003.1515