基于贝叶斯理论的微博“僵尸粉”识别研究.doc
《基于贝叶斯理论的微博“僵尸粉”识别研究.doc》由会员分享,可在线阅读,更多相关《基于贝叶斯理论的微博“僵尸粉”识别研究.doc(30页珍藏版)》请在三一办公上搜索。
1、基于贝叶斯理论的微博“僵尸粉”识别研究高中组 数学 个人项目摘 要随着微博迅速发展,微博“僵尸粉”(机器批量生成的恶意用户)泛滥,污染微博数据,危害网络安全,但现有识别方法大多不能有效识别僵尸粉、难以适应其更新换代. 本研究基于贝叶斯理论建立七个包含不同样本特征的微博僵尸粉识别模型,并根据ROC曲线和AUC值选出识别能力最佳的模型,最后利用MATLAB软件进行算例分析并制作用户界面. 研究分析表明:以用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值为样本特征的僵尸粉识别模型识别能力最佳,当概率阈值为0. 7时,其召回率和准确率分别达到92. 37%和98. 37%,识别效果良好.
2、关键词 微博“僵尸粉”,贝叶斯理论,识别模型 目录摘 要I1. 前言11.1 课题由来及意义11.2 相关研究现况21.3 贝叶斯理论简介22. 模型部分32.1 模型符号说明32.2 模型假设32.3 基于贝叶斯理论的识别模型42.4 基于最小风险的概率阈值选取52.5 模型评价指标72.5.1 ROC曲线和AUC值72.5.2 召回率、准确率和值83. 算例分析83.1 基于ROC曲线和AUC值的模型识别能力评价93.2 模型检验114. 用户界面制作125. 结论与展望145.1 结论145.2 展望14致谢16参考文献17附录181. 前言1.1 课题由来及意义随着互联网以及信息时代的
3、发展,微博(MicroBlog简称)已成为网络社交平台中炙手可热的焦点,截止2013年3月,仅新浪门户下的微博注册用户就已超过5亿. 微博作为用户即时分享交流的平台,部分企业营销的新路径,社会学等研究的重要依据,对于网络生活、经济发展和科学研究有着重大影响. 在微博中,粉丝是对某一博主保持持续关注的群体,粉丝数的增加使得博主的影响力逐步扩大,由此引发了粉丝数量的竞争和一场虚假粉丝(即僵尸粉)的买卖风波1. 僵尸粉是由计算机程序批量生成的恶意注册用户,它们有的以增加特定用户的粉丝数为目的,有的以散布广告信息为目的,其行为均由程序操控,不具有人的情感. 僵尸粉带来的虚假关注度大大减弱了微博平台信息
4、的可信度,影响了微博营销的公正诚信,增加了科学研究中数据采集过滤的难度,阻碍了微博这一新型社交平台的发展. 对于僵尸粉的泛滥新浪微博官方已采取相关措施2,过滤了部分僵尸粉. 然而“上有政策,下有对策”,从开始时“无头像无微博无粉丝”的低级僵尸,到如今逼近真实用户的高级僵尸,僵尸粉也在不断更新升级. 一些剔除僵尸粉的应用软件也应运而生3,但它们仅仅以简单的硬性标准过滤去一些不活跃的粉丝用户,对稍高级的僵尸粉依然束手无策,且很可能将新注册的用户误判为僵尸粉. 根据对淘宝“刷粉”店铺和卖家的调查,目前新浪门户关注型僵尸粉1大致分为四个级别:低级僵尸粉(一般无头像、无粉丝、无微博,现大多已被新浪官方屏
5、蔽),初级粉(一般有头像,无粉丝,无微博,部分可被新浪官方屏蔽),高级粉(有头像,有粉丝,有微博,新浪官方无法识别)和顶级粉(接近真实用户,且有部分“微博达人”新浪门户对活跃用户的奖励机制). 本研究基于贝叶斯理论建立微博僵尸粉识别模型,通过大量实际样本数据学习僵尸粉(主要针对初级粉和高级粉)和真实用户的基本特征,并投入实际的识别应用,具有较好的理论和实际应用意义. 1.2 相关研究现况针对僵尸粉的泛滥,微博官方与非官方都采取了一定措施进行过滤. 但现有方法仅能除去部分低级的僵尸粉,且很容易对新注册的真实用户造成误判. 僵尸粉问题也引起一些学者的关注,并纷纷进行探讨. 文献1对僵尸粉的概念和基
6、本类型进行了梳理,分析他们的行为特征,并提出基本识别方法,为微博僵尸粉的识别和清理奠定基础. 文献4根据微博用户存在的形式和用户间关系的特征,提出了一种降低僵尸粉影响的方法. 文献5提出一种基于微博注册用户名特征提取的智能分类方法,准确率达92%,但它对除用户名外的信息没有很好地利用. 贝叶斯理论是统计学决策方法的基础之一,通过采样,修正先验信息来减少事物的不确定性6. 它因具有较强的信息融合能力而广泛应用于分类、预测、决策等领域. 其中,在垃圾邮件过滤中贝叶斯方法表现出了很好的效果,较其他方法有较大的优势7. 综上所述,目前缺少有效识别僵尸粉的方法,本文将基于贝叶斯理论建立微博僵尸粉识别模型
7、,并通过算例分析来验证模型的有效性. 1.3 贝叶斯理论简介6贝叶斯理论是统计学决策方法的基础之一,它通过采样,不断修正先验信息,从而减少事物的不确定性,在此基础上制定最优决策. 它不仅仅承认和利用已有的知识,甚至包括主观的判断和直觉,而且它主张利用客观的采样信息修改并丰富已有的知识,因此贝叶斯统计推断过程类似于成人的学习过程,即知识的综合与更新过程. 假设个事件是互斥的,为另一给定事件,贝叶斯定统计推断的表达式为: (1)其中,表示事件的先验概率;表示事件在事件发生的条件下发生的概率,称为似然概率,通常表示采样信息;表示事件发生的概率,且;表示事件发生的后验概率,它综合了先验概率和似然概率(
8、采样信息). 2. 模型部分由于僵尸粉的产生由机器操控,且具有一定的目的性,它们的特征与真实用户有着本质的区别. 本文作者在观察统计大量僵尸粉与真实用户的基本信息(头像、关注数、粉丝数、微博数)后,发现僵尸粉与真实用户在头像、关注数、粉丝数和关注数的比值等方面有较大的差异. 文献1通过数据分析得出两类用户间,关注数和微博数的比值、微博数和粉丝数的比值等特征参数有明显的区别. 因此,从用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值这五项特征中选取部分或全部作为样本特征,建立7个基于贝叶斯理论的识别模型. 用ROC曲线和AUC值选出识别能力最佳的模型并检验其识别
9、效果. 2.1 模型符号说明(1)表示真实用户的样本集,表示僵尸粉的样本集. (2)将用户头像分为类,分别用表示;(3)将用户关注数分为类,分别用表示;(4)将用户粉丝数和关注数的比值分为类,用表示;(5)将用户关注数和微博数的比值分为类,用表示;(6)将用户微博数和粉丝数的比值分为类,用表示. 2.2 模型假设基于新浪微博平台的样本对用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值这五项特征进行相关度分析,其两两之间的相关度如表1所示. 表1:相关度矩阵头像关注数粉丝数和关注数的比值关注数和微博数的比值微博数和粉丝数的比值头像1. 0000-0. 33280
10、. 06410. 17190. 0305关注数-0. 33281. 0000-0. 0632-0. 16700. 1074粉丝数和关注数的比值0. 0641-0. 06321. 0000-0. 0166-0. 0365关注数和微博数的比值0. 1719-0. 1670-0. 01661. 0000-0. 1863微博数和粉丝数的比值0. 03050. 1074-0. 0365-0. 18631. 0000由表1可知:用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值这五项特征两两相关度绝对值大多不超过0.2,仅头像和关注数的相关度达到-0.3328,故假设它们均
11、互相独立. 2.3 基于贝叶斯理论的识别模型根据贝叶斯理论,一个样本特征为的未知用户属于僵尸粉和真实用户的后验概率分别为: (2) (3)其中,分别为该用户属于僵尸粉、真实用户的先验概率;分别为该用户属于僵尸粉、真实用户的似然概率. 选取不同的样本特征建立七个僵尸粉识别模型,其中:模型一的样本特征包括用户头像、关注数、粉丝数和关注数的比值;模型二的样本特征包括用户头像、关注数、关注数和微博数的比值;模型三的样本特征包括用户头像、关注数、微博数和粉丝数的比值;模型四的样本特征包括用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值;模型五的样本特征包括用户头像、关注数、粉丝数和关注数的比
12、值、微博数和粉丝数的比值;模型六的样本特征包括用户头像、关注数、关注数和微博数的比值、微博数和粉丝数的比值;模型七的样本特征包括用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值. 在模型一中,对某一样本特征为的未知用户,根据假设,用户头像、关注数、粉丝数和关注数的比值这三个特征相互独立,故: (4)同理: (5)这里,与分别表示僵尸粉和真实用户中头像分类为的概率;与分别表示僵尸粉和真实用户中关注数分类为的概率;与分别表示僵尸粉和真实用户中粉丝数和关注数的比值分类为的概率. 令式(2)中,将式(4)、式(5)代入式(2)和式(3)中即可得出该用户属于僵尸粉的后验
13、概率和该用户属于真实用户的后验概率. 类似地,在模型二、模型三、模型四、模型五、模型六、模型七中可得到某未知用户属于僵尸粉的后验概率与其属于真实用户的后验概率七个模型仅样本特征不同,其计算方法均相同. 2.4 基于最小风险的概率阈值选取8在基于贝叶斯理论的模型中,计算出某未知用户属于僵尸粉的后验概率后,还需要决策是否将该用户判定为僵尸粉. 这里采用概率阈值的方法. 当某样本特征为的未知用户属于僵尸粉的后验概率不小于某一概率阈值时,将其判定为僵尸粉. 以下根据最小风险原则确定僵尸粉识别的概率阈值. 对于每一次判定,人们总要承受其错判可能带来的损失,并希望这个损失最小. 因此,引入损失因子的概念.
14、 记将僵尸粉误判为真实用户的损失因子为,将真实用户误判为僵尸粉的损失因子为,且令,. (6)由于正确的判定不需要承担损失,故将特征为的未知用户判定为僵尸粉的期望损失 (7)同理,将特征为的未知用户判定为真实用户的期望损失 (8)当 (9)时,该用户判定为僵尸粉的期望损失小于将其判断为真实用户的期望损失,根据最小风险的原则,应将其判定为僵尸粉. 又式(2)和式(3): (10)将式(6)、式(7)、式(8)和式(10)代入式(9)中,可得当时,应将该特征为未知用户判定为僵尸粉. 因而在数值上即为概率阈值. 即表明使用者认为两种误判造成的损失一样大;越大,即越大,表明使用者越不能接受将真实用户误判
15、为僵尸粉的错误;越小,即越小,表明使用者越不能接受将僵尸粉误判为真实用户的错误. 2.5 模型评价指标9为选出以上七个微博僵尸粉识别模型中识别能力最佳的模型,引入ROC曲线(Receiver Operating Characteristic Curve)和AUC(Area Under the ROC Curve)值10-11;并引入召回率(Recall)、准确率(Precision)和值三个评价指标以检验该最佳模型的识别效果. 假设某组未知用户识别情况如表2所示. 表2:未知用户识别情况 识别类别实际类别僵尸粉真实用户僵尸粉NFFNFT真实用户NTFNTT表2中,NFF表示将实际僵尸粉正确判为
16、僵尸粉的个数,NFT表示将实际僵尸粉错误判为真实用户的个数,NTF表示将实际真实用户错误判为僵尸粉的个数,NTT表示将实际真实用户正确判为真实用户的个数. 2.5.1 ROC曲线和AUC值ROC曲线是一个全面反映模型分类性能的指标,它不受模型概率阈值以及未知用户中实际类别分布的影响. ROC关注正例判对率和正例判错率两个指标. 其中, (11)代表实际僵尸粉中,被正确判定为僵尸粉的比例,越大,模型识别效果越好. 而 (12)代表真实用户中,被错判为僵尸粉的比例,越小,模型识别效果越好. 在ROC平面内,横轴表示,纵轴表示. 选取不同的概率阈值以得到不同的与的组合,绘制出单位正方形内的ROC曲线
17、. 定性地看,该曲线向左上方凸的程度越大,该模型识别效果越好. 用单位正方形中ROC曲线下方面积即AUC值定量表示该曲线左上凸的程度,即AUC值越大,模型识别能力越佳. 2.5.2 召回率、准确率和值召回率考察模型找全僵尸粉的能力,越大,漏网的僵尸粉越少;准确率考察模型找对僵尸粉的能力,越大,被误判为僵尸粉的真实用户就越少;值是召回率和准确率的调和平均数,它综合考虑了召回率和准确率. 3. 算例分析本文作者通过从多家网店购买不同级别的新浪僵尸粉,得到有效的新浪僵尸粉样本1425个;通过网络调查问卷的形式征集新浪真实用户样本,收回来自上海、北京、浙江、江苏等八个地区的110份有效问卷,征集到有效
18、的新浪真实用户样本413个. 由于对新浪僵尸粉的真实数量和概率信息目前无清晰认识,故将模型中的先验概率设定为,即假设僵尸粉出现的几率与真实用户出现的几率是相等的. 此外,令模型中(1)即将头像分为3类:为真人照片的头像、其他头像以及无头像,分别用表示;(2)即将关注数(新浪普通用户关注上限为2000)分为20类,用表示,且 (3)即将粉丝数和关注数的比值分为13类,用表示,且(4)即将关注数和微博数的比值分为20类,用表示,且(5)将微博数和粉丝数的比值分为20类,用表示,且本节基于新浪微博的样本数据,利用MATLAB软件12进行算例分析,选出识别能力最优的模型并检验其识别效果. 3.1 基于
19、ROC曲线和AUC值的模型识别能力评价建立样本库,对7个僵尸粉识别模型分别运用十折交叉验证法(10-fold cross-validation)13 进行测试,即将样本库随机等分成10份,每次用9份作训练集,1份作测试集,循环10次. 采用文献14中的算法用MATLAB软件在一个ROC平面内绘制出它们的ROC曲线,如图1所示;并计算出单位正方形内曲线下部的面积即AUC的值,如图2所示. 模型一模型二模型三模型四模型五模型六模型七图1:七个识别模型的ROC曲线图2:七个识别模型的AUC值 由图1、图2可得到如下结论:(1)模型四(以用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值为样
20、本特征)的ROC曲线左上凸程度和AUC值最大,故其综合识别能力最强,而模型七(以用户头像、关注数、粉丝数和关注数的比值、关注数和微博数的比值、微博数和粉丝数的比值为样本特征)的识别能力次之. (2)分别对比观察模型一和模型五、模型二和模型六、模型四和模型七,后者的样本特征中均比前者多了微博数和粉丝数的比值,但识别效果却不如前者. 说明微博数和粉丝数的比值这一样本特征不足以反映僵尸粉和真实用户的本质区别,且对识别造成了干扰. 因此样本特征的数量并非是模型识别能力的决定性因素,选出最合适贴切、能反映用户本质的样本特征才是建立有效识别模型的关键. 3.2 模型检验虽然十折交叉验证法的每一组训练集和测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 贝叶斯 理论 僵尸 识别 研究
链接地址:https://www.31ppt.com/p-3940908.html