《毕设中期报告》PPT课件.ppt
网络热点信息的监测与发现研究,专业:数字媒体 班级:0305100103 姓名:丁云翔 导师:吴 锋,1.毕设进展状况,自2014年2月完成开题报告以来,按照开题报告中的计划展开研究。在导师的指导下,毕设的研究工作进展比较顺利,先将这一段时间的情况做一个介绍。自开题报告以来我学习了一些算法及有关知识,具体内容如下:,在前期完成了以下工作,(1)查阅了许多相关文献资料,已经完成需求分析;(2)完成数据的采集分析,功能概述的详细设计;(3)完成大部分数据搜集、分析;(4)对HTML、CSS与PHP数据库开发进行了一定的学习通过对这些知识的重新温故和学习,对后面所要完成的任务更加清晰。(5)对层次分析法的理解和学习,本系统的具体模块,先介绍一下两个大模块:网络微博获取模块和数据处理分析模块在网络微博获取中,主要要实现的对网络微博信息的获取,类似网络爬虫在数据分析模块中,主要实现对获取的数据进行各个关键词分类、分析,同时通过对其热度计算进行排序。,文本数据挖掘处理,网络信息挖掘是从大量训练样本的基础上得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。网络信息挖掘技术沿用了Robot、全文检索等网络信息检索中的优秀成果,同时以知识库技术为基础,综合运用人工智能、模式识别、神经网络领域的各种技术。应用网络信息挖掘技术的智能搜索引擎系统能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。对于微博的文本数据挖掘,包括数据获取、预处理、数据转换。,文本数据挖掘处理结构(微博数据挖掘处理),当前进展,通过对采集的数据()进行分析得到对于是 否为微博热点信息的主要特征指标。包括认证信息、粉丝、评论、转发,四个指标属性。对各个指标的确立分类、分析。V的分类,微博信息采集(转发、评论)拟定一个微博热度公式模型、对此微博的态度,对此微博的情绪,对V认证信息的分类,对对此微博态度的分类,对此微博情绪的分类,上述各项内容在数据采集以及分析上已基本完成,同时对于数据采集后的数据处理正在进行。,2.1存在问题,(1)目前数据的采集依靠的是人工采集和网络爬虫(来自网络)并非自己的程序系统,目前参照网络爬虫正在设计设和自己的网络爬虫以便更快速方便的获得数据。(2)数据挖掘后续工作的遇到阻碍,进展较慢。(3)需要更多的数据来拟定公式,目前对于拟定 公式数据量不够容易出现错误,2.2解决措施,(1)进一步理解望楼爬虫工作原理结合自己所需内容设计爬虫;(2)多参阅一些有关书籍、文献,多运用有关方面的知识,进一步完善数据的分析处理得到公式模型。,3.后期工作安排,通过对前面阶段的努力,在后期的工作安排主要有一下几点:完成网络爬虫设计;完成对爬虫获取微博热度的分析、排序的设计;完成界面的美观设计;具体安排:4月内:网络爬虫设计,并初步定下公式模型;5月初至5月中旬:完成对获取微博的热度分析、排序系统的设计,同时初步撰写好论文;5月中旬至下旬:对设计作品、论文进一步改进,完善;6月初至答辩前:准备答辩。,Thank you!,