毕业设计(论文)基于Web内容的数据挖掘分析.doc
《毕业设计(论文)基于Web内容的数据挖掘分析.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于Web内容的数据挖掘分析.doc(13页珍藏版)》请在三一办公上搜索。
1、河南师范大学本科毕业论文 学号:基于Web内容的数据挖掘分析学院名称: 计算机与信息工程学院 专业名称: 计算机科学与技术专业 年级班别: 2012级1班 姓 名: 指导教师: 2016年5月基于Web内容的数据挖掘分析摘 要 二十一世纪以来,互联网技术飞速发展,Web也越来越流行,Web信息资源也是呈现爆炸式增长。基于Web内容的数据挖掘分析,通过收集Web访问者的互联网浏览记录、上网习惯等方式得到原始数据,用来改进互联网用户的操作体验,提升Web服务,也有利于商户开展有关的电子商务活动。本文讲述了从Web挖掘到Web内容挖掘、Web结构挖掘、Web使用挖掘的相关内容,重点简述了Web使用挖
2、掘的过程。表明了Web数据挖掘的主要应用方向,并着重分析相关应用方向的关键技术,然后介绍了Web数据挖掘的技术实现,有关联规则,序列模式挖掘技术,分类、聚类技术,路径分析技术,以及最后的Web挖掘技术的流程。关键词 数据挖掘;Web挖掘;信息提取Data Mining Analysis Based on Web ContentAbstract The twenty-first century, the rapid development of Internet technology, Web has become increasingly popular, Web information re
3、sources is explosive growth. Data mining analysis based on Web content , browse through the collection of Web visitors Internet records, surfing habits and other ways to get the raw data used to improve the operation of the Internet user experience, enhance the Web services, but also conducive to co
4、nduct business-related e-commerce activities. This article describes the mining from the Web to Web content mining, Web structure mining, Web usage mining-related content, focusing briefly on Web usage mining process. It indicates the direction of the main application Web data mining, and analyzes t
5、he key technology-related application direction, and then introduced the Web data mining technology, association rules, sequential pattern mining, classification, clustering technology, path analysis, and last Web mining process.Keywords Data mining; Web mining; Information extraction前 言近年来,网络以及通信技术
6、不断发展,互联网无疑成为全世界影响最大的信息服务的平台,给人们的生活带来了非常大的变革。如今,信息显得特别重要,互联网上的相关信息资源也无比丰富,人们在对待这么丰富的信息资源时,只有研究出关键相关技术才能从中挖掘出有价值的信息来。Web数据挖掘就这样诞生了,它可以帮助人们挖掘出人们所需要的隐藏在巨大信息资源背后的有效信息,符合人们的预期,这已经成了热门的研究方向。1 Web挖掘1.1 概念在1996年,Oren Etzioni第一次提出了Web挖掘这个概念。Web挖掘就是从海量的Web资源当中通过采用数据挖掘的技术能动的得到需要的信息1,11。数据挖掘是有数据库、AI、自然语言等几个方面的汇总
7、2。Web数据挖掘的步骤如下:1)发现资源:任务是在Web当中检索数据;2)信息选取和数据预处理:将已经挑选得到的某些原始数据根据相关技术进行预处理3;3)发现获取概要模式:利用某些特定技术将藏匿在不同的Web当中的概要模式进行提取;4)概要模式分析:确认已经获得的模式并解释。1.2 Web数据挖掘的分类Web数据挖掘的通常分类方法是依据挖掘对象的不相同,分类如下:web的内容挖掘;web的结构挖掘;web的使用挖掘。如图1。1.2.1Web的内容挖掘Web的内容挖掘就是针对Web文档,对于那些可以利用原始数据预处理技术处理的海量数据进行处理得到有价值的信息。Web的内容挖掘是对多媒体文档和文
8、本文档来说的。Web的文本数据挖掘,是对Web进行归纳,总结,分析,最终得出结论的4,12。近年来,业内对多媒体数据挖掘技术也是越来越成熟,越来越深入。Web挖掘内容挖掘结构挖掘使用挖掘文本挖 掘多媒体挖掘用户访问模式分析分析定制Web站点超链接挖掘页面结构挖掘 图1.1 挖掘分类(1)Web的文本数据挖掘Web的文本数据挖掘是把统计学和计算机语言学作为理论基础,从海量的文本数据中提取有用的信息技术5,13。(2)Web的多媒体数据挖掘对Web当中的图片、视频、音频等多媒体信息进行相关技术分析获得有效的模式信息,企图得知事物之间的相关性,得出结论。文本总结就是用较少的话语来归纳已经提取得到的信
9、息。文本分类就是根据不同的性质或主题将文本分门别类。文本聚类就是将某些具有相同的特征的文本集合起来。关联分析就是找到文档中不同部分的内在的关系。1.2.2 Web的结构挖掘Web的结构挖掘是在Web结构和链接关系当中寻找到隐含的信息和模式的过程。Web内容的结构不相同的网页之间的链接的关系,还有网页页面里的树形的关系,如HTML、XML,以及文档URL的目录路径结构等等6。利用Web的结构挖掘分析可以更加深入的对Web文档的内容进行分析,从整体的角度审视文档。结构分析可以采用先分解,再变形,最后归纳总结的方法。通过分类技术和聚类技术,获得最为重要的页面,称之为权威页面,目的是能够使得查找信息更
10、加高效。所谓链接关系指的是某些网页当中存在着彼此分享某些内容,相互引用的关系。Web的结构挖掘有很多的应用,包含以下几个方面:1)对网页的采集有着指导作用:因为链接关系,一个网页可能与其他不同的网页相链接,可以对这些相关联的网页进行质量排序,依据实际需要获得一些有价值的网页。2) 网页聚类:当前很多网页的聚类分析是依据文本相似度,但是有些可能会不符合预期目标。此时可以采用Web的结构挖掘分析,利用链接关系进行聚类可能会得到意想不到的结果。3)对社会团体进行识别:在互联网上有许多社会团体构建,运行以及维护的网页,可以对这些社会团体进行识别。4)对资源进行自动分类:日常生活中我们经常使用的搜索引擎
11、基本上都是按照层次来分类的,当前主要有贝叶斯概率方式和SVM方式。有专家曾验证表明,在按照分类的样本的学习机当中采用链接的方式进行分析就能够对分类的细化程度进行提高。1.2.3 Web的使用挖掘 Web使用挖掘就是根据在服务器上的搜索记录进行挖掘,就是对用户访问Web网页时的存取方式进行挖掘,以得到用户有关的访问模式7,14。使用挖掘即与日志挖掘相同。Web的使用挖掘分析得到互联网使用者的可能的访问模式,如互联网的某些可能访问习惯。根据实际应用不相同,可以分为两种跟踪模式,属于个人的独有的访问模式跟踪以及普通的大众的访问模式跟踪。个性化的访问模式跟踪就是依据个人用户的喜好和特性,构建合适此人的
12、Web站点。一般的访问模式跟踪就是正常根据整理平时网页日志来了解访问模式以及个人倾向,通过采用这些跟踪模式可以很好的了解Web结构以及资源分配者的遍布情况8。Web的使用挖掘可以分为以下几个步骤:采集数据,数据预处理,发现模式,分析模式9。如图:原始日志预处理后的数据各种模式在意义的模式规则图1.2 Web使用挖掘基本过程2 Web数据挖掘的主要应用研究方向2.1智能化搜索引擎进入二十一世纪以来,随着互联网技术的快速发展,网络上的信息量急剧增加,网络信息也是即时更新,网络用户们急切需要符合自己需求的工具,用来快速准确的获取有用的信息,尽量使得检索效率增高。由于现有的搜索引擎,如百度、搜狗,已经
13、能很好的达到搜索信息的目的,所以数据挖掘的工程师们从数据挖掘的角度来提高检索信息的准确度,使得个性化服务更加能够应用到网络互联网使用者的日常生活中。2.1.1目前的搜索引擎存在的不足:1)逻辑运算符不能满足用户需求目前的搜索引擎诸如百度等,所能够提供的提问函数不能够满足用户的需求,很多的搜索引擎只是能够在关键词的布尔连接之间提供帮助,但是例如SQL语言之类较为复杂的搜索不能提供给相关用户。2)在增量检索方面没有研究目前的搜索引擎在增量检索方面还缺乏发展,只能够对检索信息从新开始,而不能将用户曾经的检索过的信息进一步提炼,以达到更加准确的程度。3)只能提供关键词搜索目前广泛使用的关键词搜索不能更
14、好的满足用户的需求,关键词搜索仅仅只是简单的关键词匹配和检索。不能智能化的用语言交流,来达到检索的目的。4)搜索引擎单一面对当前海量的网络资源,单个搜索引擎的力量以及数据库的容量都对搜索能力的范围有所限制,而且不同的搜索引擎之间存在着许多相同的信息。2.1.2搜索引擎的关键技术1)排序信息和集成信息目前用户利用搜索引擎检索信息时,一般会反馈得到相关文档的摘要。许多搜索引擎会通过自动摘要的功能选择性抽词。这种方法准确度不高。人们可以利用Web的内容挖掘当中的对文本进行归纳的相关技术,也就是说利用Web文档的内容而不是根据某些词的位置来检索信息。对于PageRank算法,就是搜索引擎首先是检索提问
15、,之后再将检索得到的结果进行页面的分析15,得到页面的相关等级,然后依据页面对检索结果的重要性进行输出。全球著名的搜索引擎Google就是采用了这个技术才使得其检索结果准确度高。类似的算法还有AuthorityandHub16。2)识别搜索条件对搜索条件进行识别含有以下两个方面:一是对查询条件当中的有效成分进行提取;二是依据知识的数据库对所针对的关键词的相关词,如近义词或同义词进行提取。假设搜索引擎在对一个关系复杂的查询进行检索时,若简单的使用自然语言不做替换或提取有效成分,则很难得到预期的结果。所以说,建立一种有效的检索机制对提高检索准确度至关重要。3)个性化搜索引擎个性是每个人的特征,追求
16、个性是每个人的基本心理。搜索引擎与个性相结合,将更加能够得到用户的青睐。开发个性化的搜索引擎的首要前提就是能够准确的获知用户的兴趣爱好。通常为得知用户的兴趣爱好的方法就是根据用户的检索关键词、浏览的网页、书签文件、以及用户的动态更新等等。2.2智能化Web浏览器随着互联网的发展,信息资源也越来越丰富,传统的Web浏览器在应对用户需求时,可能难以应对。此时智能化的Web浏览器才能让用户需求得到更好的满足。2.2.1传统的Web浏览器存在的不足:1)不能满足用户的个性化要求;传统的Web浏览器接受用户的需求之后,机械的与服务器连接,服务器所反馈回来的页面不能与用户的个性相匹配,信息准确度不高。2)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 Web 内容 数据 挖掘 分析

链接地址:https://www.31ppt.com/p-2396251.html