WebminingWeb挖掘基础商业智能.ppt
《WebminingWeb挖掘基础商业智能.ppt》由会员分享,可在线阅读,更多相关《WebminingWeb挖掘基础商业智能.ppt(27页珍藏版)》请在三一办公上搜索。
1、Web挖掘基础,赵卫东 博士复旦大学软件学院,提纲,Web挖掘的概念Web内容挖掘Web结构挖掘Web日志挖掘,Web 挖掘的挑战,Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level CollectionWeb数据的复杂性高于传统的文本文档Web是一个动态性极强的信息源Web面对的是一个广泛的用户群体Web上的信息只有很小的一部分是相关的或有用的,Web挖掘与IR,Web上的IR是Web挖掘的一个方面,仅是对信息有序化。Web挖掘是智能化的IR,IR出现早,技术成熟。,Web挖掘概念,Web挖掘是从大量W
2、eb文档的集合C中发现隐含的、有用的模式P的过程:CP。Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。,Web挖掘分类,Web内容挖掘,基于网页内容或其描述中抽取知识的过程。Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。,日志的预处理,Web文本挖掘,Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。,Web文本挖掘的方法,文本概括:从文本(集)中
3、抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。文本分类:把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。文本聚类:根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。,Web文本挖掘的应用,搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。,文本挖掘在垃圾邮件过滤中的应用,Web多媒体挖掘,Web多媒体挖掘
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- WebminingWeb 挖掘 基础 商业 智能
链接地址:https://www.31ppt.com/p-6524435.html