第7课数据挖掘的高级主题.ppt
《第7课数据挖掘的高级主题.ppt》由会员分享,可在线阅读,更多相关《第7课数据挖掘的高级主题.ppt(85页珍藏版)》请在三一办公上搜索。
1、第7课 数据挖掘的高级主题,徐从富,副教授 浙江大学人工智能研究所,浙江大学本科生数据挖掘导论课件,内容提纲,Web挖掘隐私保护数据挖掘,Web 挖掘,Knowledge,WWW,Web 挖掘简介Web日志挖掘,Web Mining简介,产生原因应用分类过程,产生原因,网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。传统数据挖掘和文本挖掘技术的不断完善和应用。,应用,查询相关信息从Web数据发现潜在的未知信息了解用户的兴趣爱好信息个性化,Web 挖掘分类,Web Mining,Web Content Mining,Web Usage Mining,Web Structu
2、re Mining,Web内容挖掘,Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web内容挖掘策略直接挖掘文档的内容在其它工具搜索的基础上进行改进,Web内容挖掘(续),提取文字、图片或者其他组成网页内容成分的信息,即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的?哪些站点卖我们喜欢的东西?哪些页面介绍了我们感兴趣的知识?搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。,Web结构挖掘,Web结构挖掘研究的是Web文档的链接结构,揭示蕴含在这些文档结构中的有用模式,处理的数据是Web结构数据。是从WWW的组织结构和链接关系中推导知识。由于
3、文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。,Web结构挖掘(续),提取网络的拓扑信息网页之间的链接信息,即通过有效的结构挖掘能告诉我们哪些页面被其他页面所链接?哪些页面指向了其他页面?哪些页面的集合构成了一个独立的整体?,Web日志挖掘,Web日志挖掘的主要目标则是从Web的访问记录中(Web服务器log日志)抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Web access log),记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。,Web日志挖掘(续),一
4、般的访问模式跟踪通过分析日志数据来了解用户的访问模式和倾向,以改进站点的组织结构个性化的使用记录跟踪倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。,Web日志挖掘(续),提取关于客户如何运用浏览器浏览和使用这些链接的信息,即通过有效的日志挖掘能告诉我们那些客户访问了哪些页面?在每一页上待了多长时间?下一步单击了什么?在站点中是按照怎样的访问路线通向检查计数器,又是通过怎样的路线直接退出的?,Web挖掘过程,资源发现:在线或离线检索Web的过程,例如用爬虫(crawler)或(spider)在线收集Web页面信息选择与预处理:对检索到的Web资源的任何变换都
5、属于此过程。词干提取高低频词的过滤汉语词的切分综合过程:自动发现Web站点的共有模式分析过程:对挖掘到的模式进行验证和可视化处理,Web日志挖掘,Web日志挖掘数据类型Web日志挖掘应用Web日志挖掘过程,服务器日志,数据类型,Client IP:128.101.228.20Authenticated User ID:-Time/Date:10/Nov/1999:10:16:39-0600Request:GET/HTTP/1.0Status:200Bytes:-Referrer:“-”Agent:Mozilla/4.61 en(WinNT;I),Web 日志挖掘应用,Applications电
6、子商务中发现潜在客户增强终端用户信息获取的质量提高Web服务器的性能合理放置广告提高站点设计欺诈和入侵检测预测用户行为,Web日志挖掘过程,Web日志挖掘过程,预处理数据挖掘模式分析,数据预处理,数据清理用户对话识别页面视图识别路径完整,数据清理,根据一组原始的日志项,完成一系列基本任务,如归并日志、解析日志等。对于一些网站,需要过滤掉图象文件,这可以通过检查文件后缀实现。一般地,我们需要对日志中的状态码(status code)进行检查。,清理后的Sample Log,用户对话识别,1.IP Address&Agent2.Embedded Session ID3.Registration(U
7、ser Profile)4.Cookie5.Software Agent(Applet&Scrtipt)6.Modified Browser,用户对话识别(续),用户对话识别,页面视图识别,1-A,http:/ok.edu/link.htm,E,C.htm,1-C,A.htm,路径补全,解决由于Cache带来的问题路径不全的问题,数据挖掘,统计分析频繁项集和关联规则聚类分析和分类序列模式,统计分析,主要用于改进系统的性能、设计等包括:1)最频繁访问的页面2)每个页面的平均访问时间3)通过一个站点的平均时间,频繁项集和关联规则,可以寻找出经常频繁访问的page组,可用于修改Web 站点的设计或提
8、前缓冲页面,改进系统的性能。,包括两方面的应用:*user 用于Market segmentation(市场分割)和个人内容定制*page(content)后者主要用于IR和冲浪辅助,聚类和分类,序列模式,可用于用户的 visit pattern.包括:1.趋势分析2.拐点检测,模式分析,目的是根据实际应用,通过用户的选择和观察,把发现的规则、模式和统计规律转换为知识。Visualization,隐私保护数据挖掘,隐私保护数据挖掘简介隐私保护数据挖掘面向企业信用评估的分布式隐私保护数据挖掘研究,一、隐私保护数据挖掘简介,WhatWhyWhoGoalHowAn Example,什么是数据挖掘,数
9、据挖掘是从大量数据中提取或“挖掘”知识的过程。数据挖掘以客观、有效的数据源为物质基础。数据挖掘得到的知识是一种数据归纳的结果,是一种统计的知识。,什么是隐私,针对不同的应用环境,隐私定义不同。在信息时代,隐私指用户隐藏个人信息的权利和控制自己的信息给其他人的能力。,什么是隐私保护数据挖掘,“getting valid data mining results without learning the underlying data values”噪声背景的数据挖掘受限制的数据挖掘,数据挖掘可能会违反用户的隐私,数据挖掘以准确的数据为数据源,进行数据归纳分析。个体隐私记录级和属性级上的隐私组织隐私
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 高级 主题
链接地址:https://www.31ppt.com/p-4748770.html