欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    WebminingWeb挖掘基础商业智能.ppt

    • 资源ID:6524435       资源大小:1.29MB        全文页数:27页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    WebminingWeb挖掘基础商业智能.ppt

    Web挖掘基础,赵卫东 博士复旦大学软件学院,提纲,Web挖掘的概念Web内容挖掘Web结构挖掘Web日志挖掘,Web 挖掘的挑战,Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level CollectionWeb数据的复杂性高于传统的文本文档Web是一个动态性极强的信息源Web面对的是一个广泛的用户群体Web上的信息只有很小的一部分是相关的或有用的,Web挖掘与IR,Web上的IR是Web挖掘的一个方面,仅是对信息有序化。Web挖掘是智能化的IR,IR出现早,技术成熟。,Web挖掘概念,Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:CP。Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。,Web挖掘分类,Web内容挖掘,基于网页内容或其描述中抽取知识的过程。Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。,日志的预处理,Web文本挖掘,Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。,Web文本挖掘的方法,文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。文本分类:把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。文本聚类:根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。,Web文本挖掘的应用,搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。,文本挖掘在垃圾邮件过滤中的应用,Web多媒体挖掘,Web多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。,多媒体挖掘系统的结构,多媒体挖掘的典型应用,视频挖掘:从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化,并在此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。,Web结构挖掘,有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构,而且也存在于URL中的目录路径结构(页面之间的目录结构关系)。Web结构挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。,Web结构挖掘主要方法,PageRank算法HITS算法,PageRank算法,PRi:the PageRank value of page iPRj:the PageRank value of page jkj:number of the pages j refer tod:a parameter ranging 0,1.,Web结构挖掘的应用,信息检索 社区识别 网站优化,Web日志挖掘,Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息,即通过分析Web日志数据,发现访问者存取Web页面的模式。理解用户的行为,改进站点结构,发现潜在用户,为用户提供个性化的服务,增强网站的竞争力。,Web日志挖掘的应用,获取用户访问模式信息,理解用户的意图和行为分析用户的存取模式,为用户提供个性化的服务确定网站的潜在客户群,合理制订网络广告策略等改进Web站点的结构,使网站点随时间、用户需求的变化而不断调整对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等利用关联规则确定相关Web查询(查询修正),隐私保护数据挖掘,数据挖掘可能会违反用户的隐私在原始数据库中,类似于标识符、姓名、地址和喜好等数据作为用户的隐私应该被保护。对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。,病人原始病历,转换后的病历信息,医疗数据挖掘隐私保护,

    注意事项

    本文(WebminingWeb挖掘基础商业智能.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开