欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    文本挖掘简介.ppt

    • 资源ID:5404380       资源大小:963.51KB        全文页数:15页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    文本挖掘简介.ppt

    文本挖掘简介,邹权博士,助理教授,Outline,IntroductionTF-IDFSimilarity,Introduction,Why?Text mining Web miningHow?Classification or ClusteringRetrieval,文本分类一般过程,预处理将文档集表示成易于计算机处理的形式 特征表示与选择、降维根据适宜的权重计算方法表示文档中各项的重要性 学习建模 构建分类器,文本分类预处理,去标点、多余空格、数字(可选)大小写统一去停用词(stop words)没有实际含义的词,比如and,you,have等等统一词根PorterStemmer分词英文?中文,特征表示,向量空间模型以词项为特征组成高维特征向量TF/IDF得到权值,TF-IDF,TF(Term Frequency)表示词项频率IDF(Inverse Document Frequency)逆文档频率TF*IDF值,8,Similarity Applications,Many Web-mining problems can be expressed as finding“similar”sets:Plagiarism/Mirror Pages/Articles from the Same Source/Duplication RemoveCollaborative Filtering as a Similar-Sets ProblemRecommend to users items that were liked by other users who have exhibited smilar tastes,Measurement,Edit distanceShort text,wordsFor personal textJaccard distanceLong text,ignoring the word similarityFor government text,Microsoft Academic Search,PK,http:/,http:/,Real-world Data is Rather Dirty!,Kenneth De Jong,Kenneth Dejong,2023/7/3,Trie-Join VLDB2010,10/38,Typo in“author”Typo in“title”,relaxed,related,Argyrios Zymnis,Argyris Zymnis,DBLP Complete Search,2023/7/3,Real-world Data is Rather Dirty!,Trie-Join VLDB2010,11/38,The similarity join is an essential operation for data integration and cleaningPerform a similarity join on Name attribute(find all record pairs whose Name attributes are similar)Output:(2037349,3054641),Similarity Joins,R,2023/7/3,Trie-Join VLDB2010,12/38,Near Duplicate Data,On one end,a winded Pete Sampras tried to summon enough energy to give the New York fans another memorable win to talk about it on the subway ride home.On the other side,Roger Federer wore a sly grin like he knew age was about to catch up to the former world No.1-the man who owns the record of 14 Grand Slams he wants.,03/11/2008|11:28 AM,By JAY COHEN,AP Sports Writer Mar 11,4:23 am EDT,Similarity Join,Tokenize:Each record is a set of tokens from a finite universe.Suppose each record is a single text documentx=“yes as soon as possible”y=“as soon as possible please”x=A,B,C,D,Ey=B,C,D,E,F,参考文献,Chuan Xiao,Wei Wang,Xuemin Lin,Jeffrey Xu Yu.Efficient Similarity Joins for Near Duplicate Detection.WWW 2008.Guoliang Li,Dong Deng,Jiannan Wang,Jianhua Feng.Pass-Join:A Partition based Method for Similarity Joins.VLDB 2012.,

    注意事项

    本文(文本挖掘简介.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开