文本挖掘简介.ppt
《文本挖掘简介.ppt》由会员分享,可在线阅读,更多相关《文本挖掘简介.ppt(15页珍藏版)》请在三一办公上搜索。
1、文本挖掘简介,邹权博士,助理教授,Outline,IntroductionTF-IDFSimilarity,Introduction,Why?Text mining Web miningHow?Classification or ClusteringRetrieval,文本分类一般过程,预处理将文档集表示成易于计算机处理的形式 特征表示与选择、降维根据适宜的权重计算方法表示文档中各项的重要性 学习建模 构建分类器,文本分类预处理,去标点、多余空格、数字(可选)大小写统一去停用词(stop words)没有实际含义的词,比如and,you,have等等统一词根PorterStemmer分词英文?
2、中文,特征表示,向量空间模型以词项为特征组成高维特征向量TF/IDF得到权值,TF-IDF,TF(Term Frequency)表示词项频率IDF(Inverse Document Frequency)逆文档频率TF*IDF值,8,Similarity Applications,Many Web-mining problems can be expressed as finding“similar”sets:Plagiarism/Mirror Pages/Articles from the Same Source/Duplication RemoveCollaborative Filterin
3、g as a Similar-Sets ProblemRecommend to users items that were liked by other users who have exhibited smilar tastes,Measurement,Edit distanceShort text,wordsFor personal textJaccard distanceLong text,ignoring the word similarityFor government text,Microsoft Academic Search,PK,http:/,http:/,Real-worl
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 挖掘 简介

链接地址:https://www.31ppt.com/p-5404380.html