文本分类综述.ppt
《文本分类综述.ppt》由会员分享,可在线阅读,更多相关《文本分类综述.ppt(37页珍藏版)》请在三一办公上搜索。
1、文本分类综述,报告内容,文本分类的定义和应用文本分类的方法文本分类的评估指标参考文献和资源,文本分类的定义和应用,定义,给定分类体系,将文本分到某个或者某几个类别中。分类体系一般人工构造政治、体育、军事中美关系、恐怖事件分类系统可以是层次结构,如yahoo!分类模式2类问题,属于或不属于(binary)多类问题,多个类别(multi-class),可拆分成2类问题一个文本可以属于多类(multi-label)这里讲的分类主要基于内容很多分类体系:Reuters分类体系、中图分类,应用,垃圾邮件的判定(spam or not spam)类别 spam,not-spam新闻出版按照栏目分类类别 政
2、治,体育,军事,词性标注类别 名词,动词,形容词,词义排歧类别 词义1,词义2,计算机论文的领域类别 ACM systemH:information systemsH.3:information retrieval and storage,文本分类的方法,人工方法和自动方法,人工方法结果容易理解足球 and 联赛体育类费时费力难以保证一致性和准确性(40%左右的准确率)专家有时候凭空想象知识工程的方法建立专家系统(80年代末期)自动的方法(学习)结果可能不易理解快速准确率相对高(准确率可达60%或者更高)来源于真实文本,可信度高,文本分类的过程,特征抽取(feature extraction)
3、,预处理去掉html一些tag标记禁用词(stop words)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、词频统计TFi,j:特征i在文档j中出现次数,词频(Term Frequency)DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)数据清洗:去掉不合适的噪声文档或文档内垃圾数据文本表示向量空间模型降维技术特征选择(Feature Selection)特征重构(Re-parameterisation,如LSI),文本表示,向量空间模型(Vector Space Model)M个无序标引项ti(特征),词根/词/短语/其他每
4、个文档dj可以用标引项向量来表示(a1j,a2j,aMj)权重计算,N个训练文档AM*N=(aij)相似度比较Cosine计算内积计算,Term的粒度,Character,字:中Word,词:中国Phrase,短语:中国人民银行Concept,概念同义词:开心 高兴 兴奋相关词cluster,word cluster:葛非/顾俊N-gram,N元组:中国 国人 人民 民银 银行某种规律性模式:比如某个window中出现的固定模式David Lewis等一致地认为:(英文分类中)使用优化合并后的 Words比较合适,权重计算方法,布尔权重(boolean weighting)aij=1(TFij
5、0)or(TFij=0)0TFIDF型权重TF:aij=TFijTF*IDF:aij=TFij*log(N/DFi)TFC:对上面进行归一化LTC:降低TF的作用基于熵概念的权重(Entropy weighting)称为term i的某种熵如果term分布极度均匀:熵等于-1只在一个文档中出现:熵等于0,特征选择(1),基于DF Term的DF小于某个阈值去掉(太少,没有代表性)Term的DF大于某个阈值也去掉(太多,没有区分度)信息增益(Information Gain,IG):该term为整个分类所能提供的信息量(不考虑任何特征的熵和考虑该特征后的熵的差值),特征选择(2),term的某种
6、熵:该值越大,说明分布越均匀,越有可能出现在较多的类别中;该值越小,说明分布越倾斜,词可能出现在较少的类别中相对熵(not 交叉熵):也称为KL距离(Kullback-Leibler divergence),反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离,该值越大,词对文本类别分布的影响也大。,特征选择(3),2 统计量(念xi):度量两者(term和类别)独立性的缺乏程度,2 越大,独立性越小,相关性越大(若ADBC,则类和词独立,N=A+B+C+D)互信息(Mutual Information):MI越大t和c共现程度越大,特征选择(4),Roberts
7、on&Sparck Jones公式其他Odds:Term Strength:,特征选择方法的性能比较(1),特征选择方法的性能比较(2),特征选择方法的性能比较(3),YangYi-ming,特征重构,隐性语义索引(LSI)奇异值分解(SVD):A=(aij)=UVTAM*N,UM*R,R*R(对角阵),VN*R,R=MIN(M,N)取对角上的前k个元素,得kAk=UkkVkT,Uk由U的前k列组成,Vk由V的前k列组成文档d在LSI对应的向量d=dTUk-1在已有的LSI中增加新的word或者document,不需要重新计算Folding-in 方法SVD-updating方法,自动文本分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 分类 综述
链接地址:https://www.31ppt.com/p-6297810.html