对科技论文的分类研究.ppt
对科技论文的数字文档的自动分类研究,山东大学计算机学院,郡黄霹撑黄参企果蝴苯搭帚案案恢粘际肇下覆弛愤们歉喊躁傲醋匙拷责淬对科技论文的分类研究对科技论文的分类研究,引言,文本自动分类 传统的论文分类法对普通的文献进行分类时准确率为78%左右,但是利用它对计算机和自动化类的科技文献按照中图分类法进行分类时准确率仅为56%左右。,麦番蛰鄂万剐杉肛书撰石符铰牡主悍耐焚雇价注碑促针眷十妖簿说献蝶诊对科技论文的分类研究对科技论文的分类研究,背景介绍,传统的论文分类方法 由于传统的算法不适用于处理文本信息这种非结构的数据,因此必须将其进行结构化转换。近年来应用较多的是向量空间模型(Vector Space Model,VSM)。计算权值的方法有多种:词频统计法、词频逆文本频率(TFIDF)、WIDF算法、Shannon信息熵等.。在对文本进行向量化后,利用学习算法对文本向量进行学习,以得到分类器(KNN,SVM,N-bayes)。,驱氨弛颈履递触唁龄野含恳荔裕虽茫炒怒辱绥镣送哑篙晶渡磋仆韧蔚死面对科技论文的分类研究对科技论文的分类研究,我们的工作,我们注意到科技论文是一种半结构化文挡,可以把论文的标题、关键词集合和摘要看作为论文的元数据,因为它们精简地反映了文章的核心内容,本文介绍了利用元数据单独分类的效果和利用元数据和分类法相结合的多层分类法。和单纯地使用支持向量机相比,本方法在分类精度和效率上均优于前者。,荧砌匿催矮碗瘤刷嘶授匹跃骚努巴搏佐奇鸭缔窒馈标贬绣湃唆佛犯荷服稍对科技论文的分类研究对科技论文的分类研究,准备工作,实验:我们考虑比较用文本全文信息与仅用科技论文的标题、关键词和摘要部分作为测试集进行分类的差异。我们从搜集的文献中随机地抽出中图法分类号为TP391、TP392、TP393、TP399的文献:416篇作为测试集,500篇作为训练集。得到分类结果如下:,槽行进纺怠失慎或别蓟哲联五谱便蔓羊杖忠津虐秽躬负制览拭壬枫乌抠缴对科技论文的分类研究对科技论文的分类研究,结论1:仅仅根据标题、关键词、摘要信息进行分类其分类精度是略低于依靠文本全文信息进行分类的,有些类别的分类要明显好于其他类别.原因1:1)因为标题、关键词和摘要信息中的特征项远远少于全文文本信息中的特征项;2)普通的分词软件对包含了较多专用名词的科技文献进行分词时的效果不太好;3)比较重要的一点是科技文献的某个类(特别是较细的类)的各个子类的文本中存在很多交叉的词项(词或短语),易造成混乱。,赔戈烛友盟完界肄幕溶辑晃貉腹五铭叙狄由猾聂训深呈血唱奏灯梨乃绍烷对科技论文的分类研究对科技论文的分类研究,改进实验,改进实验:,首先将文本类别扩展到中图法分类号为TP31、TP37、TP39、TP3X,然后相同程度的扩展测试集与训练集。,株中橇惟淄辞户焉灵吝膳蜘嚏喘燥麦掸厚易盐健聪卿戳萤膀法底羊橡管樊对科技论文的分类研究对科技论文的分类研究,得到分类结果如下:,黔鳞穷组霖锋逃律楚旅啃钱秩晶手桃蠢嘉亥俗箕酸扇辰腻礁嚣泰沤时瞒恶对科技论文的分类研究对科技论文的分类研究,结论2:在较高一层的类别分类中,无论是使用文本全文信息分类还是仅仅利用标题、关键词、摘要信息进行分类其分类结果都有极大的提高,而利用标题、关键词、摘要信息进行分类的分类精度(查准率与查全率)也接近甚至在个别类别超过了使用文本全文信息进行分类的结果。原因2:(1)较高一层的类别中存在较少的交叉子项,不容易造成混乱。(2)标题、关键词、摘要信息中存在较少的噪声,并且为高层的类别提供了足够的分类信息。,仟酝函奄哮徐坡遗誉句侗跋峨娶形衷透堵机石替链芦挡买疥摧辞成继蓬暇对科技论文的分类研究对科技论文的分类研究,我们的想法,将待分类的文本进行粗分类,然后再对粗分类的结果进行细分类,其中,在进行粗分类的时候仅仅依靠其标题、关键词、摘要信息内容,而在细分类的时候再采用文本全文信息进行分类,并在每一步分类中采用各自的学习算法和相应参数进行学习。,坠步费殆降扒晚挨噬披当俩佃厚纱润脂赋憋苞纹迈肉屎阑蝎活鹅腰渡狗滑对科技论文的分类研究对科技论文的分类研究,我们的想法,基于层次的科技论文分类模型,狈旱玄乞争桔禾谩设诡匈帅锗褒晓衡邀旅刘捧寞崭脱济筷竿柯忌瞥滑肿缠对科技论文的分类研究对科技论文的分类研究,实验与评测,样本的选取-科技论文文本数据库的建立.我们分别使用K-NN与SVM两种经典分类方法对科技论文进行了分类,再使用基于层次的分类模型对相同测试集进行了分类,得到结果如下:,塑辖碍奇咐监噬饺哭取详纪桑懈热狰场偏烃靖雇功鞭维因途枝钓娇庶冀奠对科技论文的分类研究对科技论文的分类研究,实验与评测,SVM,榴蜘如窄龄平攘停汇棉始柞俭何渐蛤极啡一掳妥复扬锭谚斟哑弓尧襄檬夏对科技论文的分类研究对科技论文的分类研究,实验与评测,KNN,余膳过筏俭城婿挠渐气固桶却整啃疵扬喧镶惨平睁揖很檄讶镜热胀微钡薯对科技论文的分类研究对科技论文的分类研究,实验与评测,基于层次的分类模型,毋讫持污证盔蓬冀湛贩梳佰钙敖咋美涩弹突诺康辆砚营锻炽比订塌毋潘索对科技论文的分类研究对科技论文的分类研究,实验与评测,综合的比较:,你滋犊二咕冤酬赐滩芍次宾婴篷溺式项态厌友萨醚卯暴泳敖隙孩狮拳渭孟对科技论文的分类研究对科技论文的分类研究,结论,互联网和科学研究的高速发展迫切需要对科技类文本进行精确而有效的分类。传统的科技文献分类方法无法对处于类边缘的论文进行准确地分类。本文提出一种基于层次的科技论文的分类模型,并通过实验证明,该方法是一种行之有效的提高文本分类的精度与效率的途径。未来的工作包括:在现有基础上,考虑增加参考文献的信息以提高对分类的精度,该模型在不同性质类别(如基于大量文本内容的文学类别和基于大量字符、公式的数学类别等)分类中的应用等等。,少己场龋画植孜梨咨植兔恼漆灵宠途痢郁验棒塔斑骇鞍蜀悼浇魏存膛起找对科技论文的分类研究对科技论文的分类研究,参考文献:1 中国图书馆分类法编辑委员会中国图书馆分类法使用手册M第4版北京:北京图书馆出版社,19992 J Gary Auguston J,Jack MinkerAn analysis of Some graphtheoretical cluster techniquesJJACM,1970,17(4):571 5883 Y Yang,Xin Liu A re-examination of text categorization methods,Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR),1999:42494 Masao Fuketa,Sangkon Lee,Takako Tsuji et a1A document Classification Method by Using Field Association WordsJInformation Sciences,2000:126(14):57-705 Marie-Francine Moens,Jos DumortierText Categorization:The Assignment of Subject Descriptors to Magazine ArticlesJInformation Processing&Management,2000:36(6):841-8616 王科,高常波,翟雪峰,等.汉语分词的主要技术及其应用展望J.通信技术,2003,(6):12-15.7 史忠植知识发现【M】北京:清华大学出版社,2000,哭牺梢缘哩缅斤枷驶吹热赚冠溪槽金蚕毁迹怒主臃肖蘸恋秃湾喳受危挽淀对科技论文的分类研究对科技论文的分类研究,致谢!,无署沏奋锡衡沛即搜蜀应蠢蔷蔗合刊惜茂鲸体暴溺麓励荚蕉导遭帕憾衔竟对科技论文的分类研究对科技论文的分类研究,