第5章 自动标引.ppt.ppt
《第5章 自动标引.ppt.ppt》由会员分享,可在线阅读,更多相关《第5章 自动标引.ppt.ppt(86页珍藏版)》请在三一办公上搜索。
1、1,第五章 自动标引,2,本章内容提要,自动标引基本原理自动标引的主要方法和技术汉语自动标引,3,第一节 自动标引的基本原理,自动标引的定义、类型自动标引的意义自动标引的流程自动标引的原理,4,1 自动标引的定义,自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。,5,2 自动标引的类型,按人工介入与否分为全自动标引与半自动标引。按标引词来源分为自动抽词标引与自动赋词标引。,6
2、,7,8,9,3 自动标引的意义,1.适应信息资源快速增长的需要 加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。,10,3 自动标引的意义,2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势:处理能力强处理速度快成本低一致性好,稳定性好,11,3 自动
3、标引的意义,美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。,12,3 自动标引的意义,自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一
4、篇文献总能标引出相同的主题词。,13,3 自动标引的意义,美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。,14,4 自动标引的流程,获得机器可读的待标文献语句分析(难点)语词加权(难点)确定标引词的权阈值(难点)选出标引词转换文档生成与索引编辑输出反馈,15,自动标引工作流程图,16,确定标引源,即确定标引所依据的文献内容(标引源)。标引源的选择是影响标引质量的一个重要因素。标题是自动标引的主要标引源。但仅以标题为标引源,信息量少,标引质量差,难
5、以推广使用。如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。,17,确定标引源,一般选择以下内容作为标引源:1.标题:包括文章的主标题、章节标题、小结标题等。这是首选标引源。2.文摘:较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定5-6个最重要的词。3.首尾章节:科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。,18,确定标引源,4.章节的首尾段:常反映章节讨论的主题,替代整个章节,节省大量无效劳动。5.段落的首尾句:国外有学者对科技文献的200个段落进行了主题句的分析,结果:85%的段落主题句是
6、段落的第一句,7%的段落主题句是最后一句。用段落首尾句替代整个段落,节省工作量,免除许多“杂音”。,19,输入标引源内容,标引源必须按标引系统要求的格式输入系统,才可能进行自动标引。印刷型文献:手工录入或OCR(光学字符识别)输入 电子文档(XML、DOC、TXT等格式):直接导入,20,文档的预处理,字符内码的检测与转换:BIG5码与GB码的自动检测与转换。文档格式的检测与转换:去掉DOC、XML、RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。典型的如:网页清洗,21,分词处理,在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的集合
7、。西方文字有分隔符,切分容易实现。而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。,22,确定关键词,根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为依据,确定可表达文档中心内容的词作为该文档的关键词。,23,确定关键词,主要方法:绝对词频统计法:以词在文章中出现的绝对频次为根本依据确定文章的中心关键词,理论基础是齐夫定律。词频权重法:除考虑词频外,还考虑词的位置、词的词性、词本身的价值、词的长度等因素,对词进行加权,然后根据权值大小确定关键词。,24,转换为受控词,关键词与受控词(主题词、副主题词、特
8、征词)之间存在着一定的关系(如同义词关系、上位关系、下位关系等)。使用一定的方法,将以上提取的关键词转换为受控词。,25,转换为受控词,目前有效可行的方法包括:使用关键词-受控词对照表:该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系,由此对应转换。利用词汇相似度:大多数意义相同或相近的词之间字符全部或部分相同,关键词与主题词之间存在一定程度的相似性,可通过某些算法计算出来,根据相似性确定相应的主题词。两种算法:基于词素的相似度算法;给予单汉字的字面相似度算法。样例展示,26,以“商务管理系统”和“商业管理系统”两复合词为例,两者的语义相似度计算步骤如下:词组的切分利用最大匹配法
9、(MM法)将两词切分成义类词;“商务管理系统”切分为义类词:“商务”、“管理”、“系统”;“商业管理系统”切分为义类词:“商业”、“管理”、“系统”;本系统中是采用正向最大匹配法进行义类词切分的。,基于语义相似度的分类方法,27,语义编码的提取提取出存在于义类词库中的义类词所对应的语义编码;“商务”、“管理”、“系统”对应的语义编码分别为:Da010140、Hc020101、Dd060101;构成编码集S1=Da010140、Hc020101、Dd060101;“商业”、“管理”、“系统”对应的语义编码分别为:Di180203、Hc020101、Dd060101;构成编码集S2=Di18020
10、3、Hc020101、Dd060101;,28,计算结果,Sim(“商务管理系统”,“商业管理系统”),29,识别结果示例,30,给出主题标识符,根据确定的主题词、副主题词、特征词,进行组配,给出主题标引符号,完成自动标引。,31,第二节 自动标引方法和技术,统计标引法(课堂只讲这种方法)概率标引法:根据文献满足提问的概率来估计句法分析标引法语义分析标引法人工智能标引法,32,Zipfs Law,齐普夫定律是由美国学者G.K.齐普夫于上世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数在这些词编上的等
11、级序号,即频次最高的词等级为1,频次次之的等级为2,.,频次最小的词等级为D,。若用f表示频次,r 表示序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。,33,The 10 most common words in the Million-Word Brown Corpus,34,Zipfs law,35,Zipfs Law,与文献标引的关系把所有的词分高频词、中频词和低频词。高频词:传递信息能小,多为虚词,标引能力低。中频词:传递信息能大,多为常用的术语。为标引时选词的最佳对象,专指度适中。低频词:传递信息能力极强。产生的原因较复杂。可能是冷僻词,也可能是新引进的概念。可以选中频词和
12、个别低频词标引作为文献标引的候选词。,36,A Frequency-Based Indexing Method,Eliminate common function words from the document texts by consulting a special dictionary,or stop list,containing a list of high frequency function words.Compute the term frequency tfij for all remaining terms Tj in each document Di,specifying
13、 the number of occurrences of Tj in Di.Choose a threshold frequency T,and assign to each document Di all term Tj for which tfij T.,37,标引词加权,绝对频率加权法相对频率加权法逆文献频率加权法词区分度加权法信噪比加权法词相关度加权法,38,1 绝对频率加权法,20世纪50年代Luhn在Zipf定律基础上提出主要步骤 给定m篇文献组成的一个集合,设第k个词在第i篇文献中发生的频率fik。决定该词在整个文献集上的发生频率:fkfik按照fk的大小将词降序排列,用试错法
14、确定高频词和低频词的阈值。去掉高频词和低频词后,将余下的中频词选作标引词。,39,1 绝对频率加权法,特点简单、易实现,有一定实用性。世界上第一个自动标引算法。简单地排除高频词和低频词。词频不能全面刻画词在文本中的功能。,40,2 相对频率加权法,考虑的因素:词在某个特定文献内的使用频次词在特定领域内的使用频次方法:建立有关领域全部词汇的相对频率表;对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中的出现频次;将每个实词在特定文献内的频次与相对频率表进行比较。,41,3 逆文献频率加权标引法(IDF),If a term occurs with roughly the same fr
15、equency in many documents in a collection,the occurrence of the term is likely to be relatively unimportant in any of those documents If a term occurs with greater than average frequency in a few documents in a collection,the term is likely to be relatively important in those few documents,42,3 逆文献频
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 自动标引.ppt 自动 标引 ppt

链接地址:https://www.31ppt.com/p-2596765.html