讲稿2-索引的建立.docx
《讲稿2-索引的建立.docx》由会员分享,可在线阅读,更多相关《讲稿2-索引的建立.docx(23页珍藏版)》请在三一办公上搜索。
1、二 索引的建立1、目的、标准在大量的文档集中(通常情况下大约为100,000个文档以上),为了提高检索性能和速度, 需要找到文档中比较重要的内容并为这些内容创建内部表示,这些表示形式被称为索引。为了找到这些内容,必须进行语义分析来确定哪些是某一文档中的概念。对于IR来讲,这种分析是非常复杂的也是很难进行的。目前存在的技术,大多限制在某一特别领域。建立索引的目标是找出主要内容,创建内部表示。表示法的选择应考虑下面三个准则:-精确表示语义-涵盖所有内容-易于计算机处理实际上,人们更加倾向于研究概念的表示形式。概念表示形式可以是字、词、词组等,概念表示形式与精确度关系如图2-1所示。选用词作为概念的
2、表示形式的想法是很自然的。事实上,词是最容易识别的语言单位,并且,它们也能充分地表达语义。在现有的系统中,它是最常用的方法。但是,单词经常不能给出专一的描述。例如,“专家系统”,被表示为“专家”和“系统”, 失去了一定的精确性。因此,研究者们提出了新的方法,建议将单词组织起来形成合成词,文献可以由词和短语联合来描述。研究表明使用中文分词,按词索引结合二元组(bi-gram)索引是检索效率和效果较优的索引综合考虑方式,通常通过自动分词来选择索引词。在文档索引过程中,先通过中文自动分词程序的处理,把文档正文分割成为独立的分词单位,然后在这些分词单位基础上选择索引词。分词单位是指具有确定语义或语法功
3、能的基本单位,通常被直接选作索引词7。 涵盖率(Recall)精确度(Precision)字符串 词 合成词 概念图2-1 概念表示形式与精确度关系文档集合通常由文档逻辑视图来表示,可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。索引词的选取过程见图2-2、2-3 所示。首先,对文本信息进行预处理,预处理技术主要包括结构提取、分词(中文)、词干提取等,然后选择特征表示形式和进行特征提取, 以一定特征项(如词或词组)来代表文档,在检索时只需对这些特征项进行处理。图2-2 索引词选取框图(英文文档)词或词组停用词中文切词中文文档自动或手工索引结构识别索引词集合 结构图2-3 索引词
4、选取框图(中文文档)语言学界、人工智能领域和情报检索界的学者在汉语自动分词与索引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法。80年代以来见诸报端的自动分词方法归纳起来有:最大匹配法、逆向最大匹配法,逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想回溯法、双向扫描法、邻接约束法、扩弃转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种3。由于汉语结构上的复杂性、切分的模糊性以及语法分析问题等诸多因素的影响
5、,汉语自动分词未能取得重大的实质性突破。这一问题的搁浅直接影响了汉语文献的自动索引及汉语的句法分析与语义分析研究,成为中文自动索引研究发展的瓶颈。如何高效低成本地实现信息索引是信息检索领域重要的研究课题。索引从原理上分抽词索引和赋词索引,各种方法和技术以自然语言的规律为基础,构建在相应的数学模型上。在这一章中,我们将介绍以单词和合成词为表示形式的自动索引方法。首先,介绍自动索引的基本原理,然后,介绍基于词汇分布特征的索引方法:统计标引法、n-gram标引法和概率标引、基于语言规则与内容的索引:句法分析标引法、语义分析标引法和基于概念的标引法、人工智能索引法:知识产生式表示法、语义网络表示法和框
6、架表示法和汉语自动索引。其中,重点介绍基于词汇分布特征的索引方法,其它方法只是简单讲解,同学们课后可以查阅相关的资料,对每个方法进行总结,形成介绍性的文章。2、自动索引的基本原理2.1自动抽词标引原理自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词。1、自动抽词标引思路在手工标引中,标引员总是尽量选择能较好反映文献主题的原文词语。他们的选择结果可能要受到一些因素的影响, 如词语在文献中出现的频率、词语出现的位置(标题、结论、插图说明等)及其语境。假定文本以机器可读的形式存在,计算机程序就可
7、以模仿人,通过对文本中词的频率、位置和语境标准来实施抽词标引。标引程序的基本算法是,抽取文本中的词汇,将词汇与一个“禁用词表”比较,除去各种非实义词(冠词、介词、连词等),然后统计剩下的词汇的出现频率,并按其降序排列,排在前面的一些高频词被选作文献的“标引词”。选择标引词的分界点可根据下面几种标准来确定:词的绝对数、与文本长度有关的数、词频超过一定阈值的词数。更复杂一些的算法可抽出在文本中经常出现的重要短语。文献因此可以由词和短语联合来描述,选择短语的频率要比选择重要词的频率标准低一些。除了选择词和短语,标引程序还可以选择词根。因此词根(如“beat”)可以被选择并存储,它代替了多种对应的变体
8、“beat”、“beating”、和“beated”。取词根程序可以自动去除指定的词尾,如“ed”、“ing”等。当然,词、短语或词根都可以给予反映它们在文献中出现频率的权重。词和短语除了根据频率抽取之外,还可以通过与某种机内词典中“可接受的”词语相匹配的方式从文本中抽取。2、选取标引词的原则在文本的计算机处理中,计算词在一篇文献中出现的频率并不是唯一的方法(tf),有时考察词在整个文献库中出现的频率可能更重要(df,idf)。最好的区分词(能将一篇文献与其他文献区分开的词)应能保证在非相关的文献集合中很少出现或不出现,如“石棉”在图书馆学文献中,“图书馆”在石棉公司数据库中。实际上,没有必要
9、计算词在整个文本数据库中的出现频数,而只需计算词在倒排文档中的频数即可。除了词在文献中出现的绝对频率,还可使用相对频率方法来选择词语,即选择那些在一篇文献中的出现几率大大高于在整个文献库中出现几率的词和短语。这种方法比绝对频率法要复杂一些,因为它需要知道一个词在数据库中出现频率,并将该频率与词在一特定文献中的频率相比较。基于相对频率从文献中抽出的词和短语集合将不同于基于绝对频率得到的集合,但是不是完全不同,许多仍然相同。少数新词语将是那些在一特定文献中很少出现,但是在整个数据库中更少出现的词语,如果一个词在一个有万词的数据库中只出现次,则它尽管在一篇词的期刊论文中只出现次,仍然是很重要的,而那
10、些在一篇文献和整个数据库都频繁出现的词语(可称为“泛滥词”)则要去除。频率标准还可用其他标准来补充。例如,Baxendale在年提出了对段落主题句抽词的思想,认为只需对每段文本的第一个和最后一个句子进行处理。因为一项研究表明,第一个句子是段落“主题句”的比例为,最后一个句子也超过。还有许多利用文本中“信息丰富”部分的抽词标引的思路被提出,如利用一下一些元素:文章各级标题,介词短语、后接入“conclusions”和“summary”的线索词的文本等等。一般情况下,检索系统普遍采用全文索引技术,即网页文档中所有词都选择参与索引。在理想情况下,索引词应该是表达文档内容的语义单位,对应着语言学里的词
11、汇词的概念,它是专门表示含义,而其实际意义无法由组合成分相加得到的最小语言单位7。2.2 自动赋词标引原理赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程,即将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法。自动赋词标引类型主要有以下两种:1、基于概率的赋词标引Maron于年提出的概率标引模型采用基于相关概率的赋词标引方法,其标引过程是:选一批样品文献,去掉高频词和低频词,把这些文献按其主题归入适当的类目中,然后统计候选关键词在类目中出现的频率,再由人工最后确定一个词表。标引时用被标引文献中的词与词表中的词进行比较,将匹配成功
12、的词赋予该文献。DIA(Darmstadt Indexing Approach)方法则是基于决策概率(某标引词赋予某文献这一决策事件正确性概率)的一种赋词标引方法。在这种方法中,加权函数r(s,t)近似等于将叙词s赋给含有词条t的文献的正确性概率P(c/s,t)。如果词条t在文献d中被识别出来,同时也符合r(s,t),则形成从t 到s的叙词指引。从文献d到叙词s的全部叙词指引集合称为s 与d的相关性描述y(s,d)。下面的过程就是用相关性描述y(s,d)来估算概率P(c/y), P(c/y)是给定相关性描述y,叙词s标引文献d正确的概率。信任函数模型(Belief Function Model
13、)也属于概率标引模型,它的标引过程是:将被标引文献与一个具有叙词集合的受控词表进行比较,对出现在文献中的受控词表的每一叙词,根据其出现频率以及同义词出现情况定义一个基本概率数。基本概率数大于零的叙词,便可用于对具有该词的文献进行标引。2、基于概念的赋词标引基于概念的赋词标引主要是使用概念词表作为标引词的来源。FASIT法就是一种典型的基于概念的赋词标引方法,FASIT法的实现过程是:对文献中与其主题相关的词或短语赋予一定的句法范畴或几个范畴的组合,并给出相应的标记;然后采用与上下文相关的消除歧义规则,消除多重标记词的歧义性;最后利用一个概念形式词典进行概念选择,选出的概念经规范化处理后,计算其
14、与其他概念之间的关联度,进而将统一概念进行概念归类,最终以概念类来标引文献。3自动标引的模型3.1 向量模型文献的向量空间模型较好地描述了文献之间的相关程度,由此确定了文献空间密度。由于文献标引性能可以从文献空间密度直接反映出来,因此这种以文献向量空间为基础的抽象描述就构成了自动标引的一种数学模型。若用X(a,b)确定二维平面上点X的位置,用X(a,b,c)表示三维空间中点X的位置,同理,如果D为t维文献空间,则可以用Di=(di1,di2, ., dit)表示,其中,Di可以看成是文献空间D的第i维向量,dij为文献Di的第j个标引词的权值。(1)文献向量的相关性有了文献空间,每一篇文献在其
15、中都有一个确定的位置,文献的空间位置就为我们计算它们之间的相关程度提供了途径。从文献空间上看,两篇文献相关就是指代表这两篇文献的向量靠得很近,具体讲就是这两个向量的夹角很小。根据向量代数中数量积计算公式有:其中,a,|b|分别为向量和的模,(a,b)为向量和的夹角,又设向量和的坐标分别为a1,a2,.,at和b1,b2,.,bt,则:由余弦函数的性质可知,在,上,其余弦值随其角度变小而增大。这一现象正好反映了文献空间中某两篇文献的相关程度的大小,即余弦值小,夹角大,则相关度低;反之,则相关度高。若余弦值为,则夹角为零,则两篇文献完全重合,即相等。因此,可将两文献之间的相关度S(Di,Dj)定义
16、为其夹角的余弦值,即S(Di,Dj)cos,其中,为文献Di,Dj之间的夹角。由于文献Di是由相应的标引词的权值来表示的,即Di=(di1,di2,.,dit),故文献之间相关度为:可以设想,在一个理想的文献空间中,满足用户情报需求的文献应是紧紧地聚集在一起。但如果对一个给定文献集合的全部检索历史不了解,则很难产生出这种理想空间。因此,为了达到理想的检索效果,应将文献空间中的点尽可能地分开,即对式(2-1)求最小值。 (ij) (2-1)式(2-1)的最小值表明空间中文献之间的相关性将变得很小,当某篇文献与某个提问相关时,只有这篇文献被检索出来,从而保证了较高的查准率。但这会产生两个方面的问题
17、:第一,这种将点分开的方式是否基于这样一个事实,即分离文献空间中的点将导致高检索效率;反之,高检索效率必将使得文献空间中的点彼此分开。第二,式(2-1)的计算量较大,对具有n篇文献的集合而言,共需计算次。由于上述原因,我们考虑使用聚类文献空间。在该空间中,文献按类集中在一起,每个类由一个类的矩心C(Centroid)来表示。给定一个m篇文献的集合构成的文献类P,其矩心定义如下: 其中, (k=1,2,.,t)同理可求出整个文献的矩心。在未聚类文献空间中,其空间密度为所有文献对相关度的总和,即式(2-1)的计算结果。而聚类文献的空间密度由式(2-2)给出:其中,为整个文献集合矩心,为文献与矩心的
18、相关度。显然,式(2-2)只需计算n次。(2)空间密度与标引性能的关系一个理想的文献空间应是同类中文献的相关度x要大,不同类之间的相关度y要小。所以y/x可用来作为测量文献空间密度的标准, y/x值大,则空间密度高,反之则空间密度低。 文献空间密度与标引性能之间存在着密切联系,二者存在互逆性。标引性能与空间密度的这种密切关系构成了向量空间自动标引的理论基础。3.2 信息模型人工标引通常是通过分析文献内容本身来确定标引词进行标引,而自动标引是利用计算机从已有的文献数据库(信息系统)中获取信息来确定标引词的过程。两者的区别在于从不同的对象中获取信息,实施标引的主体不同,但它们的目的都是为了表示信息
19、的主题内容。(1)标引词的信息量设文献库D=d1,d2,.,dn为对象库,称为外延空间,而标引词库T=t1,t2,.,tn 为属性集,称为内涵空间,矩阵R称为DT上的关系数据库:R=R也称为“对象-属性-数据”系统,。其中:表示tj是di的标引词,表示tj不是di的标引词(i=1,n; j=1,.,m).数据是一种抽象的数量概念,数据所表示的含义即为信息,信息是对数据的解释,数据是信息的载体,假若对数据赋予某种意义,此数据即为信息,故“对象-属性-数据”系统也称为信息系统。如数据: ()表示了“文献库D中的文献是否具有标引词t”这样一条信息。在计算这种信息的信息量时,最朴素的思想是信息的外延越
20、大,其内涵越弱,信息量越小;反之,信息的外延越窄,其内涵越强,信息量越大。定义1: ()称I(t)为标引词t的信息量。对I(t)可以直观地理解:标引词标引文献的篇数越多,它的外延对象越广,则信息量越小;反之,标引词标引文献的篇数月少,它的外延对象越窄,则信息量越大。定义2:1、, 表示“文献具有标引词t或 t”2、,表示“文献具有标引词t与 t”其中,、是取大、取小运算。记为T中元素经、运算后得到的所有元素的集合,显然。称为广义标引词库。定理1:对t,t,有1、 表示“文献具有标引词t或 t” 的信息量小于等于仅含有标引词t或 t的信息量。2、, 表示“文献具有标引词t与 t”的信息量大于等于
21、仅含有标引词t或 t的信息量。3、表示“文献具有标引词t与 t”的信息量等于两个标引词信息量之和减去“文献具有标引词t或t”的信息量。(2)推测标引词在已知文献具有标引词t的情况下,可根据信息提取的思想来推测文献是否具有标引词t。定义3:称 ()为由标引词t推测标引词t的确定率。从定义3 可以看出,在获得t的信息时,就可以从t的信息中提取的信息,故标引词t对 t的确定率就等于的信息量在t的信息量中所占的比例,比例越高,确定率越大;反之,比例越低,确定率越小,显然有成立。我们的目的是从标引词t出发,对标引词t作一推测。这种推测不可能都达到100%的准确率,只需得到相对较高的确定率即可。这种推测是
22、一种或然推理,具有或然性。当确定率达到1时,就是推断,即通常的精确推理。4 基于词汇分布特征的索引方法基于词汇分布特征的索引方法依据下述假设来选择索引词:某词在文献中的出现频率与该词的文献区分功能有密切关系。一个词(实词)在文献中使用越频繁,就越有可能是一个指示主题的词。通过对这些词语的统计,求出其中的高频词、中频词和低频词,并使用中等频率的词语作为标识文献的主题词。除此以外,还可以根据取词的不同位置、词语本身的重要性给每个词赋予不同的权值,使得最终的加权统计结果更加符合实际情况,更能体现文章的主题4。4.1 基于词频的基本方法 大量词频统计结果表明,文章中出现频率最高的词汇往往是反映句子语法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 讲稿 索引 建立

链接地址:https://www.31ppt.com/p-1865133.html