讲稿2-索引的建立.docx

上传人：小飞机

文档编号：1865133

上传时间：2022-12-22

格式：DOCX

页数：23

大小：161.15KB

《讲稿2-索引的建立.docx》由会员分享，可在线阅读，更多相关《讲稿2-索引的建立.docx（23页珍藏版）》请在三一办公上搜索。

1、二索引的建立1、目的、标准在大量的文档集中（通常情况下大约为100，000个文档以上），为了提高检索性能和速度, 需要找到文档中比较重要的内容并为这些内容创建内部表示，这些表示形式被称为索引。为了找到这些内容，必须进行语义分析来确定哪些是某一文档中的概念。对于IR来讲，这种分析是非常复杂的也是很难进行的。目前存在的技术，大多限制在某一特别领域。建立索引的目标是找出主要内容，创建内部表示。表示法的选择应考虑下面三个准则：-精确表示语义-涵盖所有内容-易于计算机处理实际上，人们更加倾向于研究概念的表示形式。概念表示形式可以是字、词、词组等，概念表示形式与精确度关系如图2-1所示。选用词作为概念的

2、表示形式的想法是很自然的。事实上，词是最容易识别的语言单位，并且，它们也能充分地表达语义。在现有的系统中，它是最常用的方法。但是，单词经常不能给出专一的描述。例如，“专家系统”，被表示为“专家”和“系统”，失去了一定的精确性。因此，研究者们提出了新的方法，建议将单词组织起来形成合成词，文献可以由词和短语联合来描述。研究表明使用中文分词，按词索引结合二元组（bi-gram）索引是检索效率和效果较优的索引综合考虑方式，通常通过自动分词来选择索引词。在文档索引过程中，先通过中文自动分词程序的处理，把文档正文分割成为独立的分词单位，然后在这些分词单位基础上选择索引词。分词单位是指具有确定语义或语法功

3、能的基本单位，通常被直接选作索引词7。涵盖率(Recall)精确度(Precision)字符串词合成词概念图2-1 概念表示形式与精确度关系文档集合通常由文档逻辑视图来表示，可以是一组索引词或关键词。既可以自动提取，也可以是由人主观指定。索引词的选取过程见图2-2、2-3 所示。首先，对文本信息进行预处理，预处理技术主要包括结构提取、分词（中文）、词干提取等，然后选择特征表示形式和进行特征提取，以一定特征项（如词或词组）来代表文档，在检索时只需对这些特征项进行处理。图2-2 索引词选取框图（英文文档）词或词组停用词中文切词中文文档自动或手工索引结构识别索引词集合结构图2-3 索引词

4、选取框图（中文文档）语言学界、人工智能领域和情报检索界的学者在汉语自动分词与索引的研究与实践上进行了大量的研究，找到了许多解决汉语分词的方法。80年代以来见诸报端的自动分词方法归纳起来有:最大匹配法、逆向最大匹配法，逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想回溯法、双向扫描法、邻接约束法、扩弃转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种3。由于汉语结构上的复杂性、切分的模糊性以及语法分析问题等诸多因素的影响

5、，汉语自动分词未能取得重大的实质性突破。这一问题的搁浅直接影响了汉语文献的自动索引及汉语的句法分析与语义分析研究，成为中文自动索引研究发展的瓶颈。如何高效低成本地实现信息索引是信息检索领域重要的研究课题。索引从原理上分抽词索引和赋词索引，各种方法和技术以自然语言的规律为基础，构建在相应的数学模型上。在这一章中，我们将介绍以单词和合成词为表示形式的自动索引方法。首先，介绍自动索引的基本原理，然后，介绍基于词汇分布特征的索引方法：统计标引法、n-gram标引法和概率标引、基于语言规则与内容的索引：句法分析标引法、语义分析标引法和基于概念的标引法、人工智能索引法：知识产生式表示法、语义网络表示法和框

6、架表示法和汉语自动索引。其中，重点介绍基于词汇分布特征的索引方法，其它方法只是简单讲解，同学们课后可以查阅相关的资料，对每个方法进行总结，形成介绍性的文章。2、自动索引的基本原理2.1自动抽词标引原理自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及如何从原文中抽取能够表达其实质意义的词汇，以及如何根据这些词汇确定标引词。1、自动抽词标引思路在手工标引中，标引员总是尽量选择能较好反映文献主题的原文词语。他们的选择结果可能要受到一些因素的影响，如词语在文献中出现的频率、词语出现的位置（标题、结论、插图说明等）及其语境。假定文本以机器可读的形式存在，计算机程序就可

7、以模仿人，通过对文本中词的频率、位置和语境标准来实施抽词标引。标引程序的基本算法是，抽取文本中的词汇，将词汇与一个“禁用词表”比较，除去各种非实义词（冠词、介词、连词等），然后统计剩下的词汇的出现频率，并按其降序排列，排在前面的一些高频词被选作文献的“标引词”。选择标引词的分界点可根据下面几种标准来确定：词的绝对数、与文本长度有关的数、词频超过一定阈值的词数。更复杂一些的算法可抽出在文本中经常出现的重要短语。文献因此可以由词和短语联合来描述，选择短语的频率要比选择重要词的频率标准低一些。除了选择词和短语，标引程序还可以选择词根。因此词根（如“beat”）可以被选择并存储，它代替了多种对应的变体

8、“beat”、“beating”、和“beated”。取词根程序可以自动去除指定的词尾，如“ed”、“ing”等。当然，词、短语或词根都可以给予反映它们在文献中出现频率的权重。词和短语除了根据频率抽取之外，还可以通过与某种机内词典中“可接受的”词语相匹配的方式从文本中抽取。2、选取标引词的原则在文本的计算机处理中，计算词在一篇文献中出现的频率并不是唯一的方法（tf），有时考察词在整个文献库中出现的频率可能更重要(df,idf)。最好的区分词（能将一篇文献与其他文献区分开的词）应能保证在非相关的文献集合中很少出现或不出现，如“石棉”在图书馆学文献中，“图书馆”在石棉公司数据库中。实际上，没有必要

9、计算词在整个文本数据库中的出现频数，而只需计算词在倒排文档中的频数即可。除了词在文献中出现的绝对频率，还可使用相对频率方法来选择词语，即选择那些在一篇文献中的出现几率大大高于在整个文献库中出现几率的词和短语。这种方法比绝对频率法要复杂一些，因为它需要知道一个词在数据库中出现频率，并将该频率与词在一特定文献中的频率相比较。基于相对频率从文献中抽出的词和短语集合将不同于基于绝对频率得到的集合，但是不是完全不同，许多仍然相同。少数新词语将是那些在一特定文献中很少出现，但是在整个数据库中更少出现的词语，如果一个词在一个有万词的数据库中只出现次，则它尽管在一篇词的期刊论文中只出现次，仍然是很重要的，而那

10、些在一篇文献和整个数据库都频繁出现的词语（可称为“泛滥词”）则要去除。频率标准还可用其他标准来补充。例如，Baxendale在年提出了对段落主题句抽词的思想，认为只需对每段文本的第一个和最后一个句子进行处理。因为一项研究表明，第一个句子是段落“主题句”的比例为，最后一个句子也超过。还有许多利用文本中“信息丰富”部分的抽词标引的思路被提出，如利用一下一些元素：文章各级标题，介词短语、后接入“conclusions”和“summary”的线索词的文本等等。一般情况下，检索系统普遍采用全文索引技术，即网页文档中所有词都选择参与索引。在理想情况下，索引词应该是表达文档内容的语义单位，对应着语言学里的词

11、汇词的概念，它是专门表示含义，而其实际意义无法由组合成分相加得到的最小语言单位7。2.2 自动赋词标引原理赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程，即将反映文本主题内容的关键词（欲用作标引的关键词）转换为词表中的主题词（或叙词等），并用其标引的方法。自动赋词标引类型主要有以下两种：1、基于概率的赋词标引Maron于年提出的概率标引模型采用基于相关概率的赋词标引方法，其标引过程是：选一批样品文献，去掉高频词和低频词，把这些文献按其主题归入适当的类目中，然后统计候选关键词在类目中出现的频率，再由人工最后确定一个词表。标引时用被标引文献中的词与词表中的词进行比较，将匹配成功

12、的词赋予该文献。DIA(Darmstadt Indexing Approach)方法则是基于决策概率（某标引词赋予某文献这一决策事件正确性概率）的一种赋词标引方法。在这种方法中，加权函数r（s,t）近似等于将叙词s赋给含有词条t的文献的正确性概率P(c/s,t)。如果词条t在文献d中被识别出来，同时也符合r（s,t），则形成从t 到s的叙词指引。从文献d到叙词s的全部叙词指引集合称为s 与d的相关性描述y(s,d)。下面的过程就是用相关性描述y(s,d)来估算概率P(c/y), P(c/y)是给定相关性描述y，叙词s标引文献d正确的概率。信任函数模型（Belief Function Model

13、）也属于概率标引模型，它的标引过程是：将被标引文献与一个具有叙词集合的受控词表进行比较，对出现在文献中的受控词表的每一叙词，根据其出现频率以及同义词出现情况定义一个基本概率数。基本概率数大于零的叙词，便可用于对具有该词的文献进行标引。2、基于概念的赋词标引基于概念的赋词标引主要是使用概念词表作为标引词的来源。FASIT法就是一种典型的基于概念的赋词标引方法，FASIT法的实现过程是：对文献中与其主题相关的词或短语赋予一定的句法范畴或几个范畴的组合，并给出相应的标记；然后采用与上下文相关的消除歧义规则，消除多重标记词的歧义性；最后利用一个概念形式词典进行概念选择，选出的概念经规范化处理后，计算其

14、与其他概念之间的关联度，进而将统一概念进行概念归类，最终以概念类来标引文献。3自动标引的模型3.1 向量模型文献的向量空间模型较好地描述了文献之间的相关程度，由此确定了文献空间密度。由于文献标引性能可以从文献空间密度直接反映出来，因此这种以文献向量空间为基础的抽象描述就构成了自动标引的一种数学模型。若用X(a,b)确定二维平面上点X的位置，用X(a,b,c)表示三维空间中点X的位置，同理，如果D为t维文献空间，则可以用Di=(di1,di2, ., dit)表示，其中，Di可以看成是文献空间D的第i维向量，dij为文献Di的第j个标引词的权值。（1）文献向量的相关性有了文献空间，每一篇文献在其

15、中都有一个确定的位置，文献的空间位置就为我们计算它们之间的相关程度提供了途径。从文献空间上看，两篇文献相关就是指代表这两篇文献的向量靠得很近，具体讲就是这两个向量的夹角很小。根据向量代数中数量积计算公式有：其中，a,|b|分别为向量和的模，(a,b)为向量和的夹角，又设向量和的坐标分别为a1,a2,.,at和b1,b2,.,bt，则：由余弦函数的性质可知，在，上，其余弦值随其角度变小而增大。这一现象正好反映了文献空间中某两篇文献的相关程度的大小，即余弦值小，夹角大，则相关度低；反之，则相关度高。若余弦值为，则夹角为零，则两篇文献完全重合，即相等。因此，可将两文献之间的相关度S(Di,Dj)定义

16、为其夹角的余弦值，即S(Di,Dj)cos,其中，为文献Di,Dj之间的夹角。由于文献Di是由相应的标引词的权值来表示的，即Di=(di1,di2,.,dit),故文献之间相关度为：可以设想，在一个理想的文献空间中，满足用户情报需求的文献应是紧紧地聚集在一起。但如果对一个给定文献集合的全部检索历史不了解，则很难产生出这种理想空间。因此，为了达到理想的检索效果，应将文献空间中的点尽可能地分开，即对式（2-1）求最小值。（ij）（2-1）式（2-1）的最小值表明空间中文献之间的相关性将变得很小，当某篇文献与某个提问相关时，只有这篇文献被检索出来，从而保证了较高的查准率。但这会产生两个方面的问题

17、：第一，这种将点分开的方式是否基于这样一个事实，即分离文献空间中的点将导致高检索效率；反之，高检索效率必将使得文献空间中的点彼此分开。第二，式（2-1）的计算量较大，对具有n篇文献的集合而言，共需计算次。由于上述原因，我们考虑使用聚类文献空间。在该空间中，文献按类集中在一起，每个类由一个类的矩心C（Centroid）来表示。给定一个m篇文献的集合构成的文献类P，其矩心定义如下：其中，（k=1，2，.,t）同理可求出整个文献的矩心。在未聚类文献空间中，其空间密度为所有文献对相关度的总和，即式（2-1）的计算结果。而聚类文献的空间密度由式（2-2）给出：其中，为整个文献集合矩心，为文献与矩心的

18、相关度。显然，式（2-2）只需计算n次。（2）空间密度与标引性能的关系一个理想的文献空间应是同类中文献的相关度x要大，不同类之间的相关度y要小。所以y/x可用来作为测量文献空间密度的标准， y/x值大，则空间密度高，反之则空间密度低。文献空间密度与标引性能之间存在着密切联系，二者存在互逆性。标引性能与空间密度的这种密切关系构成了向量空间自动标引的理论基础。3.2 信息模型人工标引通常是通过分析文献内容本身来确定标引词进行标引，而自动标引是利用计算机从已有的文献数据库（信息系统）中获取信息来确定标引词的过程。两者的区别在于从不同的对象中获取信息，实施标引的主体不同，但它们的目的都是为了表示信息

19、的主题内容。（1）标引词的信息量设文献库D=d1,d2,.,dn为对象库，称为外延空间，而标引词库T=t1,t2,.,tn 为属性集，称为内涵空间，矩阵R称为DT上的关系数据库：R=R也称为“对象-属性-数据”系统，。其中：表示tj是di的标引词，表示tj不是di的标引词（i=1,n; j=1,.,m）.数据是一种抽象的数量概念，数据所表示的含义即为信息，信息是对数据的解释，数据是信息的载体，假若对数据赋予某种意义，此数据即为信息，故“对象-属性-数据”系统也称为信息系统。如数据：（）表示了“文献库D中的文献是否具有标引词t”这样一条信息。在计算这种信息的信息量时，最朴素的思想是信息的外延越

20、大，其内涵越弱，信息量越小；反之，信息的外延越窄，其内涵越强，信息量越大。定义1：（）称I(t)为标引词t的信息量。对I(t)可以直观地理解：标引词标引文献的篇数越多，它的外延对象越广，则信息量越小；反之，标引词标引文献的篇数月少，它的外延对象越窄，则信息量越大。定义2：1、，表示“文献具有标引词t或 t”2、，表示“文献具有标引词t与 t”其中，、是取大、取小运算。记为T中元素经、运算后得到的所有元素的集合，显然。称为广义标引词库。定理1：对t,t，有1、表示“文献具有标引词t或 t” 的信息量小于等于仅含有标引词t或 t的信息量。2、，表示“文献具有标引词t与 t”的信息量大于等于

21、仅含有标引词t或 t的信息量。3、表示“文献具有标引词t与 t”的信息量等于两个标引词信息量之和减去“文献具有标引词t或t”的信息量。（2）推测标引词在已知文献具有标引词t的情况下，可根据信息提取的思想来推测文献是否具有标引词t。定义3：称（）为由标引词t推测标引词t的确定率。从定义3 可以看出，在获得t的信息时，就可以从t的信息中提取的信息，故标引词t对 t的确定率就等于的信息量在t的信息量中所占的比例，比例越高，确定率越大；反之，比例越低，确定率越小，显然有成立。我们的目的是从标引词t出发，对标引词t作一推测。这种推测不可能都达到100%的准确率，只需得到相对较高的确定率即可。这种推测是

22、一种或然推理，具有或然性。当确定率达到1时，就是推断，即通常的精确推理。4 基于词汇分布特征的索引方法基于词汇分布特征的索引方法依据下述假设来选择索引词：某词在文献中的出现频率与该词的文献区分功能有密切关系。一个词（实词）在文献中使用越频繁，就越有可能是一个指示主题的词。通过对这些词语的统计，求出其中的高频词、中频词和低频词，并使用中等频率的词语作为标识文献的主题词。除此以外，还可以根据取词的不同位置、词语本身的重要性给每个词赋予不同的权值，使得最终的加权统计结果更加符合实际情况，更能体现文章的主题4。4.1 基于词频的基本方法大量词频统计结果表明，文章中出现频率最高的词汇往往是反映句子语法

23、结构的虚词，作者重点阐述某主题时所用的核心词，其出现频率通常较高。因此，最高频词和低频词都不适宜做标引词，只有词频介于最高频和低频之间的这部分词汇才适合做标引词。词频统计法的出发思想是：根据词频统计结果，将出现频率较高并含有实质意义的词汇作为反映一篇文章主题的有效测度，这一测度就确定了标引词的选择范围。词频统计法的理论基础是著名的齐普夫定律（Zipfs Law）。齐普夫定律是描述一系列实际现象的特点非常到位的经验定律之一。它认为，如果我们按照大小或者流行程度给某个大集合中的各项进行排序，集合中第二项的比重大约是第一项的一半，而第三项的比重大约是第一项的三分之一，以此类推。换句话来说，一般来讲

24、，排在第k位的项目其比重为第一项的1/k。以英语文本的一大段典型内容为例，最常见的单词the通常占所有出现单词的近7%。排在第二位的词语：of占所有出现单词的3.5%，而排在第三位的单词and占2.8%。换句话说，所占比例的顺序（7. 0、3.5和2.8等）与1/k顺序（1/1、1/2、1/3）紧密对应。虽然Zipf最初发明的定律只是适用于单词出现频率的这一现象，但科学家们发现，它可以描述极其广泛的一系列统计分布，譬如个人的财富和收入、城市人口甚至博客读者数量6。Zipf第一定律即高频词定律可用式（7-3）表示：RF=C （7-3）式（7-3）中， R为词频等级数，F为词频，C为常数,例子见表

25、1。定律描述了文本中高频词的出现规律，而其修正定律即Zipf第二定律（低频词定律）则描述了低频词的出现情况，如式（7-4）所示：（7-4）这两个完全不同的定律刻画了文本中词分布的两个极端情况。表1：RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照这个定律，词的分配符合下面的曲线（图1）：1 2 3 FrequencyRank 图1 词的频率和编号曲线图显然，不能将所有词频高的词都作为

26、索引词。可以定义另一个上限阈值: 如果某个词的频率超过这个阈值，不被当作索引词。这两个阈值的使用对应于词的信息量。信息量是指对词所蕴含含义的质量的测量。这个概念在IR中的定义不是很精确。只是通过直觉来使用。但是，在信息理论中，我们可以发现它的等价物（例如，Shannon理论或熵）信息量和频率之间的对应关系如下：因此，在这两个阈值之间选择词的时候，希望获得信息量被最好地展现出来的那些词。早在20世纪50年代Luhn就在Zipf定律基础上提出词频统计标引方法，其主要步骤是：n 给定m篇文献组成的一个集合，设第k个词在第i篇文献中发生的频率fik 。n 决定该词在整个文献集上的发生频率：n 按照fk

27、的大小将词降序排列，确定一个上截止阈值，去掉fk 大于上截止阈值的词，确定一个下截止阈值，去掉fk 小于下截止阈值的词。n 剩余的中频词用于文献的标引。Goffman在考察了上述两个定律之后，认为存在一个词由高频行为转为低频行为的临界区（critical region），只有处于临界区内的词才最适于描述文献的主题。为确定临界点，设低频词定律具有高频词特征，也就是词频为n的词数接近于1 （），即每个词具有唯一的级数，则式（7-4）变为：上述整理式为一元二次方程，解此方程保留正平方根，得：求得n之后，以n为临界区的中点，以最高词频处为临界区的上界，取与n到上界之间等级距离相等的另一端为临界区的下

28、届，位于临界区内的词经过禁用词表处理即可选为标引词。4.2 基于鉴别（区分）值的基本方法鉴别值识别是指在众多的文档中借助某个词来较好地识别出某个文档的方法。也就是说，某个有较高鉴别值的词一定出现在小数量的文档中。出现在大多数文档中的词没有鉴别力。词的鉴别值对于索引词的选择是非常重要的。想法是保留那些具有区别性的词，淘汰那些没有鉴别力的词。鉴别值的计算在矢量模型中被提出。因此，我们将在下一章中详细地介绍这个模型。在矢量模型中，每个文档由加权的矢量来表示，例子如下： t1 t2 t3 tndi 其中，pij表示词tj 在文档di中的权重。已知一个文档集，就有了一个矩阵。一个词的鉴别值的计算方法

29、如下：1、计算文档集的矩心Pj=i Pij / N其中，Pj表示第j个词的权重，Pij 表示在第i个文档中第j个词的权重2、计算文档的空间密度，也就是每个文档和文档集的矩心的相关性的平均值U1 = C * j Sim(di, V) 其中，C 是标准化常量，常取 C = 1/ N，Sim(di, V) 是文档di 和文档集矩心V的相关度。这里，Sim是标准化的公式，它的取值是0，1（在矢量模型中将给出更多的介绍） 3、计算去掉第j个词后的文献空间密度，用U2表示4、词j的鉴别值定义为：DVj = U2 - U1 在鉴别值的计算中，我们不能以词的频率为主，而是要关注词在文档集中的分配。在应

30、用鉴别值时，就淘汰了功能词，英语中如，“of”, “to” 等。如果一个词的区分值大于零，则用其做标引词会使文献间的相似度减少，使文献空间密度降低，从而使标引效率提高，因而设计词权时应取较大的取值；如果一个词的区分值小于零，则用其做标引词会使文献间的相似度增加，使文献空间密度增大，从而使标引效率降低，因而设计词权时应取较小的权值。也就是说，标引词权重应与标引词的区分值成正比。根据这一思想的加权函数如下： Wij =Fij *DVj词区分值加权标引与逆文献频率加权标引基本上是一致的。在逆文献频率加权标引中，词的文献频率与词权有互逆关系；在词区分值加权标引中，词区分值与权值相一致。若词的文献频

31、率高，用其做标引词会使文献密度增大，从而使词区分值减小；若词的文献频率低，用其做标引词会使文献空间密度减小，从而使词区分值增大。因此，词的文献频率与词区分值有互逆关系，故词区分词加权标引中的词权与文献频率存在互逆关系，或者说逆文献频率加权标引中的词权与词区分值相一致。这说明两种标引方法在本质上是一致的。4.3基于tf*idf 的基本方法tf*idf 是信息检索中比较著名的方法。Tf是指词的频率，idf 指倒置文档频率。通过tf, 进行了词对文档的重要性的测量，只对文档集合中某确定的文档有意义，通常, 这个值是由文档中的词的频率确定的。通过 idf, 来测量词的鉴别性，是对整个文档集合而言的。

32、这里, 给出了一些常用的 tf 和idf 公式。1、 tf = f(t,d), 词t在文档d中出现的次数；tf = f(t,d)/MAXf(t,d), 在文档d中特征词出现的最大次数；tf = log(f(t,d) tf = log (f(t,d)+1)其中，a、词频的标准化方法See Normalization，也称为TF的归一化：将一篇文档中所有Term的TF值归一化到0,1之间。包括：􀂄 Maximum Normalization： 􀂄Augmented Maximum Normalization： 􀂄 Cosine Normali

33、zation：b、对TF进行缓冲：1+log(TF), 1+log(1+log(TF)，c、Log的作用：将值域拉平，使得函数的变化更平缓2、idf = log (N/n), 其中，N是文档集中的文档数， n是包含某个特征词的文档数。其中，1+log(N/n)，是对DF进行缓冲。3、最后，可以在值的计算中加入一些标准化的处理方式。一种形式的tf * idf的公式如下： tf * idf = f(t,d) /MAXf(t,d) * log (N/n)对tf * idf进行归一化（TFC）：降低TF的作用（LTC）：tf*idf 公式综合考虑了两个因素：1.文档中词的重要性（tf）。2. 词的

34、鉴别性的重要性(idf). 因此, 有较高的tf*idf 值的词在文档中一定是重要的, 同时它一定在其它文档中出现很少. 这就是词与文档的重要特征和独特性相对应的情况. 通过这样的公式, 可以选择只保留tf*idf的值超过规定的阈值的那些词作为特征词。4.4 n-gram索引方法n-gram标引法的基本原理是以n字符串为统计对象，将其统计得分赋予该串中心字符，然后选择包含得分超过特定阈值字符的单词或短语作为标引词。n-gram是指n（n1）个相邻字符序列，对一文本进行n-gram处理，可得到该文本所包括的n长字符串的集合。如对COMPUTER进行3-gram处理，可得3字母集合COM，OMP

35、，MPU，PUT，UTE，TER 早在1951年，现代信息论创始人Shannon便用n-gram进行文本压缩的检验。1979年Burnett、Willet等人将这种方法引入情报检索领域。1995年Cohen用n-gram分析法选择被其称为“最亮点（Highlights）”的标引词。Cohen的n-gram标引法主要包括以下几个步骤：n 过滤文献。无意义字符如标点符号、数字等用禁用符号替换。n 在过滤后的文献中统计n-gram。考虑一个长为S具有符号 s1,s2,.,ss的文本样本，给定正整数n（典型的n值从3到6），则定义第j个n-gram gj如下：gj =（sj-(n-1)/2, sj-(

36、n-1)/2+1, . , sj-(n-1)/2+n-1）抽出文本的全部n-gram之后，用一HASH表统计n-gram。这样，gj 便通过一容易计算的HASH函数k映射到一表地址k(gj)上。经过大量实验，Cohen 选择了下面的HASH函数：k(gj)= mod M其中，是不同的大质数，M是HASH表规模，Ord（）给出了相应字符的数量值。在统计中如发现某n-gram包含禁用符号，则该n-gram不被统计。n 对文献中发现的每个n-gram，用其计数与在“背景文献”中对应的计数比较。“背景文献”是同被标引文献有虚构联系的一组文献。假定文本样本由n-gram gj(j=1,2,.,S)组成

37、，计数Ci（i=1，2，.,N）是等于第i个可能的n-gram值的 gj 数。在gj 相互独立的假设下，向量变为下面的多项式：其中f是多项式密度，是潜在概率向量。类似地，“背景文献”中对应的计数，总计数R=，的潜在概率向量为，则：通过对数线形联列表分析，第i个n-gram的得分为： n-gram的得分越高，其特性越强。n 将n-gram的得分赋予其中心字符，。n 确定字符得分阈值，其中n 抽取文献中字符得分超过阈值的单词，如果合适的话，将邻近的单词抽为短语。这些被抽出的单词或短语即为文献标引词（最亮点）。n 每个被抽出的单词或短语取其所包含字符得分的平均值为其一种特例得分。n 将抽出的单

38、词或短语并入一词表，累计其各个特例得分作为该单词或短语的总得分。n 对词表按单词或短语的总分排序并适当去除低分词，便得到标引文献的“最亮点”标引词表。Cohen用此法不仅标引了英文文献，而且还标引了西班牙文、德文、格鲁吉亚文、俄文、日文，取得了较好的试验结果。其他计算方法：例如：“Party on Peter Chens birthday”，4.5 统计学习索引法统计学习标引法首先通过学习过程建立候选标引词与对其标引产生正反不同作用的促进词和削弱词集合之间的关系，然后由标引过程根据候选标引词在此关系中的权值及其词频来确定其是否作为标引词。这种方法由学习和标引两个过程组成。4.5.1 学习过程

39、假设存在n个受控标引词I1，I2,.,In 和在将处理的文献中可能出现的m个不同的单词w1,w2,w3,.,wm 。对一特定标引词Ij，将实施由四步组成的学习过程。（1）汇集肯定和否定训练（Training）集合对一特定标引词Ij,一些由Ij标引的文献被汇集起来（当然，这些文献事先由标引员标引），这些文献称为Ij 的肯定训练集合。同时一些未被Ij 标引的文献也被汇集起来，这些文献称为Ij 的否定训练集合。（2）统计在集合中出现的单词的词频统计肯定训练集合中的每个词，然后将词频转为相应的z-score。类似地，在否定集合中的每个词亦被统计，其z-score也被计算出来。通过这一步，便

40、可得到两个z-score表，此表描述了在Ij 的肯定训练集合和否定训练集合中的单词的统计分布。z-score及其他相关的统计测量指标定义如下。对于一列n个变量：x1,x2,x3, ., xn 平均值=（x1+x2+x3+ .+ xn）/n 方差=（）/（n-1）标准偏差=（方差）0.5 xi 的z-score =（xi-平均值）/标准偏差（3）选择促进词和削弱词如果一个词的出现促进了标引词Ij的标引，则此词称为Ij的促进词。相反地，如果一个词的出现削弱了Ij 的标引，则该词称为Ij的削弱词。选择促进词和削弱词的方法描述如下。n 促进词选择IF（一个在Ij的肯定训练集合中的词的z-score

41、阈值）AND（一个在Ij的否定训练集合中的词的z-score 阈值）AND（一个在Ij的肯定训练集合中的词的z-score MjTHEN标引词Ij 赋予文献ENDIF4.6概率索引法从概率论的角度进行文献自动标引的方法最初由Maron 和Kuhns 于1960年提出，其基本思想事：文献检索系统可根据文献满足提问的概率来估计输出文献并对其分级。到目前为止，概率标引法所依据的概率主要有相关概率，决策概率和出现概率。基于相关概率的标引法一是根据包含相同标引词的提问与文献的相关概率来标引划分文献，如二值独立性标引模型；一是根据具有一定联系的文献之间的相关概率来标引特定的文献，如基于被引用与引用文献的

42、标引方法。基于决策概率的标引方法主要是依据某标引词赋予某文献这一决策事件正确的概率来标引文献，如DIA标引方法。而RPI模型则是同时以需求一文献相关概率和叙词标引文献正确的决策概率为基础而构造的标引方法。基于出现概率的标引方法是根据词在文献中的出现频次所服从的概率分布的特征来选择标引词，如2Poisson模型。这种标引方法目前还处于理论阶段，具体的标引工具还没有出现。5 基于语言规则与内容的索引5.1 句法分析标引法句法分析法利用计算机自动分析文本的句法结构，鉴别词在句子中的语法作用和词间句法关系，前苏联开发的自动标引系统多采用此法。它们一般都借助词典来制定词的语法范畴，以此作为句法分析的基础

43、，最终抽出可做标引词的词语。句法分析法从文献的标题出发，分析其内在结构，其假设是文章的标题是可以基本反映文章的主要内容。它从语法角度上确定句子中每个词的作用 (如主语还是谓语 )和词之间的相互关系 (如是修饰还是被修饰 )，并通过与事先准备好的解析规则或语法相比较而实现。句法分析基于深层结构的标引法将文献标题可能反映的主题内容归纳为有限的几种元素基本范畴，并使用简洁的句法规则，减小了句法分析的复杂性。数字化指示符和处理码标识的运用更方便了计算机的识别处理。但是这种方法在主题名称的范畴分析及主题标目的选择等方面需要较多的人工干预，影响了其自动标引效率。另外，这种方法仅以文献标题为标引对象，虽然主

44、题内容容易突出，但标题句法形式的规范性一般较差，增加了句法分析的难度，同时过窄的分析范围容易漏标一些相关主题4。5.2 语义分析标引法语义分析标引法通过分析文本或话语的语义结构来识别文献中那些与主题相关的词。这种方法本身受制于语言学的发展，而众所周知的是语言学，尤其是计算语言学本身的研究难度，所以目前利用语义分析的方法进行标引的研究还不多，所能见到的有诸如：潜在语义分析标引法、相信函数模型和语义矢量空间模型等。学术界对从语言学角度研究自动标引的做法颇有争议，反对者的主要理由包括：语言法的使用限制多、语言学领域的研究成果对促进自动发展帮助甚微等6 人工智能索引法人工智能是计算机科学的一个分支，它专门研究怎样用机器理解和