基于文本的索引构建技术.ppt
《基于文本的索引构建技术.ppt》由会员分享,可在线阅读,更多相关《基于文本的索引构建技术.ppt(52页珍藏版)》请在三一办公上搜索。
1、第三章,基于文本的索引构建技术,本章内容,顺序文档索引,基于内存单次扫描的索引构建技术,基于块的排序索引技术,本章小结,倒排文档索引,概要,概要,概要,概要,3.1基于块的排序索引技术,3.1.1索引文档建立必须考虑的硬件性能,3.1基于块的排序索引技术,3.1基于块的排序索引技术,内存调用:访问内存数据比访问磁盘数据快得多(5 10 9s VS 2 10 8s),尽可能地把数据放在内存中。连续存放数据块:磁盘的寻道时间平均为4ms-5ms,连续读取的数据块也应该在磁盘上连续存放。,3.1基于块的排序索引技术,利用缓冲区:操作系统往往以数据块为单位进行读写。数据块的大小通常为 8 KB、16
2、KB、32 KB 或 64 KB。,压缩数据:数据从磁盘传输到内存是由系统总线而不是处理器来实现的,这意味着在磁盘 I/0 时处理器仍然可以处理数据。,3.1基于块的排序索引技术,利用磁盘:系统的服务器往往有数 GB 甚至数十 GB 的内存,可以利用服务器磁盘空间大小一般比内存大小要高几个数量级:TB-PB。,3.1基于块的排序索引技术,3.1.2 基于块的排序索引方法,图3-1 桂林电子科技大学-新闻模块目录实例,3.1基于块的排序索引技术,3.1基于块的排序索引技术,图3-2 桂林电子科技大学-新闻内容文档实例,3.1基于块的排序索引技术,表3-1 桂林电子科技大学-新闻文档集统计数据表,
3、3.1基于块的排序索引技术,3.1基于块的排序索引技术,BSBI算法步骤:,3.1基于块的排序索引技术,选择合适的块算法,下图的算法将每个块的倒排索引存入文件中f1fn,最后合并为fmerged。,图3-3 基于块的排序索引算法,3.1基于块的排序索引技术,依据图3-3的算法将待合并的倒排记录表(两个数据块)从磁盘读入内存,然后在内存中合并后写入磁盘(见图3-4)。,图3-4 基于块的排序方法合并示意图,3.2基于内存单次扫描的排序构建技术,基于内存单次扫描的索引算法SPIMI(single-pass in-memory indexing):每块采用不同的词典,将每个块的词典写入磁盘,对于下一
4、个块则重新采用新的词典。只要硬盘空间足够大,SPIMI 就能够索引任何大小的文档集。,3.2基于内存单次扫描的排序构建技术,SPIMI算法的步骤:,Click to add Title,Click to add Title,Click to add Title,3.2基于内存单次扫描的排序构建技术,图3-5 SPIMI算法的块倒排索引生成算法,3.2基于内存单次扫描的排序构建技术,SPIMI算法与BSBI的区别:,3.3顺排文档索引,3.3顺排文档索引,3.3.1 表展开法索引 1968年,日本学者菊池敏典提出,又称“菊池敏典算法”。目前主要用于面向定向服务的检索系统,旨在将代表用户的逻辑提问
5、式转换成检索表的形式,该检索表规定了表内容走向和检索命中与否的判断,检索时根据表内容走向及其他相关信息来判断每条记录是否检索命中。,3.3顺排文档索引,1、展开表的含义 将经典布尔逻辑检索的逻辑提问表达式转换为逻辑检索表,每个检索词的检索组配关系要求能够用表进行精确映射,检索的记录是够最终命中检索需求要能准确反映出来。(A+B)*(C+D)的展开表如3-2所示表3-2(A+B)*(C+D)的展开检索基础表,表中,“命中”表示被查比的文献满足查询要求的出口,“落选”表示反之,3.3顺排文档索引,2、展开表生成,过程,3.3顺排文档索引,前处理判断提问式中的字符,从上而下填写表格。对不同类型对象的
6、处理方式如下:表3-3 对不同类型对象的处理表,3.3顺排文档索引,后处理后处理的主要任务就是填满整个表的空白单元,填表的依据是表中“级位”栏的前后级位值,填表的顺序是从下向上,直至表的顶部,从而得到一个完整的提问展开表。,3.3顺排文档索引,3、表展开法的检索应用描述,3.3顺排文档索引,3.3.2 逻辑树索引,逻辑树展开法是将逻辑提问式展开成树型结构(下称主逻辑树),运算符构成树的结点,检索词被视为树叶,所有检索词也按照有限自动机原理构造成字符树(即子树),主树与子树间的相关元素用指针链接。检索采取遍历树原则,先用文档中的索引词逐字符的遍历子树,当遍历到树的一个端点(树叶),然后依照指针登
7、记主树,并根据遍历树方式分析提问是否命中。逻辑树展开法包括三个部分:逻辑提问式的分解、字符树的生成、检索实现。,3.3顺排文档索引,1、逻辑提问式分解,逻辑提问式分解的分解目标为:提供可直接用于检索实现的主逻辑树表、检索词地址表以及检索词在检索式中的位置表。这些表在检索实践中分别发挥着应有的作用。(1)主逻辑树表 主逻辑树表是逻辑提问式的一种树形表达形式,它用层次型的树形结构把运算符、运算项关联起来,其主要内容包括;运算种类、子项个数、父项地址以及检索处理登记栏。,表3-4 主逻辑树表结构,3.3顺排文档索引,(2)检索词地址表 检索词地址表是主逻辑树表与子表的联系纽带,在检索中,当一个检索词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 索引 构建 技术
链接地址:https://www.31ppt.com/p-6262550.html