胡晓光信息检索实验室.ppt
《胡晓光信息检索实验室.ppt》由会员分享,可在线阅读,更多相关《胡晓光信息检索实验室.ppt(26页珍藏版)》请在三一办公上搜索。
1、胡晓光信息检索实验室,索引和查找,提纲,顺序查找索引查找签名文件倒排文件PAT树(Patricia tree)关于压缩,说明,索引和查找的关系索引和查找其实是密不可分的建索引时必须不断的执行查找操作查找和查询的区别查找(search)如何在索引中定位关键词信息查询(query)Query处理:如何根据用户输入确定关键词检索模型:如何利用查找返回的信息计算相似度等文本压缩和索引压缩的区别注意文本压缩不能有效地减少索引文件的大小,顺序查找,精确匹配算法Brute ForceKnuth-Morris-PrattBoyer-MooreShift-OrSuffix Automaton容错匹配算法Dyna
2、mic ProgrammingNon-deterministic Finite AutomatonBit-Parallelism正则表达式和扩展模式,索引,索引文件为方便查找,描述原文件信息组织的文件签名文件,倒排文档,后缀树都是索引文件,签名文件,Karp-Rabin匹配思想假设我们现在要判断字符串A和字符串B是否匹配把A和B分别散列成数字hash(A)和hash(B)如果hash(A)!=hash(B)则A!=B然而hash(A)=hash(B)不能说明 A B,Karp-Rabin匹配例子关键词 x0.5:A A C T C T Hash(x0.5)=17579文本y0.9:G C A
3、A C T C T C A Hash(y0.5)=17819文本y0.9:G C A A C T C T C A Hash(y1.6)=17533文本y0.9:G C A A C T C T C A Hash(y2.7)=17579,签名文件,文档的签名把文档中的关键词散列成F位的位串Signature顺序访问原文档的关键词,把散列所得的位串依次存入文件重叠编码(superimposed coding)我们不需要为每个关键词都保存一个Signature多个关键词共用一个Signature可以减少文件的长度错误匹配(False drop)由于重叠编码和哈希冲突的原因,关键词和Signature不
4、是一一对应的关系Signature匹配并不能保证关键词一定出现,还需要检查,Block 1Block2 Block3 Block4,000101110101100100101101,文本,签名文件,h(text)=000101h(many)=110000h(words)=100100h(made)=001100h(letters)=100001,This is a text.A text has many words.Words are made from letters.,签名文件,签名文件,优点文件组织简单,基本和原文档顺序一致维护容易,生成,插入,删除都很方便所需空间小,特别是采用重叠编
5、码之后缺点检索速度慢,需要顺序扫描并且,当False Drop发生的时候需要比较原文档总之签名文件是倒排文档和全文扫描之间的折中,倒排文件,倒排索引思想每个文档都可以用一系列关键词来表示 如果按关键词建立到文档的索引便可以根据关键词快速地检索到相关文档 倒排文件组成词汇表(Vocabulary)根据Heaps定律,通常比较小O(n),:0.40.6通常我们称存放词汇表的文件为索引文件(index file)出现位置(Occurrence)较大,O(n),通常在原文本的3040通常我们称存放出现位置的文件为置入文件(posting file),倒排文件,1 6 9 11 17 19 24 28
6、33 40 46 50 55 60This is a text.A text has many words.Words are made from letters.,letters60 made50 many28 text11,19 words30,40,VocabularyOccurrences,Text,addressing granularity:inverted list word positionscharacter positionsinverted file document,倒排文件,块地址索引有时候为了节省索引空间,可按块地址建索引把原文划分为多个块,只记录关键词的块地址,B
7、lock1 Block2 Block3 Block 4This is a text.A text has many words.Words are made from letters.,letters4 made4 many2 text1,2 words3,VocabularyOccurrences,Text,Inverted index,倒排文件,倒排文件的性能时间代价主要取决于词汇表的组织方式词表文件通常较小且比较固定对于未登录词和数词可以按字建索引空间代价主要取决于对置入文件的压缩能力置入文件的压缩能减少IO操作,也能提高部分时间性能词汇表文件的组织方式采用Hash散列表按字母表顺序有序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 胡晓光 信息 检索 实验室

链接地址:https://www.31ppt.com/p-5721486.html