信息组织及检索 第六章 查询及用户接口课件.ppt
《信息组织及检索 第六章 查询及用户接口课件.ppt》由会员分享,可在线阅读,更多相关《信息组织及检索 第六章 查询及用户接口课件.ppt(79页珍藏版)》请在三一办公上搜索。
1、2022/12/7,1,第6章 查询与用户接口,如何向信息检索系统提交查询?如何针对内容、结构提交查询?如何针对文本、多媒体数据提交查询?如何针对用户的初始查询可能不确切、查询要求缺乏明确的范围和语义的问题?,2022/12/7,2,第6章 查询与用户接口,本章的主要内容:常用的查询方式通过交互来实现相关反馈和查询扩展用户接口中涉及到的其它问题,2022/12/7,3,第6章 本章内容,6.1 查询接口设计中的问题 6.2 查询方式 6.3 查询中的交互反馈 6.4 用户接口 6.5 小结,2022/12/7,4,6.1 查询接口设计中的问题,一、信息存取的一般过程 从信息需求开始;选择操作的
2、系统和文档集;形成一个查询;把查询提交给系统;*获得搜索到的返回结果;查看、评价和理解结果;结果是否满意?如果满意,则停止;否则继续;重新形成查询,并回到(*)。,2022/12/7,5,6.1 查询接口设计中的问题,二、查询接口设计中的问题 查询方式 有哪些查询类型?用户向系统提交的查询类型依赖于系统采用的是哪种检索模型。例如,全文检索系统采用的查询方式就会与基于关键词排序、超媒体模型和多媒体内容模型的查询方式不同。,2022/12/7,6,6.1 查询接口设计中的问题,二、查询接口设计中的问题 查询中的交互性 信息检索是一个交互的过程 检索系统应该提供查询的反馈,以便用户能够及时了解查询的
3、效果,为下次查询的形成提供参考,2022/12/7,7,6.1 查询接口设计中的问题,二、查询接口设计中的问题 用户接口 用户如何提交查询?查询结果如何表现,使得用户容易观察到相关结果?用户查询接口的简易性和检索能力的矛盾记录用户查询的过程对于多媒体数据来说,要求查询接口能够提交视听查询,2022/12/7,8,6.2 查询方式,基于关键词的查询 模式匹配结构查询基于内容的查询,2022/12/7,9,6.2.1 基于关键词的查询,一、单词查询 指针对单个词的查询,是信息检索系统的基本查询形式查询的结果是包含有指定词的文档子集,并根据与查询的相似度排序。 有一些系统只允许对文档集中抽取的单词集
4、进行搜索,而有一些系统允许全文搜索。,2022/12/7,10,6.2.1 基于关键词的查询,二、上下文查询 什么是上下文?用多个词来构造一个查询,以缩小查询的范围,增加查询的上下文联系 上下文原则对于计算与多个词表达的查询之间的相似性来说,相近出现的词所表达的相似性,要比分离得较远的词所表达的相似性高,2022/12/7,11,6.2.1 基于关键词的查询,二、上下文查询 上下文查询的实现“词组查询”(或称为短语查询)由一系列单词查询组成,多个词形成一组词,由此来匹配文本中与其相近的一组词。“近似查询”用户给出多个词,同时给定词与词之间最大允许的距离可以要求查询结果中的词与查询中的词出现的顺
5、序一致,或不必一致,2022/12/7,12,6.2.1 基于关键词的查询,二、上下文查询 示例:用户提交的查询词:“红色”和“汽车”,目的是查询包含“红色汽车”的文档。但是,可能文档中包含“红色的汽车”或“红色奔驰汽车”,它们也是用户感兴趣的文档。前者可以用词组(短语)查询来实现匹配,因为可以忽略短语(在被匹配的文本内)中的非用词“的”。后者需要近似查询来实现匹配,2022/12/7,13,6.2.1 基于关键词的查询,三、布尔查询 利用布尔操作符及其语法来组合基本的查询 一个操作符可以作用于其它操作符的结果之上,由此可以定义一个查询语法树叶节点对应于基本查询内部节点对应于操作符,2022/
6、12/7,14,6.2.1 基于关键词的查询,三、布尔查询,AND,OR,计算机,通信,网络,查询语法树的例子,2022/12/7,15,6.2.1 基于关键词的查询,三、布尔查询 给定两个基本查询或布尔子表达式e1和e2,最常使用的操作符是:OR。查询(e1 OR e2)选择所有满足e1或e2的文档,重复的部分去掉;AND。查询(e1 AND e2)选择所有同时满足e1和e2的文档;BUT。查询(e1 BUT e2)选择所有满足e1 但不满足e2的文档。,2022/12/7,16,6.2.1 基于关键词的查询,三、布尔查询 问题没有受过数学训练的用户难以掌握布尔操作符的含义。布尔查询说明中的
7、一个问题是基本语法的误导。 人们常常理解的是常识中的“and”和“or”语义,而不是逻辑操作的AND和OR。,2022/12/7,17,6.2.1 基于关键词的查询,四、自然语言 把布尔模型模糊化,不特别强调AND和OR的结果,这样查询变成了枚举多词查询和上下文查询 所有能匹配部分用户查询的文档都被检索出来。匹配得越多,排序的等级就越高 在这种方案中,我们已经完全不用布尔操作,采取自然语言查询的思想,2022/12/7,18,6.2.1 基于关键词的查询,四、自然语言 可以把布尔查询看成是自然语言查询的简化和抽象 实现方法在用户提交一段自然语言的输入句子以后,把句子中的非用词去掉,留下主干词。
8、于是,把自然语言看成是一组词,然后利用这些词进行查询。具体的查询实施可以利用词组查询或词组近似查询。,2022/12/7,19,6.2.1 基于关键词的查询,四、自然语言 有些系统还可以对自然语言做进一步的处理和分析,从中抽取一些概念,并用于匹配文档中的概念。 例如,从自然语言中可以抽取提问关键词,例如“谁”、“什么时候”、“什么地方”等 搜索出与这些词相关的人物、时间和地点,2022/12/7,20,6.2.2 模式匹配,对具有某种特性(模式)的文本片段进行检索 模式匹配:从文本段中,搜索出与指定模式特征匹配的模式。模式匹配的结果(检索出来的词)可以用于构造词组查询和近似查询,构成我们前面所
9、说的基础查询。,2022/12/7,21,6.2.2 模式匹配,什么是模式?模式是一组语法特征,它出现在文本段中词模式。文本中的一个词(字符串),这是最基本的模式。前缀模式。一个串,位于词的开始部分,例如给定前缀“comput”,所有包含如“computer ”,“computation”,“computing”词的文档都被检索出来。后缀模式。一个串,位于词的结尾部分,例如给定后缀“ters”,所有包含如“computers”,“testers”,“painters”等词的文档都被检索出来。,2022/12/7,22,6.2.2 模式匹配,什么是模式?子串模式。一个可能在文本词中出现的串,例如
10、给定子串“tal”,所有包含如“coastal”,“talk”,“metallic”等的词都被检索出来。区间模式。用一对串表示区间模式,可以用于匹配在词典顺序上位于其间的任何词。比如,由“held”和“hold”构成的区间模式包含“hoax”和“hissing”串允许误差模式。用一个词和误差阈值表示。这种模式能够检索出所有与给定词“相似”的词(在允许的误差范围之内)。因为键入、拼写或字符识别软件等原因,文本可能有错,由此出现差错变体。查询应该能够检索出给定词和它的差错变体词。,2022/12/7,23,6.2.2 模式匹配,什么是模式?模式表达式。一个模式表达式是由简单串和操作符(并置、串联、
11、重复等)组成,是用于匹配的一般模式。例如,“pro(blem | tein)”模式表达式(其中 | 代表“并置”操作符)将匹配“problem”和“protein”这样的词。其它模式。使用更加友好方便的形式表达一些通用的模式,包括大小写敏感(或不敏感)的匹配模式、通配符模式、部分准确匹配、部分允许误差匹配模式、条件匹配模式等。,2022/12/7,24,6.2.3 结构查询,文档除了内容之外,另一种重要信息线索是包含在其结构中结构查询固定结构查询超媒体结构查询层次结构查询,2022/12/7,25,6.2.3 结构查询,2022/12/7,26,6.2.3 结构查询,固定结构查询文档具有一组固
12、定的域,就象一种表格。每个域都包含文本或其它对象。 例如,一个邮件文档可以看成是邮件的集合,其中每个邮件有发送者、接收者、日期、标题、信体域。 用户于是可以针对这些域来进行搜索。 例如,搜索那些发给特定人的、在标题域中含有“照片”的邮件。,2022/12/7,27,6.2.3 结构查询,超媒体结构查询早期,超媒体检索只是一个导航性的活动。就是说,用户必须沿着链,人工遍历超媒体节点,搜索到想要的内容。 可以在Web上把浏览和搜索能力综合起来。例如在常规浏览中,增加搜索当前节点的邻节点的功能,这里用到了节点与邻节点之间的链。,2022/12/7,28,6.2.3 结构查询,层次结构查询层次结构可以
13、用链表模型或树模型来表示超媒体结构中就包含有层次结构层次结构可以看成是超媒体结构的简化(去掉了交叉引用链,留下层次结构链) 根源查询。这种查询主要应用到层次结构中,查询一个节点的归属,例如这幅图像属于哪章,哪本书?如果层次结构是一个分类树,那么就可以查询出一个节点的父类是什么。,2022/12/7,29,6.2.3 结构查询,层次结构查询关联查询。查询出与该节点相连的所有节点,这可以是该节点与邻接节点的链接关系,有些链是表示语义关系,有些链是表示时空关系。包含(被包含)查询。查询一个节点(页面、文档)包含哪些节点,例如一个章节包含哪些部分,一个概念由哪些子概念组成,等等。反过来,又可以查询被包
14、含的关系。跟随(被跟随)查询。根据引用链的方向性来进行查询,由此可以查询出跟随和被跟随的结构关系。,2022/12/7,30,6.2.4 基于内容的查询,对于多媒体来说,常用“基于内容”的查询和检索这个概念。实际上,文本信息检索也是针对文本内容的,只是“基于内容”这个术语已经习惯用于多媒体信息检索当中,2022/12/7,31,6.2.4 基于内容的查询,一般属性查询产生信息。表示产生、类别和其它相关资料的信息,例如产生信息有标题(文本的或图标形式的)、文本注释、创建信息(创建者、创建地点、日期)等;类别信息可以是按照风格、主题、目的、语言等方式分类的信息。使用信息。是关于多媒体使用方面的信息
15、,例如使用权限、可用性、使用纪录、费用等。这些信息可能会动态改变。媒体描述信息。是有关存储媒体的信息,包括压缩、编码、存储格式等。,2022/12/7,32,6.2.4 基于内容的查询,感知特征查询视听特征:是颜色、纹理、形状、运动,以及听觉特征等。全局特征:这些查询可以是针对全局的,例如针对整幅图像局部特征:也可以是针对局部区域或对象的,例如视频对象或图像区域,2022/12/7,33,6.2.4 基于内容的查询,时空结构查询视听数据的时间结构、空间结构和时空结构信息 图象对象的空间位置;视频帧、镜头、场景的时间结构;视频中视频对象的时空结构等,2022/12/7,34,6.2.4 基于内容
16、的查询,概念查询视听内容表达的概念进行查询 语义表示的是多媒体的高层抽象概念,2022/12/7,35,6.2.4 基于内容的查询,浏览和其它存取方式等基于内容的浏览:而不是常规的线性浏览 分解模型和媒体变体:在多媒体内容的“分解模型”和“媒体变体”表示的支持下,我们还可以进行许多新的信息查询和存取。例如,对图象进行多分辨率的存取和渐进的查询。概要、摘要、比例缩放、压缩、不同分辨率版本、不同语言版本、不同模态(文本、语言、图形等)版本都可以看成是视听内容的变体。,2022/12/7,36,6.3 查询中的交互反馈,查询中的反馈问题:第一次查询是作为一次初步的尝试用户检查检出的文档,指定哪些是相
17、关的文档构造出新的或改进的查询表达式再次进行尝试 查询重构的两个基本步骤:利用新的项来扩展原查询在扩展的查询中重新分配项的权重,2022/12/7,37,6.3 查询中的交互反馈,查询扩展和重新分配权重的三个策略利用用户的相关反馈基于用户的反馈信息利用聚类算法,自动进行查询的调整基于返回文档子集的信息基于文档集的全局信息,2022/12/7,38,6.3.1 用户相关反馈,在相关反馈循环中系统向用户返回一组文档用户查阅(扫描)这些文档后,在那些相关的文档旁做上标记提高这些相关对象(项)在新形成的查询中的重要性 希望新的查询代表那些相关文档,而远离不相关的文档,2022/12/7,39,6.3.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息组织及检索 第六章 查询及用户接口课件 信息 组织 检索 第六 查询 用户 接口 课件

链接地址:https://www.31ppt.com/p-1569642.html