信息检索基础知识.ppt
《信息检索基础知识.ppt》由会员分享,可在线阅读,更多相关《信息检索基础知识.ppt(40页珍藏版)》请在三一办公上搜索。
1、一 信息检索二 信息检索语言、途径三 信息检索技术四 检索步骤,第二章 信息检索基础知识,一、信息检索 信息检索:是指将信息(主要指文献信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。,信息检索,存储,检索,存储:是对信息进行著录、标引、整序,编制检索工具和建立检索系统的过程。,检索:是指面向信息需求而进行高度选择性的查找过程。,检索的基本原理,信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根
2、据一定的线索与规则从中找出(search,locate,hit)相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。,信息检索一般过程,信息源,信息分析、著录、标引,信息的表示,检索语言,数据库,匹配过程,输出检索结果,用户,用户需求分析,检索表达式,信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:,二 信息检索语言、途径,1、检索语言的含义及作用2、检索语言的类型3、检索途径,1、检索语言的含义及作用,检索语言:用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言。它要求文献的标引者
3、和检索者共同遵守。按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用来标引文献,称为标引语言,用以编制索引就称为索引语言,用来检索文献则称为检索语言。是根据检索需要而创造的一种人工语言。,作用:1)、保证不同标引人员表征文献信息的一致性。2)、使内容相同及相关的文献集中化。3)、保证检索提问与文献信息标引的一致性。4)、保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。,2、检索语言的类型,检索语言的类型,表述文献外部特征的语言,表述文献内部特征的语言,题名责任者机构号码,分类法,主题法,单元词语言 标题词语言叙词语言关键词语言纯自然语言,信息特征与标识对应关系,责
4、任者及其单位,题名,摘要,关键词,中图分类号文献标示码,正文,分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。具体体现为用分类号和类名来表达信息的主题概念,如F25 物资经济*中国图书馆图书分类法(5部类,22大类)*美国国会图书馆分类法*杜威十进位分类法*IPC国际专利分类法,中图法大类表,中图法体系细分如下所示:,T工业技术TP 自动化技术、计算技术 3 计算技术、计算机 31
5、计算机软件 316 操作系统.1 分时操作系统.2 实时操作系统.7 Windows操作系统 39 计算机的应用 391 信息处理(信息加工)391.7 机器辅助技术 391.72 CAD 391.73 CAM,F 经济F0 经济学F1世界各国经济概况、经济史、经济地理F25 物资经济F250 物资经济理论F252 物资流通F5 交通运输经济F50 交通运输经济理论F53 铁路运输经济F54 陆路、公路运输经济F55 水陆运输经济F56 航空运输经济F57 城市运输经济F74 国际贸易F740 国际贸易理论与方法U 交通运输U16 特种货物运输U169 集装箱运输U169.6 集装箱运输管理,
6、主题语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语言与非规范主题语言。规范主题语言:规范主题语言是以自然语言为基础,经过标准化、规范化处理的词语,具有概念性、规范性、组配性、语义性和动态性。规范主题语言包括单元词语言、标题词语言和叙词语言。*单元词语言 是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出,再经规范,能表达一个独立的概念。比如“天气雷达”不是单元词,只有“天气”和“雷达”才是单元词,在英语中,单元词经常是一个单词。如
7、WPI-规范化主题词表*标题词语言 是从文献的题目和内容中抽出来,经过规范化处理的主题语言。美国工程信息公司出版的工程标题词表(简称SHE)是典型的标题词语言,但该公司1993年以后改用工程索引叙词表(Ei Thesaurns)。,*叙词语言 是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。如汉语主题词表、INSPEC叙词表(科学文摘)、工程索引叙词表等。非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和纯自然语言。关键词语言 直接从文献信息的标题、摘要或内容本身抽取出来的用
8、于揭示信息主题内容的自由词。纯自然语言 指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使用纯自然语言中检索中最大的问题是误检率极高。,关键词的提炼,1、反映信息概念的准确性(作为检索词应当科学,表达的意思要准确,普遍使用,同时应该简明、精练,尽可能简短明了,易输易检,词汇不宜过长)古代语言演变=古代语言*语言演变=古代语言*演变2、反映信息内容的全面性 协同设计+协同工作3、注意检索词的多样性 轨道 铁轨 过程和规律 微型计算机 微机 电脑“加热设备”可抽象化为“温度控制设备”“温度计”即“温度测量仪器”4、少
9、用或不用副词、助词、指示代词等不反映检索内容的词或词组。如a,the,is,http,com5、删除具有包含关系的其中一个 教学用的信息检索课多媒体课件信息检索*多媒体*课件6、补充 A、补充还原词组:WTO世贸组织世界贸易组织 B、补充同义词或相关词:计算机病毒(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象):杜鹃杜鹃(动物)、杜鹃(植物)7、注意输入错别字、滥用多义词。如JAVA,既可只太平洋上的一个岛,也可是一种著名的咖啡,还是一种计算机语言。8、切忌想要什么就输什么。另外:首次利用关键词检索时,不要把条件限制得过于严格,最 好是检索出一些结果再使用其他限定条件,进行二次检索。
10、,3、检索途径,检索途径又称检索入口,指信息用户在检索时,把所需信息的某种特征标识转换为检索标识,以此为入口进行检索,信息检索途径及其选择,内容特征检索途径主题途径指通过能表达文献内容的主题词来检索文献的一种途径。是信息检索的一种主要途径。【如何提取检索词】:1、切分 切分就是以词为单位划分句子和词组。例:检索有关国际|国内|集装箱|班轮|运输方面的研究论文要点:A.词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”。如:“信息检索”可切分为:“信息|检索”。B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统”切分为“操作|系统”,2、删除 将课题转换成关键词
11、的集合A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽泛而不具有检索意义,如:http,com等)B.删除过分宽泛和过份具体的限定词无损检测技术在材料性能评价中的应用无损检测*材料C.删除具有包含关系的其中一个教学用的信息检索课多媒体课件信息检索*多媒体*课件3、替换 用更本质的概念替换表达欠佳的概念 稀土材料的研制钐钴(用户实际上是研究钐钴材料)空气中细菌的计算方法空气污染的计算方法 水果营养(水果fruit=梨pear+橙orange+苹果apple+),4、补充A、补充还原词组:WTO世贸组织世界贸易组织B、补充同义词或相关词:计算机病毒(计算机+电脑)*病毒C、增
12、加限定词(解决一词多义现象):杜鹃杜鹃(动物)、杜鹃(植物)【获得主题词的技巧】:在图书的版权页可以找到该书的主题词和分类号,或者通过图书馆的馆藏数据来查找主题词。,分类途径 指根据文献所属的类别,利用特定的分类号来检索文献的途径。优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率。当所需要的信息范围比较宽泛或涉及内容复杂,仅用几个词语已无法涵盖检索需求时多采用分类途径。例:检索“集装箱种类”的信息,该用何种途径?分析:A、如果明确知道“集装箱种类”有哪些,而且知道具体名称,就用主题途径;(如保温集装箱、冷藏集装箱、柔性集装箱、液体集装箱、气体集装箱、干散物品集装箱、罐式物
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 基础知识
链接地址:https://www.31ppt.com/p-5926450.html