信息检索原理与技术.ppt
《信息检索原理与技术.ppt》由会员分享,可在线阅读,更多相关《信息检索原理与技术.ppt(90页珍藏版)》请在三一办公上搜索。
1、1,第三章 信息检索原理与技术,信息检索基本原理计算机检索数据库计算机信息检索技术计算机信息检索流程,2,2,同一文献在论著中被引用多次,在第一次出现时编号,并在正文标注处以上角标的形式标注引文页码。一般来说,一篇文献如果只被引用一次,页码在文末的参考文献表中著录;如果被引用多次,页码分别标注在文中引用的对应之处。示例:运用相似的方法2194由此产生的结果2236著者-出版年制各篇文献的标注内容由著者姓氏与出版年构成,并置于“()”内。如果只标注著者姓氏无法识别该人名时,可标注著者姓名。集体著者著述的文献标注机关团体名称。如果正文中已提及著者姓名,则其后的圆括号内只须著录出版年。,3,3,引用
2、多著者文献时,对欧美著者只需标注第一个著者的姓,其后附“et al”;对中国著者应标注第一著者的姓名,其后留适当空隙附“等”字。在参考文献表中著录同一著者在同一年出版的多篇文献时,出版年后用小写字母a,b,c,区别,并反映在文中的标注中。同一文献在论著中被引用多次,引文页码放在“()”外的上角标处。示例:(张 等,2005a)15-17;张(2006)认为;(张 等,2005a)101-105。,4,4,著录(Description),各种出版类型的文献条目有其固定的书写格式,有正确的描述即著录(description),才能有正确的识别著录格式有多种,一般应选择一种认定的标准。在总体上都有提
3、名项、出处项等著录项目。以下若干样例以中文期刊论文参考文献著录格式为参照。,5,5,图书专著的著录,主要责任者.题名M.其他责任者(如编者、译者,供选择).版本(第1版不写).出版地:出版者,出版年:页码.,1蒋有绪,郭泉水,马娟,等.中国森林群落分类及其群落学特征M.北京:科学出版史,1998:12,67-69.2昂温 G,昂温 P S.外国出版史M.陈生铮,译北京:中国书籍出版社,1988:96-983王夫之宋论M刻本金陵:曾氏,1845(清同治四年),6,6,期刊的著录,主要责任者题名J刊名,年,卷(期):起止页码,1廖昕高能低易损性发射药实验研J火炸药学报,2001,24(4):8-1
4、12Des Marais D J,Strauss H,Summons R E,et alCarbon isotope evidence for the stepwise oxidation of the Proterozoic environmentJ.Nature,1992,359:605-609,7,7,会议论文集(或汇编)的著录,主要责任者题名A来源文献主要责任者来源文献题名C或G出版地:出版者,出版年:起止页码,1钟文发非线性规划在可燃毒物配置中的应用A赵玮运筹学的理论与应用:中国运筹学会第五届大会论文集C.西安:西安电子科技大学出版社,1996:468-4712韩吉人.论职工教育的特
5、点A中国职工教育研究会职工教育研究论文集G北京:人民教育出版社,1985:90-99,8,8,学位论文的著录,责任者题名D学位授予地:学位授予单位,学位授予年:页码,1张志祥间断动力系统的随机扰动及其在守恒律方程中的应用D北京:北京大学数学系,1998:21-232Calms R BInfrared spectroscopic studies on solid oxygenDBerkeley:Univ.of California,1965,9,9,专利的著录,专利所有者专利题名P专利国别:专利号,公告日期或公开日期,1姜锡洲一种温热外敷药制备方案P中国:881056073,1989-07-26
6、.2Tachibana R,Shimizu S,Kobayshi S,et alElectronic watermarking method and systemPUS:6915001,2002-04-25,10,10,报纸的著录,主要责任者题名N报纸名,出版日期(版次),1张田勤罪犯DNA库与生命伦理学计划N大众科技报,2000-11-12(7),11,11,科技报告的著录,主要责任者题名R出版地:出版者,出版年:页码,1World Health OrganizationFactors regulating the immune response:report of WHO Scientif
7、ic GroupRGeneva:WHO,1970,标准的著录,标准编号,标准名称S.,1 中华人民共和国国家标准.织物透湿量测试方法S.GB/T 12704-91.2 GBT16159-1996,汉语拼音正词法基本规则S,12,12,电子文献的著录,对于数据库(database)、计算机程序(computer program)及电子公告(electronic bulletin board)等电子文献类型的参考文献,以双字母作为标识:数据库DB,计算机程序CP,电子公告EB。非纸张型载体的电子文献作为参考文献时,需要在参考文献类型标识中同时标明其载体类型。载体类型也以双字母表示:磁带(magne
8、tic tape)MT,磁盘(disk)DK,光盘(CD-ROM)CD,联机网络(online)OL。下列格式表示包括了文献载体类型的参考文献类型标识:,13,13,电子文献的著录,14,14,电子文献的著录,主要责任者题名文献类型标志/文献载体标志电子文献的出处或可获得地址,发表或更新日期/引用日期,1王明亮关于中国学术期刊标准化数据库系统工程的进展EB/OL.http:/www.1998-08-16/1998-10-04.2万锦坤中国大学学报论文文摘(1983-1993)DB/CD北京:中国大百科全书出版社,1996.,15,15,自学:随书光盘资料的获得学习使用图书馆主页上的多媒体资源的
9、下载服务作业:最近一个月丁家桥校区到馆的医药卫生类图书有哪些?做成ppt或word或现场演示,交代清楚步骤。,16,第一节 信息检索基本原理,什么是信息检索?,17,广义:信息检索指将信息按一定的方式组织和存储起来,并根据 信息用户的需要查找出有关信息的过程和技术。Information Storage and Retrieval,狭义:信息检索是指从信息集合中查找出所需要的信息的过程。Information Search,1.1 信息检索的定义,第一节 信息检索基本原理,18,信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需
10、求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息。,第一节 信息检索基本原理,19,信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:,20,检索点(access point)是检索的出发点,常被称为“检索途径”(approach)。常用的检索途径有:1)分类检索 2)主题检索 3)作者检索 4)名称检索 5)号码检索,第一节 信息检索基本原理,21,1)分类检索(classification),分类检索是从文献内容所
11、属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classification system)。分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。较权威的图书分类法有:国内:中国图书馆图书分类法(中图法)、中国科学院图书馆图书 分类法(科图法)、中国人民大学图书馆分类法(人大法)国外:杜威十进分类法(Dewey Decimal Classification,DDC)国际十进分类法(Universal Decimal Classification,UDC)美国国会图书馆分类法(Library of Co
12、ngress Classification,LC),22,2)主题检索,主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词的合理选择与使用对检索结果的优劣直接相关。通用词表:汉语主题词表 专业词表:美国医学主题词表MeSH、中国中医药主题词表、建筑工业叙词表、数学汉语主题词表、耐火材料专业主题词表等。,23,3)作者检索,作者(author)检索是从文献的作者姓名出发来检索其文献。“作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring
13、 body)、译者(translator)等 此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(authors affiliation)。,24,4)名称检索,名称(title)检索点是从各种事物的名称出发来检索文献信息。这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿(white pages)或公司电话簿(yellow pages),查找的是号码信息。,25,5)号码检索,号码包括文献的编号(number)、代码(code)等,它们是文献
14、信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等。国际标准书号ISBN,国际标准刊号ISSN它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。,26,其他检索点,由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点 比如:作者单位、基金项目、文献类型、参考文献、语种、出版年份、出版单位等检索点,它们提供了更多的检索途径。,27,EI
15、的检索实例,28,1.5 信息检索的类型,手工检索(手检)计算机检索(机检)手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval)工具,早些有检索卡片,现在使用最多的是检索刊物,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。,技术手段:,29,30,31,32,33,信息检索的类型,计算机检索(computer-based retrieval),它通过数据库系统来实现的。检索系统包括:计算
16、机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施;需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。,34,计算机检索的优势,计算机检索明显优于手工检索,主要表现:检索的信息量大 数据更新快 检索功能强 检索结果输出的多样性,35,信息检索的类型,当前许多经典的印刷型工具都有其对应的
17、电子数据格式、数据库,印刷工具则成了电子数据加工输出的副产品,许多新生的数据库不再与印刷型工具有缘,仅有其电子版本。,计算机检索,手工检索,取代,36,第二节 信息检索数据库(工具),检索工具(数据库)的功能 检索工具(数据库)的分类检索工具(数据库)的构成,37,1、检索工具(数据库)的功能,事实检索、目录检索、文摘索引检索,其关联关系如下图:,38,1)事实检索,事实检索是对包括事实(fact)、数值(numeric data)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如:“我国最近一年在SCI上被收录的文献量是多少?”“有哪些海外华人得过诺贝
18、尔奖?”工具:字典、词典(dictionary)百科全书(encyclopedia)年鉴(annual,yearbook,almanac)手册(handbook,manual)名录(biography)和书目指南(directory),39,2)目录检索:,目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。按性质:登记书目(出版、馆藏情况)、科学通报书目等;按所涉的学科范围:综合书目、专科书目、专题书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等;按收录的文献类型:图书目录、报刊目录、来源目录等;按所涉的地域:国家书目、联合目录和馆藏目录等;按其媒体:卡片目录、书本目录、磁
19、带目录和机读目录等。,40,3)文摘索引检索,文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处(source),也常带有文献的内容摘要,但不是文献原文。EI、SCI、INSPEC等 文摘索引检索是能揭示到文章、论文级(article-level)的检索,这些文章大量的是来自期刊及会议论文集。按其报道的学科范围:综合性和专业性检索工具;按其取材范围:多种出版物类型和单一出版物类型工具;按其著录方式:题录型和文摘型检索工具;按其媒体:书本型、电子型检索工具等。,41,2、检索工具(数据库)的分类,国际上通常根据数据库内容将数据库划分为三大类:(1)参考数据库(Ref
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 原理 技术
链接地址:https://www.31ppt.com/p-5926438.html