欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    计算机信息检索课件.ppt

    • 资源ID:3835791       资源大小:763KB        全文页数:50页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    计算机信息检索课件.ppt

    ,第四章 计算机信息检索,计算机信息检索系统数据库的类型及结构计算机信息检索的原理,第一节、计算机信息检索系统,计算机信息检索系统的构成计算机信息检索系统的类型,(一)计算机信息检索系统的构成,1、概念计算机信息检索(简称机检),指检索人员在电子计算机或计算机网络的终端上,对用户的检索提问使用特定的检索指令和组配关系,由计算机从数据库中检索出所需的文献、事实、数据或其他记录,用电子化的手段传输,显示或打印检索结果,提供给用户使用的过程.计算机信息检索系统利用计算机的有效存贮和快速查找能力来进行信息的分析、组织、存贮和查找的系统。,2、构成,按物理构成分:硬件、软件、数据库(1)硬件系统:主机:计算机的核心部件。外围设备:外部存贮器:磁带、磁盘、光盘等 输入输出设备:数据录入设备、键盘、鼠标器、光学字符识别装置、光笔、缩微扫描器、扫描仪、显示终端等。其他:运算器、控制器。,(2)软件系统,软件是用来管理、控制与规定计算机运行步骤的各种程序的总称。包括系统软件和应用软件。系统软件:主要用于简化设计及使用方法,管理计算机资源,提高其使用效率,发挥和扩大其功能及用途。包括各种系统服务程序、语言处理程序、操作及数据库管理系统。如WINDOWS。应用软件(检索软件),是用户利用计算机来解决某一问题而编制的程序,包括数据库管理系统、自动标引、输入输出控制软件及检索匹配程序等.如文件管理程序、检索程序、记帐统计程序等。,(3)数据库,其含义有多种表达:国际标准组织标准ISO/DIS5127规定,数据库是指至少由一种文档(file)组成,能满足特定目的或特定功能数据处理系统需要的数据集合.数据库是“按照数据结构来组织、存储和管理数据的仓库”。数据库(DataBase,DB)是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。它是一个按数据结构来存储和管理数据的计算机软件系统。数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合,(二)计算机检索系统的功能,1.信息处理、存贮与检索的功能:包括对信息的自动搜集、排序、生成关联数据库,并按一定方式进行检索。2.输出功能:将检出文献按一定的格式(目录、题录、文摘或全文等)输出。3.自我完善与更新的功能:即可维护功能4.网上检索功能:,三、计算机信息检索系统的类型,如:按检索系统的访问模式分,1脱机检索,是采用单机进行存储和处理信息,回答检索提问时,采用批处理方式。这种机检方式,人机不能进行应答,必须由专职人员建立用户提问档,系统定期进行检索。时间:20世纪50年代60年代 检索人员检索策略成批检索用户 不足:地理上的障碍;时间上的迟滞;封闭式的检索,2.联机检索(Online search),联机检索是指利用检索终端,通过通信网络和检索系统联机,从检索系统的数据库中进行检索 时间:20世纪70年代 用户 检索策略“人机对话”获取所需信息 著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及IBM公司的“文献处理系统”等.,3.光盘检索(CD-ROM search),时间:20世纪80年代以后光盘检索阶段:单机光盘检索 联机光盘检索(光盘库,2-6个光驱,多达500张光盘光盘塔,8-64个光驱),4网络信息检索,网络信息检索一般指因特网检索,通过网络接口软件,用户可以在任一终端查询各地上网的信息资源。时间:20世纪90年代以来 广域网(WAN):连接地理范围较大,常常是一个国家或是一个洲。通信系统是广域网的关键。局域网(LAN):一般是由一个部门或一个单位组建,范围限于一幢楼或一个单位内。如:校园网。城域网(MAN):介于两者之间。网间网(Internetwork):是一系列局域网和广域网的组合,Internet便是一个当前最大也最为典型的网间网。,第二节、数据库的类型及结构,数据库的类型 数据库的结构,(一)数据库的类型,按存储文献类型分为:1.全文数据库:存贮一次文献全文或其中主要部分等。2.书目数据库:存贮文摘、索引、目录、题录等二次文献,提供文献线索,一般都有相应的印刷型检索工具。,书目型全文型,(一)数据库的类型(续),3.事实数据库 指包含大量数据、事实的数据库,如指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、百科全书、组织机构指南、人名录、图册(集)等。4.数值数据库 提供数值信息,如统计数据库5.图像数据库 提供图像信息。6.多媒体数据库 提供文字、图像和声音等多种信息。,数值型,(二)数据库的结构,数据库 database 文档 file,archive 顺排文档 记录Record 字段Field倒排文档(索引index),1、记录(record),记录:构成数据库的基本单元,也是文档的构成单位,是对某一实体的属性进行描述的结果。在书目数据库中,被描述的实体是某一特定文献,其属性就是该文献的外表特征和内容特征。即一条文献信息(款目)。,如:一条文摘信息(记录),一条书目信息(记录):ACCESSION:31739598 AUTHOR:Dichter,Carl.TITLE:Software engineering with Perl PLACE:Englewood Cliffs,N.J.PUBLISHER:Prentice Hall PTR,YEAR:1995 PUB TYPE:Book FORMAT:282 p.:ill.;24 cm.+1 computer disk(3 1/2 in.)NOTES:Includes bibliographical references(p.267-268)and index System requirements for accompanying computer disk:High Density MSDOS;Macintosh with PC Exchange.ISBN:013016965X SUBJECT:Software engineering.Perl(Computer program language)Software-Engineering OTHER:Pease,Mark.,2、字段(field),是组成记录的下级单位(条目中的一个信息项),用来描述实体的某一具体属性。如表述文献内容特征的有文摘、叙词、自由词字段,表述文献外表特征的有著者、篇名、出版年、专利号等等字段,子字段(subfield),是字段的构成单位。,3、文档(file),文档:是由若干数量的记录所构成的一类数据的集合。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。,顺排文档,是将记录中的信息按某一字段(一般为存取号)的顺序存放起来形成的文档,通常按记录存入的先后顺序线性排列,所以也称为线性文档,或主文档.,122 Student Teaching in the Context of a School-University,123 Cooperative Learning in Response to an,124 In Search of Responsive Teaching for,125 Teaching Topography:Introducing Students to Contour Map Construction.Fife,Barbara S.Science Teacher,v62 n5 p38-43 May 1995 ISSN:0036-8555 Available From:UMI,倒排文档,数据库的“索引”即是它的倒排文档,它是将记录中一切可检索的标识抽出,按某种顺序(如字顺,分类)重新排列而形成的文档。如主题、著者、文种等倒排文档。,第三节、计算机信息检索的原理,信息存贮信息检索,一、信息存贮,信息的存贮实际上是生成数据库:文献数据库的形成,先产生线性主文档,然后依一定的规则,由线性文档构造倒排文档。这个过程要对禁用词和词标引作一些处理。禁用词:是指那些频率较高而对标引和检索没有价值的词,如一些介词,连词,冠词及一些泛指意义的词等。,二、信息检索,布尔逻辑检索截词检索字段限定检索全文检索,1、布尔逻辑检索,它是不同的单一主题概念,通过“布尔”逻辑算符组配形成多主题概念的检索式。常用的布尔逻辑算符有4种:逻辑与(AND、*)、逻辑或(OR、+)、逻辑非(NOT、-)、异或(XOR,不常用)。如solar和energy,它们的三种逻辑组配关系分别为:,逻辑与(and、*、空格等),solar and energysolar*energy,逻辑或(or、+、|)solar or energysolar+energy,逻辑非(not、-、!)solar not energy solar-energy,例如:,1、“城市绿化”检索式:城市绿化+(城市+北京天津上海+)*(园林绿化+绿化建设)2、“禾谷类作物病害防治,不是白粉病”(禾谷类作物+小麦+水稻+玉米+)*病害-(白粉病)3、土壤环境条件对豆科植物固氮作用的影响关键词:土壤环境条件(温度、湿度,ph值)豆科植物(大豆、花生等)固氮作用(固氮菌、根瘤菌)检索式:(土壤环境条件+温度+湿度+ph值)*(豆科植物+大豆+花生+)*(固氮作用+固氮菌+根瘤菌),2、截词(truncation)检索,截词指检索者将检索词在他认为合适的地方截断。截词检索(也称模糊检索或词干检索),是用截断的词的一个局部进行的检索,并认为凡是满足这个词局部中的所有字符(串)的文献,都为命中文献。截词符号一般为“?”,也常用“$”,“*”。加在检索词的词干或不完整的词形后或中间,可以减少词的输入量。其基本含义是布尔逻辑OR的组配截词方式:根据截词的位置不同分为:前截断、后截断、中截断;根据截断的数量不同分为:有限截断和无限截断。,后方截词:在一个词干后加一个“*”,表示可检出在该词后加任意个字符或不加字符的记录,如computer*,可检出computer,computers,computerisation等词。前方截词:如*computer,可检出computer,minicomputer,microcomputer等前后截词 又称无限中截词,它是满足中间一致的检索。用截词符“*、?”加在词干的前后,表示检索词与被检索词之间只需中间匹配即可,如“*relation*”,可检索出“relation”,“relations”,“interrelation”等等。,A.无限截词*(或叫非限定性截词?),有限后截词:smok?,其后最多有三个字符变化可检出:smoke,smoky,smoker,smokers,smokes,smoking等Smok?,最多有两个字符变化,可检出:smoker,smokes等.smok?,最多有一个字符变化可检出:smoke,smoky等,B、有限截词(controlled Length truncation)(又叫限定性截词),有限中截词(中间屏词),如:wom?n可检出:women woman如:fib?board 可检出:fiberboard fibreboard,3、字段限定检索,将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算。A.主题字段:是内容特征的字段(有Title,Keywords,Subject,Summary等)B、非主题字段:是外部特征字段,如作者、文献类型、语种、出版年份等字段.常用的检索符号有:in、=、例1:English in la 例2:py1992 例3:查“玉米方面的英文”文献 检索式=(maize or zea-mays or corn)in de and(English in la),4、全文检索,又叫位置检索position operators)、或邻接检索(proximity)限定两个关键词在文本中的距离,(1)记录级检索C(cition)两词必须同时出现在同一文献记录中,不限定词序和字段.如 Solar(C)energy,(2)字段级检索,F(field)两词必须同时出现在文献记录的同一个字段中,词序和词间插入词数不限,但需指明要查找的字段,如pollution(F)control/AB文摘中含有如:control and management of industrial pollution,等等均为命中文献。,(3)子字段级检索,S(Subfield)表示两词必须同时出现在同一个子字段中,即同一句子或短语中,词序和中间插入词数不限。Same(Sent)两个词在同一个段落中。,(4)词位置检索,W(with)或 Pre检索算符两侧的词必须相邻且词序不能颠倒。如:(w)及(nW)与(with)flue(w)cure tobacco 可检出:flue-cure tobacco flue cure tobaccobuilding(1W)construction可检出:building and construction building under construction等,N(near)检索算符两侧的词必须相邻但词序可以变。如:(N)及(nN)邻近(near)如:information(1N)retrieval可检出:information retrieval,retrieval of information等L(link)检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词X两边的检索词完全一致,并以指定的顺序相邻.,注意:,不是每一个检索系统都使用上述位置算符,不同的系统使用的位置算符不同,不同的算符在不同的系统中有时可能含义不同。例如“W”算符,在Dialog检索系统表示两词相邻,输入顺序不变;在ProQuest系统中,“W”算符表示输入的两个词相邻,但顺序可变,如顺序要求不变,则使用“Pre”算符。用户可以查阅help帮助文档说明。,检索式 命中记录 solar 1796 energy 21526 solar+energy 22548 solar*energy 774solar(F)energy 722solar(S)energy 522solar(2w)energy 444solar(1w)energy 439solar(w)energy 434,三、检索技巧,检索技巧主要是对逻辑运算符、词间位置算符、检索主题概念的提取方法等的综合应用,其目的是保证查全率和查准率.(一)扩大检索结果的检索技巧 1、同义词技术:(1)元素和元素符号,例:“AI”和“Aluminium”(2)缩写和全称,例:“计算机辅助设计”和“CAD”和“Computer Aided Design”(3)相关词,例:“Database”,其相关词有“Expert System”、“software”等。,2、截断技术 3、布尔逻辑或“OR”(二)缩小检索结果的检索技术1、布尔逻辑与“AND”2、布尔逻辑非“NOT”3、字段限定检索,小结,1、数据库的类型及结构2、几种主要的计算机信息检索技术3、扩大或缩小检索范围的方法,

    注意事项

    本文(计算机信息检索课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开