欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    信息检索概论(续2).ppt

    • 资源ID:5926471       资源大小:318.61KB        全文页数:43页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息检索概论(续2).ppt

    第二讲 信息检索基础,一、信息检索学科内容二、文献的类型及其特点三、检索工具,第一节 信息检索学科内容,一、理论基础 信息检索作为计算机应用的一个分支,它的学科体系包括以下几个部分:(1)数学 高等数学、线形代数(矩阵论)、概率论(随机过程)、统计学、模式识别、离散数学等。,理论基础(续),(2)计算机科学 高级程序设计语言(C/C+)、算法与数据结构、数据库系统、软件工程、信息系统、计算机网络、人工智能(机器学习)等。(3)计算语言学,包括自然语言处理等(4)信息科学 信息论、文献学、分类与聚类、信息资源管理等。,二、研究代表人物,信息检索研究主要代表人物,也就是萨尔顿奖得主。IR领域最著名的奖项莫过于Gerald Salton奖,这个奖项由SIGIR(信息检索特别兴趣小组)每三年颁发一人次,颁给那些在IR领域持续地做出卓越贡献的大家们。所以Salton奖项得主是我们学习信息检索应关注的主要对象。下面分别予以介绍。,1.W.Bruce Croft(克罗夫特),Salton奖2003年度得主,现代信息检索的大家,与James P.Callan(坎伦)等开发了著名的INQUERY检索系统。W.B.Croft是美国麻省大学计算机科学系的杰出教授。,2、Stephen Robertson(斯蒂芬 罗伯荪),2000年度Salton奖得主,现代概率IR模型的创始人之一,开发了著名的OKAPI概率检索系统,该系统在TREC(Text Retrieval Conference文本检索会议,SMART测试系统)评测中屡屡获得好成绩。Robertson原在伦敦城市大学(City University,London),现在微软剑桥研究院。,3、Tefko Saracevic(萨拉塞维克),1997年度Salton奖得主。美国著名信息科学家,早期从事信息检索教学,后来从事信息检索研究。出生在克罗地亚,现在供职于美国Rutgers大学Communication,Information and Library Studies学院。,4、William Cooper(威廉 库珀),1994年度Salton奖得主。IR中引入概率的先驱。供职于Univ.of California,Berkeley.,5、Cyril Cleverdon(克来弗登),1991年度Salton奖得主。著名的Cranfield 项目负责人,著名的信息检索测试系统。生前供职于英国伦敦The Institute of Information Scientists。,6、Karen Sparck Jones(琼斯),1988年度Salton奖得主。现代概率IR模型的另一创始人。在自然语言处理(NLP)、IR等领域都颇有建树,而且做了大量的组织性工作。现在供职于英国剑桥大学计算机学院。,7、Gerard Salton(索尔顿,1927-1995),1983年度首届Salton奖得主,Salton就是以他名字命名。现代信息检索的奠基人。著名的IR向量空间模型(Vector Space Model)的创始人,开发了著名的SMART向量空间模型IR系统并免费开放源代码下载,大大促进了IR的发展。生前供职于美国康奈尔大学计算机系。,Salton奖项得主毕竟凤毛麟角,还有很多研究人员为IR做出了卓越贡献,Keith van Rijsbergen(赖吉斯博根)英国格拉斯哥大学。概率IR的逻辑推理学派代表人出版了著名的IR经典教材 INFORMATION RETRIEVAL(Second Edition),有电子版可以下载。Susan Dumais(苏珊 杜迈斯),LSI(Latent Semantic Indexing)的创始人。1997年加盟微软研究院美国总部。,三、核心刊物和教材,1、刊物(1)Information Processing and Management(IP&M)信息处理与管理(2)Journal of American Society for Information Science and Technology(JASIST)美国信息科学与技术学会杂志,刊物(续),(3)Communication of ACM(CACM)美国计算机协会通讯(4)Journal of Documentation(JoD)文献杂志(5)Journal of the ACM(JACM)美国计算机协会杂志,2、教材,(1)Baeza-Yates,R.&Riberio-Neto.(1999)Modern Information Retrieval,Brazil:Addison-Wesley-Longman Publishing Company.Available:URL.Last accessed 1 November 2002,教材(续),(2)Van Rijsbergen,C.J.(1979)Information Retrieval.2nd ed.Glasgow:University of Glasgow.Chapters 1&2 Available:URL Ch.1.html.Last accessed 1 November 2002(3)Information Retrieval:Data Structures and Algorithms.Edited by William B.Frakes and Ricardo Baeza-Yates.Prentice-Hall,1992 ISBN:0-13-463837-9,教材(续),(4)Lancaster,F.W.,Information Retrieval Systems:Characteristics,Testing and Evaluation,Wiley,New York(1968).(5)李国辉等.信息组织与检索.北京:科学出版社,2002,第二节 文献的类型及特点,文献的划分有不同的标准,依据不同的标准,可以划分出不同的类型。1按文献载体划分:纸本式手(写型文献、印刷型文献)缩微型 声像型 机读型(磁带、磁盘、光盘),一次文献:原始文献。期刊、图书、论文二次文献:对无序的一次文献有序化,揭示其外部、内容特征。书目、索引、题录。三次文献:利用二次文献,选用一次文献,分析综合而成。综述、述评零次文献:准文献。尚未发表或不适合公开和大范围交流。底稿、手稿、口头交流,2按文献加工程度划分,一次文献,文献整理,二次文献,三次文献,知识浓缩,知识重组,书 目 索 引 文 摘,词 典 手 册 年 鉴 指 南,专 著 综 述 述 评百科全书,标引著录,文献的结构层次按内容加工层次划分,3按文献出版形式划分十大信息源,(1)图书,是对科研成果、生产技术或者某一知识领域的系统论述和总结。一般是经过著者对原始材料加以选择、鉴别和综合之后写成的。内容成熟、系统完整、全面可靠。权威性从时间上看周期长、信息传递慢,只反映3-5年前的研究水平。一般分为两种类型:阅读类(教科书、专著、文集、科普读物等),参考工具书(字典、辞典、指南、人名录、机构指南、手册、年鉴、百科全书等),ISBN号,ISBN号 国际标准图书编号 International Standard Book Number例 7-5624-1099-2 7-地域号(国家、地区、语言区)5624-出版社代号 1099-图书编号 2-计算机校验位 前三部分长度可变,但总长度9位数不变。,(2)期 刊,有固定名称,有一定的出版规律(月、季等),每期刊载有不同作者所写论文并按一定顺序编号的连续出版物。发行周期短、报道速度快、内容新颖;数量 大、学科广泛、流通面广;能及时反映世界科技发展水平,是主要的检索对象。属一次文献,是最重要的科技信息源。在科研活动中,参考文献有65%来自期刊。目前,世界上出版的科技期刊约10万余种,而且正以每年约1500种的速度增加,占全部文献需求的68%。,核心文献(Core Journals),是期刊中一类特定的期刊,指刊载某学科文献密度大、载文率、被引用率及利用率较高,深受本学科专家和读者关注的期刊。,ISSN号,ISSN 国际标准连续出版物编号例 1006-89618位数字的前7位是一个整体刊名代号,最后1位是计算机校验位,中间的“-”符号只是为了读取方便。CN11-3758 国内统一刊号11 表示地区号 3758 表示连续出版物的序号VOL.或V.NO.或n.年代,(3)会议文献/会议录,在国内外专业会议上所交流的论文,将其汇集起来发行的出版物。会议文献的主题较为集中,能够及时体现有关领域的最新发展水平和动态。内容新、针对性强。约有35%的会议文献,经过修改后在期刊上发表,与期刊内容存在一定程度的交叉外表特征:有会议名、会议时间、地点、举办单位等信息。,(4)学位论文,指本科生、研究生为获得学位资格而撰写的学术论文。(通常指硕士、博士毕业论文)学位论文一般研究的问题比较专门、对问题阐述系统完整、有一定独创性。不公开发行,改写后可期刊发表。外表特征:一般明确标明论文题名、作者、学位头衔、颁发单位、地址、授予时间等。,(5)专利文献,一种用法律形式保护的文献,包括专利说明书、权利说明书、摘要、附图等,核心是专利说明书。涉及的技术内容广泛,比较具体可靠,能较快地反映世界各国科学技术的发展水平。专利文献是现代技术发展水平最直接最实际的反映。据统计,世界上90%-95%的技术发明是通过专利文献发表的。蕴藏丰富技术信息的非常重要的信息源。特性:实用性、新颖性、创造性类型:发明专利、实用新型、外观设计,(6)标准文献,是对工农业产品和工程建设的质量、规格及检验方法等方面所作的技术规定。它是从事生产建设的共同技术依据,是一种规章性文献,有一定的法律约束力。技术标准具有很强的局限性和阶段性。一个技术标准只能对某一特定的技术在某一特定的阶段起规范作用。一般来说,技术核准的有效期为5年左右。它属于三次文献,其技术新颖性和及时性不如专利文献。国际性标准:ISO(国际标准化组织)、IEC(国际电工委员会)国家标准:GB(国标)行业标准:YD(邮电),(7)科技报告,是某项科研工作的研究成果报告。在二战中发展起来。内容上比较新颖、详尽、专深,对许多最新研究课题与尖端科学的反映比期刊更快。每份报告都单独成册,篇幅长短不一,有机构名称和报告号码的顺序,出版发行不规则,一般不公开发行。最著名:美国的四大报告(AD军事工程技术、PB民用工程技术、DOE能源及利用、NASA宇航局航空航天技术),(8)政府出版物,指各国政府部门及所属机构发表、出版的文件。大体上可分为行政性文件(如法令、方针政策、规章制度、统计资料等)和科技文献两大类。科技文献中包括政府各部门的科研报告、技术政策等。几乎涉及整个知识领域。用于了解国家科学技术政策、经济发展政策,以及把握科技、经济和社会发展的动向。政府出版物是很有针对性的可靠信息来源,(9)产品说明书,对某件产品的外观、性能、构造、原理、技术指标、用途、使用方法等作说明的资料。多数由厂家赠送。真正的关键技术不包括在其中,可以通过研究产品说明书了解产品的技术水平、获得一些技术数据,对于引进设备和自主开发新产品有一定的帮助。一般不包括家用电器说明书。,(10)科技档案,是在科研、生产活动中形成的有一定具体工程对象的技术文件、图样、照片、原始记录的原本或复制本,内容包括任务书、技术指标、研究方案、实验记录、设计图纸等。内容真实、准确、可靠。,第三节 检索工具,检索工具概念:用来存储、报道和查找文献的工具。是在一次文献基础上经过加工、整理、编辑形成的二次文献。功能:根据学科和主题集中文献缩短检索过程,节省时间提供多种检索途径有助于消除语言障碍,检索工具的类型,按收录文献的知识范围:综合型检索工具(如美国工程索引)专业型检索工具(如中国电子科技文摘)按载体形式划分:书本式检索工具、卡片式检索工具计算机检索工具(光盘检索系统)网络检索工具(search engine)按著录格式划分:书目、题录、索引、文摘,检索工具的类型按著录格式划分,书目(bibiliography)经过著录的一批相关文献,按照一定的次序原则编排而成的一种揭示与报道文献线索的检索工具。以整本书、整本刊的形式报道。类型:国家书目 书刊出版书目及时报道图书出版情况的目录,往往称之为“在版书目”。馆藏目录 联合目录 专题文献目录,题 录(citation):报道和揭示单篇文献的外表特征它与目录的不同之处在于各自的著录对象不同,目录以单位出版物为著录对象,而题录是以单篇文献为著录对象。报道速度快,量大,及时,便于检索,文 摘(abstracts):揭示文献外部特征,只摘录要点,报道文献内容的检索工具。题录+内容摘要 根据揭示深度和报道详细度,可分为指示性文摘(主体范围、目的、方法)和报道性文摘(论点、研究方法、数据),索引(Index)将文献中具有检索意义的文献特征标识(文献标题、著者、分类号、主题词、序号等)加以编排,并注明文献地址供检索者使用的检索工具。附属性检索工具查找文献出处和线索过程中,起到钥匙和向导作用。包括主题索引、分类索引、著者索引、题名索引和序号索引等,文献指南指围绕某一学科,将其主要期刊和其他类型的重要一次文献、主要参考书及检索工具的使用方法等作比较全面系统介绍的一种工具书。如国外工具书指南、参考书指南,书目之书目即检索工具的目录,将检索工具按类型、学科或文种排列,并附以简介,说明其内容、特点和使用方法,如著名的世界书目之书目,我们关心的问题如何评价?,收录范围:信息丰富,内容齐全检索途径:著录标准:著录款目规范、科学信息质量:内容完整、具体、简练信息密度:信息报道量大,查全率时差:报道和更新速度,

    注意事项

    本文(信息检索概论(续2).ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开