计算机信息检索合工大.ppt
《计算机信息检索合工大.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索合工大.ppt(265页珍藏版)》请在三一办公上搜索。
1、第一章绪论计算机信息检索参考书,计算机情报检索 同济大学出版社 慎金花编计算机信息检索 机械工业出版社 李莹(浙大)电子信息资源检索教程 南开大学出版社 何翠花 计算机情报检索 北京大学出版社 赖茂生编 实用光盘检索技术 上海科技出版社 郑燕华计算机信息存储和检索 科大出版社 高星科技查新教程 机机械工业出版社国际联机检索原理与技术 湖北科技出版社 龚国伟现代信息检索,当代信息检索 张曼玲 哈工大出版社电脑网络信息 王云 国防工业出版社网络信息资源搜集和利用 张厚生 东南大学出版社,计算机信息检索,课时安排:,课程安排的原则是:A理论结合实际:(1)理论部份是的检索基础知识和技巧(2)实践部份
2、是一些国际上较权威的检索系统包括中文库:VIP,万方,期刊网,英文库:EI,Sci,Sa,WPI,CA DIALOG,STN B部分资源的教学是通过网络链接来实现的,为什么学习,案例:前日大学生参军的访谈中关村老总的谈话全世界的成功者的持续十年的成功者概率是低于10%去年的中国富豪的命运大学生的就业的基本的条件与学习内容西方 的MAB和各国企业文化的不同与中国的一致性丁磊和张朝阳等,李嘉诚及其儿子的实例,为什么要学习计算机信息检索,第一:从内容分析看:(1)学生学习的本质:(2)学习内容的本质和作用:(3)学习的原则:由厚到薄-由薄到厚(4)学习的自我延伸:(5)学生的自我社会延伸:A能力:B
3、角色:心理与惯性 C再学习的角色和素质 要求 D学习的社会变通性,从案例看:(1)广州标致的引进与生产(2)关于非典的知识产权(美国疾病控制中心)(3)王选的策略及其经验(4)中国目前的西药的局面和原由(5)中国的中药的局面(6)日本的发展和策略(7)中国的手机的引进和电视机的发展-袁隆平的分析项目失败:永康厂,电池厂,健特生物 项目 成功:美菱,丰原生化,,第一节检索课的教学模型购买化妆品的属性可对应所有文献课的各索引系统:,A前提:买什么东西?哪个厂家生产?该产品叫什么?是否有批准文号(法定)?使用该产品的市场反馈如何?产品的发明人或生产者是谁?该厂家的地理位置在哪里?是否含有特殊的有效成
4、分?B模型化的具体对应与索引:买什么东西-分类索引(CLASSIFICATION INDEX)该产品叫什么-主题索引或轮排索引(SUBJECT INDEX,PERMUTERM INDEX)哪个厂家生产-单位索引或团体索引(UNIT INDEX,CORPORAT INDEX)是该厂家的哪地方的分厂生产-地理索引(GEOGRAPHIC INDEX),是否有批准文号(法定)-专利号索引(PATENT INDEX)使用该产品的市场反馈如何?-引文索引(CITATION INEDEX)产品的发明人或生产者是谁?-作者索引或来源索引(AUTHOR INDEX,SOURCE INDEX)是否含有特殊的有效成
5、分?-化学物质索引(CHEMICAL SUBSTRANCE INDEX,ALLOY INDEX)通过上面的变化,可将非常复杂枯燥的内容变得非常易记且没有任何记忆负担,同时众多变化多样的系统变成一个简单的模型,从学习指导和使用来说都使之变得非常易懂,易学。上述模型的核心是将许多的系统变成一个系统然后再变成生活中易记的模型。该模型较宜非情报专业的学习和初学者的学习。,非情报专业情报学习思维的难点:,(1)情报学习模式是一种有别于其它学科学习的思维模式 数学思维要求严密 诗歌思维要求想象力 信息检索思维要求(著录)格式学习和联结,(2)情报检索学习之困难在于:局部文字描述整体,静止文字描述联结和运动
6、之困难。a 主观:情报检索学习之困难在于调整至与之相应 的思维方式,其学习过程实际上是要求了解不同的著录格式和构成之信息,并根据已有信息和目标直接或间接地通过操作,使各个部分联结起来,这会使著录格式之学习很枯燥,b客观:学习联结各著录格式之操作时,则显示文字描述操作的局部性,文字描述图示之低效性,尤其较复杂之著录格式在隔离不同之时空进行讲解时,则更显困难。,(3)情报检索学习之困难第二为似曾相似之干扰情报检索学习过程中,可遇到多种检索系统如SCi(Science Citation Index)Ei(Engineering Index)MA(Matal Abstract)WPI(World Pa
7、tent Index)SA(Science Abstract),虽然是不同出版商出版,其彼此系统应有的区别,但其检索功能和特性又使彼此似曾相似,或者冠以不同名称,但功能相似。如:Ei中Subject Index和Sci中之Permaterm Index 如:CA中GENERAL Subject Index和Chemical SubStance.又如:WPI中的employee Index与 SCI中Source Index 与 MA和EI中Author Index等,(4)情报检索学习另一障碍为语言障碍 不少文献系统是以英文的形式出版 世界上70%的著名系统是英文的五、情报检索思维之形成和巩固
8、 用以下方式较有效:学习-介绍-著录介绍-使用与巩固(尽快)实习(自己兴趣与课题相关),第二节计算机信息检索的的产生和发展过程,A计算机联机检索产生的时代背景:a文献的数量急剧增长:(a)目前的处于科技的高速发展阶段:(1)工业革命(2)信息化革命(b)统计数据:(1)每一分钟产生一本书(2)每30秒产生一篇专利(3)每15-16秒产生一篇论文(4)每年全世界的图书总量:图书近百万种 论文近数十万 专利近百万,论文近五百万 说明信息爆炸的事实(c)科技文献 的有效期在缩短 一般文献的平均寿命为3-5年 一般经济类寿命较短只有1-4周 有些经济类信息的寿命仅90秒(d)例:美国因信息不灵每年造成
9、损失在30 亿以上,科技的成果的重复量达35%b科技文献分布异常分散(a)体现在三个领域:分支学科,边缘学科 交叉学科(b)体现在学科 的发展上:(1)传统学科的应用技术50%来自 别的学科。(2)新兴学科 的80%来自别的学科,c文献的寿命在缩短:苏联:图书寿命:10-20年 科技报告:10年 学位论文:57年 期刊等连续出版物:35年 西方学者一般的观点:80%-90%的文献周期在3-5年 B计算机通讯和高密度存储技术的发展为联 机信息检索的产生和发展提供了物质基础。3联机发展的四个阶段:a联机产生阶段:(1)50年代中期计算机处于电子管 阶段(2)1954年美国海军军械中心(NOTS)研
10、制了计算机检索系统(雏形).(3)1961年美国化学文摘社在世界上第一,个 公开将计算机用于检索。(4)1965年美国医学图书馆用计算机编 制 医学文献检索刊物(医学索引)月度索 引。b国际联机检索阶段:(19651972)(1)由于集成电路和计算机技术的产生和发展和数字通讯 技术的进步,促进了联机检索的发展。(2)美国的LECKHEAD公司(洛克希德)于1965-1966年 建立了DIALOG系统(当时主要用电话联结)。c 国际联机检索的发展和普及:(1973-1985)(1)卫星通讯:(2)光纤通讯:使可通过联机终端,检索几年或几十年的各国资料。一般以DOS专用软件较多。d光盘版数据库的出
11、现和WEB版数据库的出现:(1)1985年世界上首次出现了光盘数据库。(2)1998年以后出现了WEB版数据库。,第三节排名的国际上高校和研究所依据,(1)目前国内的226(以前的386)(2)排名的国际上高校和研究所依据论文标准是:EI(Engineering Index)SCI(Science Citation Index)SR(Science Review)ISTP(International Science and Technology Proceeding)(3)国际著名的刊物有Science,Nature(4)在管理上和科研中的应用,第四节国际上著名 的计算机检索系统,(1)DIA
12、LO系统:是目前世界上计算机中信息总量的75%是世界上最大的商业数据库,至2000年有800多个数 据库,用户达120多国家。(2)BRS 美国文献题录检索服务公司,经营达100多个公用 数据库和40多个私人数据库。(3)STN美国化学文摘社,德国卡尔斯鲁厄能源,物理,数学情报中心和日本情报信息中心,三家联合经营,有150多个数据库,内容以建筑,纺织,能源,化学为最具特色。(4)ESA/IRS 意大利弗拉斯卡蒂的欧洲航天局情报中心,有120多个数据库,内容涉及各方面。(5)ORBIT 美国系统发作公司。,第五节公共搜索引擎的信息搜索与dialog等专业信息库之信息检索的比对分析,随着计算机的普
13、及和计算机技术的发展,电子手段进行信息需求之检索成为一种非常重要的手段与工具。然而由于计算机对各种计算机系统的了解不同和使用不同,尤其在信息检索方面,如果严格用信息检索之算标准,(如查全实、查准率等)看,则在使用效果之差别较大,因此对不同检索工具予以了解,并且知道彼此差异,将对检索大有裨益,目前信息检索中,可以通过搜索引擎辅助定位,或者直接进入知名信息资源系统,如国家图书馆,Dialog、STN等,虽然都可以检索,但不具备地同等替代性,但是在检索效果和性能上有较大区别。主要体现在以下几个方面:,收费与否:Sohu、Sina、Chinaren、Google、Yahoo等搜索引擎均是免费使用,而一
14、些商业信息资源库发dialog、STN等,维普、万方等则有偿使用,即只有授权用方才可以使用。信息专业程度不同:从内容上看,Sohu、Sina、Google等提供综合性较强的大量信息,其中不少信息是属于时效性较短之公共信息,其中不少信息是属于时效性较短之公共信息,而其本身信息的更新频率较快,而对于针对性较强之专业信息需求和检索,则是用与专业网站链接方式提供dialog,STN,BRs等信息资源库则是以权威性而著名,能提供方向性极强的专业需求,其本质的资源和容量查一般较全面,这是一般搜索引擎根本不能分之相比。,检索表达方式和效率不同:Sohu、Sina、Chinaren、altarista本身有搜
15、索窗口,并能执行简单的分类检索,其搜索窗口主要是输入关键字,而分类检索则是层级分类只能进行简单运算,当然还有它检索途径但较简单,从检索过程看,如果要对内容表达较复杂之课题进行检索只有进行二次检索,较难进行一步复合检索.而在Dialog STN等信息资源库,可进行复合检索式之检索,可执行Boll代数,截词算法,位置算法及限定算法等,使一个内容的课题可以用复合检索策略表达出来,并且使之运行,各执行步骤和检索词及结果均有相应的子集合,且可随时调用,因此运行检索表达方式效率肯定较高,这是在使用中两种检索工具最主要差别之一。,检索的修正与检索噪音的不同:Sohu、sina、Chinaren等之检索过程,
16、通常是以简单的分布逻辑模型(二元逻辑)方式运行,即要么无关,要么与关键字相关,本身没有相关性判断和排序,因此在实际检索过程中,则常常出现大量溢出和0检索现象,即要么检出许多不相关文献,仅仅是其中在不重要位置与所较入关键字相匹配而命中,要么根本不能检出的所需文献,这种现象对检出文献的二次筛选和再检索带来困难,亦为检索词修正带来困难,因此检索效率较低,而Dialog、STN等信息资源,则克服了前无序缺点。而是检索中进行检索词的逻辑运算和比对,使检索者能够按照不同的检索结果进行修正检索式,对每步命中率及检索词分布情况一目了然,因此查准率和查全率都有保证,这也是客户常常保留检索策略之原因。检索溢出:一
17、次检索多达3000以上的结果,检索途径的多寡和检索标准不同Sina、Sohu、YAHOO等一般搜索引擎,其本身检索途径主要是检索中的关键词检索和一般简单分类检索,而其它的一些检索途径也较简单,其中的逻辑运算一般为单项运算,而实际Dialog、STN等系统中,检索途径包含至少则5-6种,多则达到10余种检索途径,而检索式的表达可为多项重复运算 的复合表达式,而且从内容与编制方面,则早已标准化了,从检索语言数据库的兼容结构使这些国际性著名电子资源系统有较强的扩张性,如Dialog将CAS,中国专利数据库均纳入其系统,再如IPC分类号的国际统一化。而目前国内sina、sohu、chinaren等在技
18、术和设计上没有达到标准化技术要求,彼此容易互不相容,这种资源的不兼容,使客观上造成了人力、物力、文献资源的浪费,尤其在文献资源的建设上不仅不易共享,而且又造成重复建设的浪费,使得国内各信息系统在权威性方面与国外电子资源系统有较大差异(包括国内的期刊网和超星数字图书馆),库检出方式不同:sina、sohu、chinare等搜索引擎中,一般没有信息资源库的以款目作为检索点的字段输入过程,其中不少信息资源是复制,图像扫描,等方式进行资源库之建设,虽然生产成本较低,但不具备最重要的多途径检索功能,而其本身的关键字“匹配”结果又没有逻辑判断性和排序性,且占用空间较大,显示效果不佳。而STN和Dialog
19、的则有统一的字段输入标准,其主要工作量均在此过程,而恰恰是标准字段的录核过程,使系统有较强检索功能,因此其查全率和查准率较高。,信息资源的容量不同如Sohu一般仅提供该系统中3个月内数据库文献资源,而dialog则可提供任何一个系统自创刊至今的信息(其本身信息量达全世界机载量的72%)。知识产权的保护和利用不同由于国内计算机软件类产品知识产权保护并不完善,往往同一条新闻,在多个电子网站中互相抄袭,当然免费知识产权保护状况并不好,而Dialog、STN等国际电子资源系统则是有偿使用,彼此在知识产权受保护的情况下运行,其中不少数据资源库是该系统有偿购买如CAS、Ei、使用费在120$/hr以上。,
20、(10)界面不同:Sohu、Sina等属于友好界面之引导地检索,且易学易用,适用初学者,而dialog、STN等信息资源系统界面较刻板,尤其人机对话之传统指令模式,一般适用于水平较好专业人员,当然其也有引导式检索,但不如Sohu、Sina等易用。(11)最后两种方法在使用上应根据检索的要求和成本进行控制,且做到两种方法互补利用。,第二章信息检索的基础知识,第一节信息的基础知识(1)信息的定义与特征:A信息定义:关于物质的存在的方式和 运动规律的反应。B信息的特征:a普遍性(时&空)b客观性(时&空)c 扩散性(时&空)d 增殖性 e 可存储和可压缩性 f 可知性和可共享性,(2)知识的定义和特
21、征,A知识的定义:关于物质或事物及其本质和 规律的认识和反应。B知识的特征:a意识性:是大脑思维的结果。b信息性:是经加工且系统 化信息。c 实践性:是人们的生产实践 活动。d继承性:知识的传递性 e知识的积累,组分和渗透性;目前 学科发展的特征。,(3)文献的定义和特征,A文献定义:记载信息和知识的载体。B文献的特征:a知识性和信息性:真理性 b物质实体性:用文字和符号来 记录。c人工记录性:人们的有意识的行为 的结果 d动态发展性:使得文献的数量大幅 上升,(4)情报定义和特征,A情报的定义:以一定的目的来收集的有用的知识或信息。B情报的特征:a知识性和信息性:合理性和真实 性。b 传递性
22、:是我们上学,阅读,看 电视的原因。c 效用性:体现了其使用价值。d 时间性:信息的半衰期和文献的 衰老。,第二节信息检索定义,信息检索是指将信息按一定的方式组织、存储起来,并根据用户需求查找出所需信息的过程。我们通常所讲的信息检索是指狭义概念的信息检索,即从检索工具和检索系统查找出所需信息的过程。信息检索根据检索对象的不同,一般可分为文献检索、数据检索和事实检索,其中文献检索是最基本、最主要的方式。,(1)文献检索,(1)广义的文献检索是指将文献按一定的方式存储起来,并根据用户需求找出所需文献的过程。狭义的文献检索仅指查找文献的过程。(2)文献检索主要是通过文献检索工具来实现的,如书目、索引
23、、题录、文摘。文献检索是一种相关性检索,检索结果一般是文献的线索。,(2)文献的类别(十大文献按来源分),所谓“十大情报源”,是指人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称。a.科技图书:(1)是对某专门知识或某学科进行系统的论述或概括的且大于40书目单位的出版物一种情报来源。其主要特征是内容比较成熟,但相对比较陈旧。合法出版的图书均有版权页。(2)一般该类别为三次文献(3)图书一般有ISBN号,b.科技期刊(periodical):(1)又称连续性出版物(serials),是一种定期或不定期连续出版的文献载体,它一般有同样的名称,按一定时间编定卷号,每一卷又分若干期。其类型
24、有:i.学术性、技术性刊物,是科技期刊的核心部分。刊名一般为:Acta(学报)、Journals(杂志)、annales(纪事)、Bulletin(通报)、Transactions(汇刊)、Preceedings(会刊)、Review(评论)、Progress;Advances in.(进展)等。ii.快报型。Communication(通讯)、letters(通讯)、bulletin等。iii.消息性(newsy journals)。news(新闻)、news letters等。iv.资料性(data journals)。data、event等。科技期刊是最重要的一类文献来源。(2)该类别为
25、一次文献(3)期刊一般有其ISSN号,c.科技报告:(1)报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构 可以说,报告是一种典型的机关团体出版物,常用的报告名称有:(2)类别:科技报告按按报告的形式可分为:report(报告书),technical notes(技术札记),memorandum(备忘录),papers(论文),bulletin(通报),technical translations(技术译丛),special publications(特种出版物)。按研究的进展情况分:primary report(初步报告),progre
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 合工大
链接地址:https://www.31ppt.com/p-6342274.html