知识发现与信息检索.ppt
《知识发现与信息检索.ppt》由会员分享,可在线阅读,更多相关《知识发现与信息检索.ppt(133页珍藏版)》请在三一办公上搜索。
1、知识发现与信息检索,张小云 2004年9月1日,2,课程目标,面对日益增长的Internet的信息和文献资源,如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息,并综合成章。这就是本课程所希望解决的问题。,分三部分:,1.知识发现2.信息检索基本概念3.信息检索,4,第一部分:知识发现,5,知识经济时代,知识、知识创新与知识资源利用问题引起社会的高度关注。知识成为经济社会发展的首要资源,是衡量国家能力的主要因素。知识作为一种创造财富的战略资源,随着现代信息技术和国家信息化进程的迅速发展,以及科技、文化的进步在经济发展竞争中作用日益增强,人们对获取知识的能力和利用知识的水平得到了空前
2、的提高。,5/24/2023,5,1知识发现,6,伟大的科学家牛顿说过:“假如说我比别人看的略微远些,那是因为我站在巨人的肩膀上。”,5/24/2023,6,1知识发现,7,塞缪尔约翰逊(Samuel Johnson)说:知识分成两类:一类是我们要掌握的学科知识;另一类是要知道在哪儿可以找到有关知识的信息。Knowledge is of two kinds.We know a subject ourselves,or we know where we can find information upon it.,1知识发现,8,知识资源利用创新必然成为知识资源的高度共享乃至整个国家信息化发展战略
3、的重要组成部分。美国和西方发达国家均视其知识为国家发展的重要战略资源。我国将“发展国家知识与创新体系”、“强化信息资源共享”作为基本国策,充分体现了这一战略资源及其知识资源共享的重要战略意义。必须大力提高人们获取与利用知识的能力,在更大程度上、更大规模上、更大范围内实现知识资源的高度共享,充分满足人们在知识创新过程中对知识的需求。,5/24/2023,8,1知识发现,9,传统文献信息资源的数量庞大,类型多样,但开发利用是有限的。传统的文献资源共享主要是信息物质载体的共享,即文献的共享。这种共享由于受共享交易成本的限制,只能是在一定时间、空间范围内有限的共享。,5/24/2023,9,1知识发现
4、,10,现代计算机技术、网络技术的发展,改变了人们获取、利用和交流知识的方式,打破了知识信息传递的时空限制,使知识信息的交流、获取形式更为生动和直观,为知识信息服务提供了崭新的信息环境,开辟了知识资源无限共享的新天地。,5/24/2023,10,1知识发现,11,网络信息技术加快了知识的传送,拓展了知识领域的广度。网络环境下信息和知识服务已不再局限于一个固定建筑实体形态,其服务边界不断扩大并日益模糊化,知识提供与传播形式呈现多向性、共享性、交互性、实时性等特点,社会知识需求的复杂性日益增加,查询、利用知识信息的手段趋于计算机化、网络化。,5/24/2023,11,1知识发现,12,知识的获得、
5、组织与传播,通过异地共享和远程传播越来越显示出无比的优势。基于计算机网络的快速、虚拟知识空间,可构建一个具有扩展和辐射能力的开放化、立体化的知识资源共享保障服务系统。在这种现代技术网络环境之中,可最大限度地满足人们对知识信息的无时空障碍的知识需求,实现知识资源共享所应达到的一种高级境界。,5/24/2023,12,1知识发现,13,为了使人们进入网络环境下知识资源高度共享的境界,多年来国内外专家、学者和企业在知识资源共享方式的设计和服务技术的实现上不断改革创新,陆续推出了不少新的知识产品和服务技术与模式:,5/24/2023,13,1知识发现,14,知识挖掘、个性化服务、知识可视化等。“知识服
6、务”理念,成为当今知识资源共享模式设计的核心指导思想。在这种共享模式之下,人们从知识资源中获取的不仅仅是一条条信息,而是一个个针对特定问题的解决方案,即知识。这样的知识资源共享方式,已经成为现代知识服务业所追求实现的高级境界。*,5/24/2023,14,1知识发现,15,基于“知识元”水平上的全文关联的、数据结构标准化的、人与资源可实时以多媒体信息交互的知识服务平台,无论数据库的物理位置何在,无论数据库专业性质和具体结构如何,都可使其在知识信息的内容上跨越数据库界限而浑然成为一体。人们在这个平台上可以用平台的各种个性化服务手段,从所有数据库中任意获取所需要的知识信息,并可在人与人的交流互动过
7、程中得到新的知识。,5/24/2023,15,1知识发现,16,第二部分:信息检索基本概念,17,信息,知识,文献,2信息检索基本概念,18,21 信息定义物质存在的一种方式,一般指数据、消息中所包含的意义。可以使消息中所描述的事件的不定性减少。(*注:中国情报与文献工作词汇基本术语(GB48944-85)有关信息的定义。,2信息检索基本概念,19,信息的概念十分广泛,围绕信息而出现的信息资源、信息技术、信息系统、信息产业、信息化社会和社会信息化等相关术语不胜枚举。那么,什么是信息,至今仍无确切、统一的定义,站在不同的角度旧有不同的理解或解释。,2信息检索基本概念,20,信息既不是物质,也不是
8、能量,而是依附于自然界客观事物而存在,只要有物质存在,就有表征其属性的信息。,5/24/2023,20,2信息检索基本概念,21,信息的概念,实际上就是客观事物运动状态、时空特征、能量大小、质料系统特征、相互联系方式等一切反映事物客观属性的总称。从这种意义上看,信息比客观事物的属性更具一般性与普遍性。,5/24/2023,21,2信息检索基本概念,22,信息概念的实质在于它以某种编码形式储存或传输于某种介质之中,如储存在书本、纸张上的文字信息,记录在唱片、录音带上的声音信息,印制在画报、照片、录象带上的图像(形)信息,计算机系统种的信息系统各种数字、数据信息等。,5/24/2023,22,2信
9、息检索基本概念,23,例子:据说上古时期,诺亚的方舟在洪水中飘荡许久,当放出的飞鸽衔回一束橄榄,意味着带回了洪水已退的信息。,5/24/2023,23,2信息检索基本概念,24,从自然界角度看,表征物质的属性:地球昼夜的变化是一种信息,它反映出地球绕太阳自转的运动特性和状态;山的高度是一种信息,它反映出山的空间特性;树干的年轮是一种住处它反映了树木成长的时间特性树龄等等。,5/24/2023,24,2信息检索基本概念,25,1)按信息的加工程度划分l 零次信息资源指尚未被记录下来,只是通过口头携带和传播的信息资源。零次信息资源的出现和传递带有极大的偶然性。其特点是鲜活、生命力旺盛。l 一次信息
10、资源 指经加工或粗略加工的原始信息资源,如正在研究或创造过程中产生的信息,包括会议记录、论文报告、统计报表、专利等。其特点是比较零散,系统性不强,半包括所有的主要内容。l 二次信息资源指在一次信息资源基础上加工整理而成的信息资源,如文摘、索引、目录等,它们是引导和使用一次信息资源必不可少的工具。l 三次信息资源通过二次信息资源提供的线索,对某范围内的一次文献进行分析、研究加工而成的信息资源,亦称三次文献,包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。,5/24/2023,25,2信息检索基本概念,26,2)按信息表现形式划分文字信息图像信息数值数据信息语音信息,5/24
11、/2023,26,2信息检索基本概念,27,信息交流渠道:正式渠道:信息是指由正式组织发布并经由正式组织渠道向外传播,如官方新闻发布会、正式报告、国家统计部门发布统计信息等。非正式渠道:非正式渠道信息指从正式渠道以外获取的信息。,5/24/2023,27,2信息检索基本概念,28,2.2知识是人类的主观世界对客观世界概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述。提供某种经过思考的判断和某种实验的结果。,5/24/2023,28,2信息检索基本概念,29,知识的来源:第一类是直接源于产生信息的客观事物;第二类是通过信息载体或媒介(文献、电视、广播、他人等)的传递、交流而间接获得
12、。,5/24/2023,29,2信息检索基本概念,30,据经合组织(OCED)出版的以知识为基础的经济报告对知识的分类:1)“知事(Know-what)”,关于事实方面的知识,可理解为Know-when、Know-where;即在什么样的时间(Know-when)、什么样的地点或条件下(Know-where)能解决什么样的问题;2)“知因(Know-why)”,自然原理和规律方面的科学理论,知识生产是在专门研究机构如实验室和大学完成的;3)“知道怎样做的知识(Know-how)”,做某些事的技艺和能力,称为技术情报和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术;4)“谁以及是怎
13、样创造知识的(Know-who)”侧重创造思想、方法、手段、过程以及特点等的了解。,5/24/2023,30,2信息检索基本概念,31,2.3文献记录有知识的一切载体。权威的定义主要1)是文献情报术语国际标准(草案)(ISODIS5127):“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到唱片上,或存贮在磁盘上。这种附着在各种载体上的记录统称为文献。”2)国标:各种媒介和形式的信息集合,包括文字、声像印刷品、电子信息、数据库等。,5/24/2023,31,2信息检索基本概念,32,1)按文献出版类型划分
14、a图书b期刊c政府出版物d科技报告e专利文献f会议文献g学位论文h技术标准和规范i产品样本说明书j技术档案,5/24/2023,32,2信息检索基本概念,33,按文献的存储载体分:印刷型缩微型声像型电子型,5/24/2023,33,2信息检索基本概念,34,文献的构成要素:A、文献信息是文献的内容B、符号系统是信息的携带者 C、载体是符号赖以依附的“寄主”D、记录方式是将文献的符号进入载体的方法和过程,5/24/2023,34,2信息检索基本概念,35,5/24/2023,35,2信息检索基本概念,36,知识是有组织的大量的信息,获得知识有赖于获得信息;信息是知识得以形成和传播的中介,而不是知
15、识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物。,5/24/2023,36,2信息检索基本概念,37,第三部分:信息检索,38,3.1概述3.1.1信息检索概念信息检索Information Retrieval/Access:是从任何信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。从原理上看,它包括存储与检索两方面。*,5/24/2023,38,3信息检索,39,文献检索原理是:将检索提问标识与存贮在检索工具中的标引标识相比较,两者一致或信息标识包含着检索提问标识,则含有该标识的信息就从检索工具中输出;对信息的著录是按一定规则对信息的外表特征和内容特
16、征加以简单明确的表述,信息的标引是对其内容按一定的分类表或主题词表给出分类号或主题词;检索过程则是按同样的主题词表或分类表及组配原则分析课题,形成检索提问标识,根据检索工具所提供的检索途径,从信息集合中查找与检索提问标识相符的信息特征标识的过程。(如下图),5/24/2023,39,3信息检索,40,3信息检索,信息源,信息的选择与收集,信息特征,标识语言,检索工具匹配检索式提问,检索结果,数据库,用户,信息需求,检索提问,检索提问式,41,What?Where?How?,42,检索是信息组织的反变换过程。信息组织的目的是将零散的信息组成一个有序的体系,检索的目的则是迅速从这个体系中搜寻所需的
17、信息。,3信息检索,43,信息检索分类1)按存储和检索的内容划分为:文献信息检索数据信息检索事实数据检索 Reference book Database:Numeric Database(数字)Property Database(特性)Textual-numeric Database(文本数字)Full-text Database(全文)Terminological Database(专业)Graphic Database(图形).*,5/24/2023,43,3信息检索,44,对应于信息检索方法的操作主体,检索方法可分为:手工检索;机器检索。,3信息检索,45,信息检索特征:1)有确定的目标
18、;2)有一个可能的信息解的集合;3)有一定的线索(即启发信息);4)搜索过程是针对一定的目标、遵循一定的线索,不断缩小搜索范围的求解过程。,5/24/2023,45,3信息检索,46,从信息资源管理的角度讲,信息检索是从已存储的信息资源中检索出与用户提问相关的文献、知识、事实、数据的逻辑运算和技术操作过程的总和,以文献检索为本源。,5/24/2023,46,3信息检索,47,也就是说,这是一种从大量集合的文献中查找出主题及其属性符合用户要求的情报过程。查找的对象不一定就是文献,有时也可能是正在研究中的项目,或正在进行某项工作的人员与机构,或图书馆的藏书目录等,但基本原理是一致的。,48,信息检
19、索能力(信息技能):寻求有关新知识的能力 具体表现为以下6种技能:,5/24/2023,48,3信息检索,49,1)明确任务(Task Definition):了解问题的症结,确定所需信息和目的,分清任务的轻重缓急;2)信息查询策略(Information Seeking Strategies):了解各种信息源,能够作出评价并确定优先查找的次序;,5/24/2023,49,3信息检索,50,3)查找和检索(Location and Access):确定信息藏址,从信息源中找出信息;4)信息利用(Use of Information):能够读懂(或听懂、理解)查出的信息,了解信息在满足需求中的特
20、定价值;,5/24/2023,50,3信息检索,51,5)信息综合(Synthesis):能够组织信息,提供信息产品(论文、报告等);6)信息评价(Evaluation):评价查找结果和解决问题的过程(效率)。,5/24/2023,51,3信息检索,52,检索者一方面要弄清文献的组织编排方式,要具有“解构”能力;另一方面要善于分析提问,善于将信息需求转化为可检索的概念术语。这是一个双向分析和匹配的过程,是一个以满足用户信息需求为目标,以用户提问为线索,不断缩小检索范围并查找用户所需信息的过程。,5/24/2023,52,3信息检索,53,信息检索方法:检索方法的运用离不开各种检索工具(如目录、
21、索引、文摘等),检索技术的利用则离不开相关硬件和软件。它们共同构成了联结信息资源体系和用户信息需求的纽带与桥梁。,5/24/2023,53,3信息检索,54,对应于信息组织方法,信息检索方法可分为:字顺(如题名、著者等)检索方法;类号检索方法;主题检索方法;*,5/24/2023,54,3信息检索,55,检索点:主题 subject 分类 classification 著者 author 名称 title 号码 code,coden.,5/24/2023,55,3信息检索,56,主题途径:是根据文献所论述的主题,利用主题语言编制的主题索引而进行的信息检索。主题索引大多按字母排列方式,因此,检索
22、也要用相应的方式。,5/24/2023,56,3信息检索,57,分类途径(classification):是根据文献所论述的主题内容,利用分类语言的学科专业体系进行的检索。大多数检索工具都采用分类语言作为正文编排体系的依据,分类目次通常不采用字顺排列类目和检索类目,而是按照学科专业角度的层层逻辑划分建立分类类目体系。检索时要选择合适的分类类目。,5/24/2023,57,3信息检索,58,著者途径:作者(Author)/团体著者(Corporate Author/Authors Affiliation)检索中,著者是一个广义的概念,是对文献内容负有责任的作者、编者、译者等,可以是个人、团体、机
23、构、组织,甚至还包括著者的单位。通过著者途径进行检索,主要可利用著者索引。所有著者索引都采用字顺排列方式,如果著者是个人,就以个人姓名字顺排列,如果著者是机构,就以机构名称字顺排列。因此,检索也应该按相应的途径。,5/24/2023,58,3信息检索,59,题名途径(Title):检索中,文献题名是一个广泛的概念,包括文献篇名、图书书名、期刊刊名。常见的题名索引主要有篇名索引、书名索引、刊名索引等。题名索引通常按字顺排检方式,因此,检索也应该采取相应的途径。,5/24/2023,59,3信息检索,60,序号途径:许多文献除普通外表特征外,还具有序号特征,如,专利文献有专利号、标准文献有标准号、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 发现 信息 检索

链接地址:https://www.31ppt.com/p-4934216.html