信息检索第一章PPT.ppt
,科技文献检索,教材:信息检索 主编:符绍宏,考核方式:平时成绩(出勤+作业+课堂讨论)+期末论文,教师:杨 琛,电气自动化系,“鱼”and“渔”,Give me a fish,Ill eat for a day;teach me to fish and Ill eat for a life time.,“授人以鱼,不如授人以渔”,Iformation Retrieval,信息素质,美国2000年1月18日批准的高等教育信息素养能力标准认为,一个具备信息素养的人应该达到如下目标:(1)确定所需信息的范围;(2)有效地获取所需的信息;(3)鉴别信息及其来源;(4)将检索的信息融入自己的知识范围;(5)有效地利用信息去完成一个具体的任务;(6)了解信息所涉及的经济、法律和社会问题,合理合法地检索、搜集和利用信息。(1)至(3)与本课程有直接的关系,而(4)至(5)是以(1)至(3)的知识为基础所能够开展的工作,(6)所涉及的是如何合法使用信息的问题。,Iformation Retrieval,信息检索的意义,信息素质是人类素质的重要组成部分,它大致包括信息意识、信息观念、信息心理、信息道德、信息知识、信息政策、信息法律、信息技能等内容。成为现代信息人的基本条件是:(l)敏锐的信息意识;(2)良好的信息技能;(3)合理的知识结构 科技文献检索则是每个大学生和科研人员必须具备的一种基本技能,主要有以下几点作用:,启迪创造性思维(创新问题),提高自学能力,节省时间,加快科研步伐,继承前人研究成果,避免重复劳动,科技人员80%的知识在学校毕业后获得,科研工作时间分配:计划与思考 7.7%;信息收集 50.9%;实验研究 32.1%;数据处理 9.3%,查找文献资料的能力使用工具书的能力科学有效的阅读各种文献的能力,Iformation Retrieval,课程概况,课程目的:为了培养大学生的综合能力和综合素质而开设的。它以培养大学生的自学能力和独立研究能力主要目的,为今后顺利地进行毕业设计或毕业论文写作打好基础,为毕业后更新知识适应社会需求、从事科学研究以及技术开发打好基础。,课程性质:本课程是研究文献信息的获取与利用方面的方法和技能的应用性课程、是一门技术基础课。,授课方法:本课程采用多媒体授课与上机、手工实习为主要教学方法,坚持理论与实践紧密结合,以达到教学目标。,Iformation Retrieval,课程考核,出勤有缺勤成绩不通过!,认真完成期末论文考核,课后多实践,第一章,绪 论,信息检索(Information Retrieval)就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。,1.1 信息检索,研究内容,信息检索理论,信息检索语言,信息检索工具或信息检索系统的构建及评价,信息检索技术与方法,Iformation Retrieval,信息检索的概念,随着信息检索理论的不断发展,人们对信息检索的认识不断深入。国内外有关专家从不同的角度解释信息检索,主要代表性观点有:,1、从通信的角度认识信息检索基本问题在于,如何把一个可能的用户指引向所存储的信息。莫尔斯首次提出”信息检索这一概念,并认为”信息检索是一种时间性的通信形式“。,4、全息检索王永成:全息检索就是”可以从任何角度,从“存储的多种形式的信息中高速准确地查找,并可以任意要求的形式和组织方式输出,也可仅输出人门所需要的一切相关信息的电脑活动”,5、概念信息检索基于自然语言处理中对知识在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解检索其中的相关信息。系统组成部分:记忆机制、语义分析机制、知识库、人机接口等。,2、从信息处理角度认识信息检索基本问题是如何处理信息和信息的结构。偏重于信息管理领域,视信息检索为计算机科学的一分支。有利于信息检索工具的设计和组建。,3、从信息检索过程的角度认识信息检索信息检索即是查找出含有用户所需信息的文献的过程。这是一种传统的主流观点。兰卡斯特”信息检索系统并不检索信息“,表明检索对象是文献。,Iformation Retrieval,Iformation Retrieval,上述观点是从理论角度对信息检索进行定义,但根据实际检索工作的经验,信息检索有广义和狭义之分:,广义信息检索信息检索是指将信息按一定的方式组织和存贮起来,并根据用户的需要找出相关信息的过程。其中包括信息存储与信息查找两部分。,狭义信息检索 即信息查找的过程,文献检索是以文献作为检索对象,查找含有用户所需信息内容的文献。文献检索是一种相关性检索而非确定醒检索。检索对象是包含特定性信息的给类文献。这是我们这门课着重探讨的内容,按照检索对象的内容区分,信息检索可分为文献检索、数据检索和事实检索。,数据检索是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查出可回答某一问题的数据的检索。数据检索是一种确定性的检索。有些数据检索不仅能查出数据,还能提供一定的运算、推导能力。,Iformation Retrieval,信息检索的类型,事实检索是存储关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出来的检索。事实检索也可以归为数据检索,是数值信息和系统数据信息混合的检索。,Iformation Retrieval,以手工操作的方式,利用检索工具书进行信息检索。优点:直观、灵活,便于控制检索的准确性。,指计算机信息检索,通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。目前成为主流方式。,Iformation Retrieval,强调检索的准确性,向用户提供高度对口信息的检索,也称为特性检索。,强调检索的全面性,向用户提供系统完整的信息检索,也称为族性检索。,Iformation Retrieval,查找有关特定主题最新信息的检索,又称SDI检索。特点是只检索最新的信息,时间跨度小。该检索在文献信息库更新时运行,适合信息跟踪,便于及时了解有关主题领域的最新发展动态。,查找一段时间内有关特定主题信息的检索,也称为追溯检索。特点是既可查找过去某一段时间的特定主题信息,也可以查找最近的特定主题信息。用户利用最多的检索方式。,Iformation Retrieval,Iformation Retrieval,1.2 信息、知识、情报,Iformation Retrieval,信 息,信息是物质存在的反映,是通过人的感官获得的各种有用的思维异动,影响或支配人的活动的目的性,即人们通过感觉器官与外界进行交换的一切内容。,信息、知识、情报,信息具有差异和传递两要素。根据发生源不同分为自然信息、生物信息、机器信息和人类信息四大类。必须依附一定物质形式,即载体。,Iformation Retrieval,知 识,一切经智力加工了的信息概称为知识,是信息的有序结晶;是指人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。知识的产生来源于信息,是信息的一部分。,意识性;实践性 性息性;规律性 继承性;渗透性,情 报,有用情况的报道;指传递着的有特定效用的知识;是具有时效性和对象性的传递着的信息。就是人们在一定时间内为一定目的而传递的具有使用价值的知识或信息。情报是对搜集到信息经过整序、分析和深化认识之后得出的解决特定问题的知识,是我们对于所搜集到的信息进行分析研究从而获得最大价值的能力。,知识性;传递性 效用性;可塑性时间性;保密性,Iformation Retrieval,信息、知识、情报的关系,信息是情报处理的原材料,是一种未予以评估和分析的数据资料;情报是一种信息,或者说是一种特殊的信息,是由信息转化和加工提炼出来的信息、知识和情报之间的关系:信息知识情报,三者 是同心圆的关系。,1.3 信息资源,信息及信息资源是信息检索的主要对象,本节主要介绍信息资源的定义及其类型,并对当前信息检索的主要检索对象文献信息资源做较为详细的描述。,Iformation Retrieval,信息资源的概念,信息与信息资源的定义,目前仍是众说纷坛。但国内外多数专家都认为应该从狭义和广义两种角度来认识和理解信息资源的涵义:,是指人类社会经济活动中经过加工处理的、有序化并大量累积后的有用信息的集合。,是信息和它的生产者以及信息技术的集合。,本书的陈述是基于狭义信息资源概念基础上的。,Iformation Retrieval,信息资源的分类,按照不同的标准可以将信息资源划分为不同的种类,常见的划分标准及其类型有:,按信息资源所依附的载体划分,1,体裁信息资源指以人体为载体并能为他人识别的信息资源。按其表述方式分为口语信息资源(谈话、授课、演讲、唱歌等)和体语信息资源(表情、手势、姿态、舞蹈等)。,实物裁信息资源指以实物为载体的信息资源。可分为天然实物资源、人工实物资源,指以文字、图形、符号、声频等方式记录在各种载体上的知识和信息资源,是目前利用最多的信息资源。,指以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储的手段与形式的信息资源。,Iformation Retrieval,Iformation Retrieval,一次信息:指未加工或粗略加工的原始信息资源。如:各种著作、期刊文章、会议记录、研究报告、统计报表、专利等。,二次信息:指对大量一次信息资源加工、整理、标引、著录、浓缩,并予以有序化编排而形成的结果,主要指各种目录、题录、索引、文摘等。,三次信息资源:指通过二次信息资源提供的线索,对某范围内的一次信息资源进行分析、研究、加工而成的信息资源。,文献信息资源,记录有知识的一切载体;指以一定物质形态固定下来,以便于保存和传播的知识。,文献是用各种形式的载体记录下来的一切有价值的人类知识,是以文字、图形、符号、声频、视频等手段记录和传播人类最宝贵的物质和精神财富的载体。现代文献囊括了各种信息载体,如传统的书刊、文稿,如今的音像制品、机读资料、电子出版物等。,文献信息是从文献实体结构中抽象出来的内容,它借助于文献这种载体显示出知识的信息,通过文献进行存贮和传播,无论是自然信息还是社会信息,只要借助于文献来传递内容,都属于文献信息。,Iformation Retrieval,知识信息性、物质实体性、人工记录性、动态发展性,(1)文献的定义,(2)科技文献的特点,在过去200多年,期刊的增长与时间成指数函数关系,差不多每隔15年翻一番,一些热门尖端学科更快,23年就是翻一番。量大,面广,更新快。科技文献可以帮助人们更全面、系统的了解某一特定领域中的历史和现状,可以将人们正确地领入自己所不熟悉的领域,也可以作为一种经常性的参考工具。,(3)各文献级别间关系,由零次文献经过写作正式发表变成一次文献,一次文献再经过有关专业出版机构加工变成有序的二次文献,大量的二次文献再作了大量工作的基础上可以 变成三次文献。查阅文献则是通过二次文献检索 到一次文献的过程。所以二次文献是最重要的检 索手段和工具,一次文献是最终的检索对象。,Iformation Retrieval,1)刻写型文献;(2)印刷型文献;(3)缩微型文献;(4)电子型文献;(5)视听型文献,图书、期刊、科技报告、会议文献、专利文献、标准文献、政府出版物、学位论文 产品样本、技术档案,(4)文献的物质形态,印刷型指通过油印、铅印、胶印等各种印刷手段将信息记录在纸张上的文献,这是沿用了近千年的传统载体形式,是各类信息载体的主体。其优点是用途较广、读取方便、流传不受时空限制等。其缺点是存储密度低、较笨重、占据空间大。,电子型又称机读型,指通过计算机存储和阅读的文献类型。主要包括磁带、磁盘、光盘等。其优点是:存 储容量大,存取速度快,原记 录可以修改、删除或更新等。其缺点是设备投资高、价格昂 贵。,电子型文献种类划分标准多样,与印刷型文献比有众多不同之处。,按出版类型划分十大情报源(人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称),图书期刊专利文献标准文献会议文献学位论文科技报告政府出版物技术档案产品样本,图书:一种论章成册的出版物,是对已有研究成果、生产技术、实践经验或某一知识体系的论述或概括。图书的基本素材来自期刊论文、会议论文、研究报告、学位论文等一次文献和著者本人的研究和学术成果。图书的特点:内容系统、全面、成熟、可靠,有一定的新颖性,一般只反映3-5年以前的研究水平;编辑出版时间较长,传递信息的速度太慢。出版收藏情况:目前全世界每年出版图书月70万种以上,其中科技图书约占1/4左右。大型图书馆有广泛的收藏,多数图书较容易获得。图书的识别方法:著录的特征除了书名、著者外,还有出版社、出版地、总页数,有时还有国际标准书号:ISBN号。,ISBN(International Standard Book Number)说明:ISBN号是国际标准书号的简称,它是国际标准化组织于1972年公布的一项国际通用的出版物统一编号方法。ISBN号是由10位数字组成,共分四段:1、组号:代表出版者的国家,地理区域,语种等。我国的组号为“7”。2、出版者号:代表组内所属的一个具体出版者(出版社,出版公司等)。3、书名号:代表某出版社所出版的一种具体出版物的书名。4、校验位:是ISBN号的最后一位数字,用以检查ISBN号转录过程中有无差错。例如:Frontpage 98网页设计一书的ISBN号是:7-118-01984-4,所代表的意思是:7,代表中国;118,代表国防工业出版社;01984,是书名号;4,是检验码。,期刊又称杂志,是一种有固定名称,有一定的出版规律,每期有多篇论文组成的连续出版物。特点(科技期刊):出版周期短,报道速度快;数量大,品种多,内容丰富新颖,能及时反映当代社会和科技的发展水平和动向;发行流通面很广;连续性强,它所刊载的科学事实、数据、理论、技术、方法、构思和猜想,都是科学研究的重要参考信息。出版收藏情况:目前全世界出版的期刊约10万余种,而且正以每年1500种的速度递增。国内公共图书馆和省级以上的科技信息情报所都有收藏,期刊原文比较容易获得。,识别期刊的主要依据有:期刊名称,期刊出版的年、卷、期,国际标准刊号(ISSN)等。ISSN由8位数字分两段组成,如1000-0135,前7位是期刊代号,末位是校验号。我国正式出版的期刊都有国内统一刊号(CN),它由地区号、报刊登记号和中图法分类号组成,如CN11-2257/G3。,又称“重点期刊”、“重要期刊”、“常用期刊”等。一般是指少数刊载某一学科或某一专业大量、高质量的文献的期刊。通常情报密度较大,代表某学科或专业领域的较高的学术水平,借阅率和被引用率较高,出版较稳定,所载文献的使用寿命较长的期刊。,科技期刊,科技期刊,*,又称连续性出版物(serials),是一种定期或不定期连续出版的文献载体,它一般有同样的名称,按一定时间编定卷号,每一卷又分若干期。,核心期刊,*,专利文献,*,主要由专利说明书构成,指专利申请人向专利局递交的有关发明目的、构成和效果的技术文件,因只有符合新颖性、创造性、实用性的发明创造才能获得专利权,所以它是一种切合实际、启迪思维的重要信息源。,标准文献,*,指标准化工作的文件,是经过公认的权威当局批准的标准化工作成果,主要为有关工业产品和工程建设的质量、规格、检验方法的技术规定文件,具有一定的法律约束力,是科研生产活动的重要依据和信息来源。,会议文献,*,指在国际国内重要的学术或专业性会议上宣读发表的论文、报告,学术性强,内容新颖,质量较高,可了解国内外科技发展趋势,参考价值较大,是重要的信息源之一。,指关于某项研究成果的总结报告,或是研究过程中的阶段进展报告,其内容比期刊论文新颖专深、详尽、可靠,出版周期短,报道速度快,反映一个国家或某一学科领域的科研水平,是不可多得的信息源。,指各国政府部门及其设立的专门机构出版的文献,是了解各国政治、经济、科技情况的重要资料,如我国政府发表的“科学技术白皮书”,学位论文,*,指高校、科研单位的研究生为申请学位而提交的学术论文,质量参差不齐,对科研有一定参考价值,为难得文献。,科技报告,*,政府出版物,*,指厂商产品宣传和使用资料,通常对定型产品的性能、构造、用途、操作规程作具体说明,内容成熟,数据可靠,一般可直接获取。,指科研生产活动中形成的,有具体事物对象的技术文件、图纸、图表、照片和原始记录的总称,是科研生产工作中用以积累经验、吸取教训的重要文献,一般只内部使用。,档案技术,*,产品样品,*,