化学文献检索CI.ppt
化学文献检索,北京化工大学 理学院 刘建军;,2012-6-26,什么是信息?,“信息就是用于消除随机不确定性的东西”信息论创始人,申农“信息就是信息,既不是物质也不是能量,而是与物质和能量相并列的三大要素之一。”近代控制论的创始人维纳。从广义上讲,信息泛指一切事物运动的状态和运动的方式。它是一种客观存在。从狭义上讲,是指信息接受主体所感觉到并被能理解的东西【规律,知识】。,什么是化学信息?,化学物质的化学信息新成果利用科学的原理和方法通过测量得到的化学成分的相关信息,如物质的物理、化学性质,物质中各成分的定性、定量以及结构信息,分子间的相互作用信息(包括化学反应信息)等。媒体形式的化学信息已有成果化学信息的记录形式,如图书、期刊、专利、数据库以及音像资料等,通过化学信息的传播使化学家们共享测量的原理、方法及测量结果。,化学信息学,1987年JMLehn教授首次提出 化学信息学是信息科学与化学的交叉学科,它用数学、统计学与计算机科学的理论、方法和工具作为手段研究,包括:化学计量学;化学信息运筹学;化学数据库及其研究、开发和应用:化学模式识别,人工神经网络与定量构效关系(QSAR)的研究;功能分子、材料和药物设计;化学软件;人工智能化工工艺设计和自动控制专家系统;生命的化学模拟;计算化学等。,化学计量学研究化学与物理的测量和表征(如各种仪器分析的图谱等)的最优方法的选择,分析采样和数据处理方法,如分析信号如何消除噪音、求导、变换、卷积等,以求最大限度地获取物质系统的高质量信息。化学信息运筹学研究化学信息的采集、筛选、鉴定、评价、分类、检索、存储、压缩、解压、传输、交流和显示等方法,从而建立各种化学信息库;然后分析信息的内涵,总结出规律,最大限度地挖掘、开发和应用信息宝库,使它们作为实验归纳法和理论演绎法的桥梁,推动化学和化工科学的发展,为国民经济服务。化学模式识别是信息科学中模式识别理论和方法在化学中的应用,它和人工神经网络在定量构效关系(QSAR)的研究中非常有用,它还可用于化学工艺参量的最优化,以达到提高产品质量、降低生产成本的目的。化学软件包括化学教学软件、图谱检索软件、文献检索软件、数据处理软件等。计算化学与化学信息学及理论化学有重叠交叉。,化学文献检索的意义,从科学史看,科学数据的大量积累往往导致重大科学规律的发现,如17世纪的天文学积累了几百颗天体运动的数据,对它们的分析导致开普勒提出天体运动的三大定律,为牛顿建立他的经典力学体系奠定基础。19世纪60年代的化学积累了数十种元素和上万种化合物的数据,门捷列夫把这些元素按原子量的大小次序排列。发现它们的化合物的性质有周期性变化,因而在1869年提出元素周期律,为以后发现新元素和玻尔建立原子模型指明了方向。20世纪30年代,已经积累了100多万种化合物的数据,结合量子化学的发展,导致鲍林提出共价、电价和氧化值的定义,以及键、键、杂化轨道、电负性、共振结构等新概念,总结出化学键理论,发表论化学键本质这本经典著作,对20世纪化学的发展起了非常重要的作用。,化学文献检索的意义,截至目前,美国化学文摘(CA)登记的分子、化合物和物相的数目已超过2300万种,比鲍林总结化学键理论时扩大了10余倍,但全世界的化学家似乎还没有充分利用这一化学文献宝库来总结规律。这是百年一遇的难得机会,不可失之交臂。,本课程的学习内容,文献检索的基础知识各种化学化工信息源种类及各自特点会议论文、期刊、专利各种索引工具特点及其使用方法CA、SCIInternet化学化工信息检索方法,参考书,赵乃瑄,冯新等,化学化工电子文献检索与分析策略,化学工业出版社,北京,2008余向春,化学文献及查阅方法(第四版),科学出版社,北京,2009姚钟尧,化学化工科技文献检索,华南理工大学出版社,广州,2007潘家祯,科技文献检索手册,化学工业出版社,北京,2001王荣民,化学化工信息及网络资源的检索与利用,化学工业出版社,北京,2003,本课程的目标,化学信息的获取(重点)通过图书,工具书,期刊,CA(EI,SCI)检索,专利(中国、美国、徳温特)检索,网络检索等手段,获取所需要的已有信息 能够顺利完成毕业论文环节开题时文献综述(提出问题)实验进行中数据库的利用(分析和解决问题)为未来的科研工作打基础,考核方法,根据课程内容进展安排4-5次文献检索作业;综合作业情况(包括交作业次数和完成情况)及出勤记录给出成绩。,科研文献检索过程,本课程的现实意义,开始科研的第一步-文献检索,文献检索让你了解课题,科研让你领悟课题,第二节 化学信息的存在形式,1.按文献的加工层次划分一次文献:原始文献,包括图书、科技报告、会议论文、专利、学位论文等;二次文献:一次文献加工整理,如书目、题录、文摘、索引等,例如:CA,EI等;三次文献:通过二次文献提供的线索,选用一次文献内容分析综合后形成的信息资料(高度浓缩和深度加工),包括词典、百科全书、年鉴、名录等。,2.按文献的载体类型划分公开并正式发表传统的信息载体纸介质(印刷版)直观,但查阅困难电子文献光、磁等介质(电子版)光盘数据库(database on CD-ROM)联机数据库(database online)网络数据库(database on Web)如美国化学文摘光盘版的CA on CD 升级为网络版的SciFinder Scholar,数据库,数据库结构记录-字段-子字段排序和索引数据库类型文献数据库:参考文献信息,还需进一步查找原文书目、全文、专利数据库事实数据库:化合物的原始数据数值、光谱、化合物目录数据库结构数据库:化学结构数据库化学反应数据库,第三节 信息检索的方法和步骤,信息编撰者,信息使用者,科技文献的检索方法,文献检索方法是影响检索效果的重要因素,可分为:直接检索(知识点)间接检索(知识系统)常规法追溯法综合法,常规法利用检索工具,根据检索入手的时间不同可分为:顺查法:根据检索课题的具体要求,利用特定的检索工具,由远及近,逐年查找。用这种方法,查得的文献比较完整,能反映课题研究发展的全过程,查全率高,但工作量大。倒查法:由近及远,按时间逆序查找,重点放在近期新文献。此法省时灵活,效率较高,但会产生漏检而影响查全率。抽查法:对课题研究进展最快、发表文献最多的若干年的文献,逐年查找。这几种方法各有适用的条件,各有优缺点。,追溯法,利用最新发表的文献后所附的参考文献,由远及近,追溯查找相关文献。形成类似链锁反应的检索网络。利用此法进行检索,不需要利用检索工具,查找方法简单。但检索效率不高,漏检率较大。这种方法是不少科技人员常用的方法,方便实用。,通过最近的综述性文献的追溯查找是一个首选方法,信息检索效果的评价,查全率、查准率最佳状态是二者都逼近100%,但通常只能满足一个。影响查全率的主要因素数据库容量低、检索策略过于简单、选词不当、检索途径方法太少影响查准率的主要因素检索词不能准确描述信息主题和检索要求、检索词专指度不够,信息检索技术,情报,评价与挑选,得到文献特征标识,情报需求,查找处理,文献信息文档,编制检索提问标识,检索结果,情报的存储,情报的查找,反馈,示例:希望得到Chinese J of Chem Eng,1993年的一篇文章,但不知哪里有此期刊的馆藏,最好能在本校或本地得到。,方法1:由于上面期刊缩写不一定规范,最好用ISSN先查到其规范名称(1)用Google 查其ISSN,输入“Chinese J of Chem Eng ISSN”得到“CHINESE J CHEM ENG”(中国化学工程)(英),ISSN 1004-9541(2)用1004-9541在本校图书馆主页的“本馆联合目录”的“书目信息查询”中的ISSN途径检索(3)若没有,可以到其他大学或图书馆去找。,方法2:用Google或其它搜索引擎直接查找,可以得到摘要,有时也可以得到全文。方法3:直接向原文作者求助。,检索式检索单元的逻辑组配,每个检索单元仅表达了用户需求的一个侧面,需要将这些单元组配成恰当的检索式后才有可能表达出一个完整的主题。检索式是以布尔逻辑算符为基础的逻辑表达式,用于表达各检索词之间的逻辑关系。构成检索式的其它表示法截词法引号位置算符字段检索,布尔(Boolean)算符,运算符AND“与”运算符 OR“或”运算符NOT“非”,A*B,A+B,A-B,既含有A又含有B,含有A或含有B,含有A同时不含有B,示例:“CH4+methane”或“甲烷+沼气”CAD-冠状动脉疾病,布尔(Boolean)算符的注意事项,执行顺序:NOT”,“AND”,“OR”,若改变顺序,可使用括号,在多层括号时,先执行最内层括号中的运算。如查南京工业大学(A)欧阳平凯院士的文章(D),南京化工大学(B),南京化工学院(C)(A OR B OR C)AND D),不能是“A OR B OR C AND D”使用NOT”,“AND”,“OR”还是“*”,“+”,“-”,依据不同的数据库要求而定。运算符“*”,“+”,“-”在半角状态(英文输入格式)下输入有效,在全角状态下输入无效。,截词法(Truncation),所谓“截词法”就是在检索词中保留相同的部分,用相应的截词符替代可变化部分,并以此代表许多检索用词。扩大检索范围,提高查全率,节省检索时间。例如:用comput*可代表computable,computation,computative,computator,compute,computer,computerize,computing等多个词。各检索系统对截词符的使用各不相同。常见的截词通配符有“*”和“?”两种。注意:使用截词法时不宜将词干截得过短(如:com*),否则会造成大量的误检。,截断位置:1.后截断:“polymer*”,代替“polymer”or“polymers”or”polymerism”2.前截断:“*polymer”,代替“polymer”or“copolymer”or”homopolymer”3.中截断:中间任意位置,“m?n”,代表“man”or“men”截断长度:1.有限截断:空格前的“?”个数 表示词干后允许最多字符变化数量,如“apple?”,代表“apple”or“apples”,or“applet”,not“applesauce”2.无限截断:“computer*”,“computers”or“computerization”3.屏蔽截断:“?”词干中代替字符数,对于拼法上有差异的单词很有用,可以避免漏检。如“ioni?ation”“ionization”or“ionisation”,引号-短语检索,在网络查询中的简单检索时,将短语用双引号标出,如“chemical reaction”,检索系统可将它当作一个检索词对待。短语也可以组成各种布尔表达式,如:software and“chemical reaction”,字段检索,检索对象的每一个著录项称为一个“字段”。例如科技文献的篇名(title)、作者(author)或摘要(abstract),或者网上资源的域名(domain)、URL文字、网页内容(text)等,每一项都是一个字段。字段检索是指对检索词的检索范围进一步缩小,提高检索的准确度。字段检索的形式在检索词的前面加上限制类型和冒号,如:domain:edu限制域名中需要含有edu。以表格形式或下拉菜单表达检索词的字段限制。如:专利检索,几种常见的电子资源检索界面,CA on CD,SciFinder Scholar,化工大学图书馆电子资源,检索步骤,分析课题明确检索范围及要求选择检索系统确定检索标识确定检索途径和检索方法查找文献线索查找和获取原始文献,在查找文献时,要注意以下四个方面的问题。1.检索前的思考2.检索中的决断3.检索后的分析和利用4.养成调阅文献的习惯,1.检索前的思考,为节省时间和精力,要做到有的放矢。检索前必须首先弄清楚下列问题:a.明确查阅文献的目的,需要查什么,准备做什么用。例如,是查新、开题报告,还是实验数据的分析?b.是否已掌握了一定的文献资料,是否仔细研读过,现有的资料中有没有提供可以进一步查找的线索?c.查找的时间范围有什么考虑,准备普查还是查近期或者只查某一段时间内的文献?,d.查找地域范围有什么要求,国内的还是国际范围的,还是只限于某一个或几个国家的?e.准备查哪类文献?专利文献,期刊论文,还是包罗无遗?f.数据库的内容是否满足要求?g.制定的检索标示是否准确无误?选定的检索词(主题词、关键词及限定词)是否符合所用文档的规范?,h.除用主题途径检索外,是否还考虑通过登记号、分子式、化合物代码、著者、机构名称、专利号等其他途径检索?,2、检索中的决断,a.着手使用某一检索工具时,首先要掌握以下几点:(1)该检索工具有几种检索途径;(2)主题索引的结构特点;(3)文摘著录格式,特别是原始文献的出处;(4)文摘中的缩写字和符号等。b.检索过程中选筛情报必须做到心中有数。c.仔细记录和保存检索结果,以备建立专题文献资料档案。d.查不到适合的情报时,应及时修改检索标示,对有间接参考价值的情报也应该记录下来。e.查清原始文献在国内的收藏单位,决定索取方法。,3、检索后的分析和利用,a.对收集到的文献情报,经初步鉴别和筛选后,加以分类和排序。b.选出重要文献仔细研读,通过分析、对比、推论和综合,进一步判断它们的新颖性和使用价值。c.进一步摘录文献中有参考价值的内容。d.必要时对获得的文献情报进行归纳(自己留作素材)或写出综述或评论。,4、养成调阅文献的习惯,一位能够熟练查阅和利用化学情报的化学工作者,往往是同事中的姣姣者。然而,真正做到熟练并不是一件很容易的事,他必须熟悉化学情报源及检索的基本知识,还要具备快速阅读的能力。这样的本领决不是一朝一夕就能达到的。只有结合业务工作实际,随时留意化学信息和动态,精选一些刊物,经常浏览和使用,日积月累,方能成就。,作业(1-1),尝试利用baidu,google等搜索引擎找到你感兴趣的科技话题,例如:石墨烯,2011年诺贝尔化学奖氢燃料汽车尝试在各国专利局网站上检索感兴趣的专利中国国家知识产权局:http:/美国专利与商标局United States Patent and Trademark office:http:/欧洲专利局European Patent office:http:/,要求,通过什方式检索到你感兴趣的信息,通过这个信息你知道了什么,有什么启发?包括:普通科技信息;专利文献信息附件:含主要参考文献格式:WORD,2-4页下次课打印交上来注意:若两人内容相同,成绩作废,交作业程序,交给各班班长;班长负责收齐并按学号顺序排好;列出未交作业同学名单并注明原因;统一交给老师。课程公共邮箱:登录密码:20120626,