一次数据库查寻.ppt
《一次数据库查寻.ppt》由会员分享,可在线阅读,更多相关《一次数据库查寻.ppt(64页珍藏版)》请在三一办公上搜索。
1、一次数据库的查寻,数据库查询,分子生物学数据库的应用可以分为两个主要方面,即数据库查询(databaase query)和数据库搜索(database search)。数据库查询和数据库搜索是分子生物信息学中两个常用术语。,所谓数据库查询,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对蛋白质序列数据库SwissProt输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)。数据库查询有时也称数据库检索,它和互联网上通过搜索引擎(Search engine)查找需要的信息是一个概念。,数据库查询、数据库检索和数据库搜索这三
2、个词经常混用。其实,数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。例如,给定一个胰岛素序列,通过数据库搜索,可以在蛋白质序列数据库SwissProt中找出与该检测序列(query sequence)具有一定相似性的序列。,在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。显然,数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同,以SRS和Entrez为例,介绍数据库查询的基本方法
3、,SRS是Sequence Retrieval System的缩写,由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。随着分子生物信息数据库应用和开发的需求不断增长,SRS已经成为欧洲各国主要生物信息中心必备的数据库查询系统。目前,SRS已经发展成商业软件,由英国剑桥的LION Bioscience公司继续开发,学术单位在签定协议后可以免费获得该软件的使用权,而非学术单位则需要购买使用权。,SRS系统,SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库,目前共有300多个数据库安装在世界各地的SRS服务
4、器上。可以直接从LION公司的网页上查到这些数据库的名称,并知道它们分别安装在何处(http:/www.lionbio.co.uk/publicsrs.html)。,SRS系统,欧洲生物信息学研究所、英国的基因组测序中心Sanger Centre和英国基因组资源中心HGMP等大型生物信息中心安装了100多个数据库。北京大学生物信息中心1997年开始安装SRS系统,目前共有70多个数据库,其中核酸序列数据库EMBL和蛋白质结构数据库PDB每日更新。国内微生物所、上海生命科学院等单位也于2000年开始安装SRS系统。下表列出国际上主要SRS数据库查询系统服务器系统的网址。,SRS系统,SRS系统,
5、SRS系统使用方法,以北京生物信息中心SRS数据库查寻系统为例讲述SRS系统的使用方法,你可以打开网页http:/,图1 为北京大学生物信息中心SRS数据库查询系统,在SRS系统的主界面上可以看到北京大学生物信息中心SRS数据库系统安装的部分数据库种类和名称,1,点击页面右上方“Show all”右侧的”+”号按钮,即可显示所安装的所有数据库。用鼠标点击数据库名左侧的选择框以选中需要检索的数据库后,可以用三种方式进行查询。,检索可建立逻辑关系(and,or,not)进行,1.快速查询:在页面右上方的快速检索栏中填入关键词,按回车健或点击“Quick Search”按钮,即可得到查询结果。如选择
6、蛋白质序列数据库SWISSPROT,输入钙离子通道“calcium channel”,按回车键或点击Quick Search按钮后即得到该数据库中与钙离子通道有关的蛋白质序列的条目及其它信息。,1,2.标准查询:快速查询方式简单方便,但不便于由用户限定查询条件。例如,上述查询结果中包含了部分钾离子通道序列条目,也包括了钙离子通道序列片段条目,因为在这些条目中,也出现了“calcium channel”关键词。选择标准查询方式,则可以由用户给出适当的查询条件,以缩小查询范围。,以蛋白质序列数据库SWISSPROT为例,选择该数据库后,点击“Standard”按钮,则进入该数据库的标准查询页面。将
7、页面左侧查询结合方式选择栏“combine search with”下的AND改为BUTNOT,再在查询表单中分别填入“calcium channel”、“potassium channel”和“fragment”,则可将钾离子通道和钙离子通道蛋白的序列片段滤除。同时,在序列条目显示方式栏“Use predefined view”中选择“proteinChart”(图2),,图2 蛋白质序列数据库SwissProt标准查询页面,点击页面左上方的“Submit Query”按钮,则得到以Java图形表示的蛋白质序列疏水特性图。改变用于计算平均疏水值的残基数,可以得到不同的波形图(图3)。,图3
8、蛋白质序列数据库SwissProt疏水特性图,3.扩展查询:标准查询方式的功能比快速查询有所增加,但并没有体现SRS的全部查询功能。而利用扩展查询方式,则可充分利用SRS系统强大的查询功能。例如,可以将输入关键词的查询范围限定在物种、说明、作者、文献等范围内,也可以限定日期和序列长度等。对EMBL数据库,还可以选择人、植物、EST等不同的子库进行检索(图4)。,图4 核酸序列数据库EMBL扩展查询方式页面,例如,选择植物“Pln”,在物种“Organism”栏填入水稻的物种名“Oryza sativa”,在序列长度“=”栏中填入400,并把“Display per page”的缺省值由30改为
9、10000,点击“Submit Query”,则可得到EMBL数据库中长度大于400bp的所有水稻序列条目,并在屏幕上全部列出。此外,还可以选择EMBL和SwissProt等数据库的序列特征表(feature table)中某些特殊内容,实现快速高效的检索。,例如,选择蛋白质序列数据库SwissProt,进入开展查询页面,在“FtKey”栏中选择“disulfide”,不填入任何关键词而直接点击“Submit Query”,则可得到SWISSPROT中所有含二硫键的蛋白质序列条目。,上述SRS的使用方法,仅仅是其中一部分。SRS系统另有许多其它功能,它设有六个常用选择按钮:TOP PAGE、Q
10、UERY、RESULTS、SESSIONS、VIEWS、DATABANKS,点击这些按钮,则可随时进入其特定的页面,TOP PAGE:数据库选择页面,用来选择所需查询的数据库名称,用户可选择一个数据库进行查询,也可同时选择多个数据库查询,QUERY:标准查询方式页面,用来输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等查询项目,有的数据库可以选择全文搜索(All Text)选项,适用于对数据库内容不很熟悉、对所查信息不很确切的情况。,SESSIONS:查询过程存储页面,可以将某次查询过程以文件形式下载到用户本地计算机上保存起来,以供下次使用;也可把本地计算机上的存放的查询过程文件
11、上载到服务器上。,RESULTS:查询结果管理页面,用来对查询结果作组合、链接等处理,以得到进一步的筛选结果。,VIEWS:显示管理页面,用户可以选择和定义查询结果的显示方式,包括文本方式、表格方式、图形方式、FASTA搜索结果方式等。,DATABANKS:系统安装的数据库清单,包括数据库名称、版本、类型、数据量、建立索引的日期等。,此外,SRS系统提供了详细的联机帮助信息,任何页面下点击右上方的Help按钮,即可启动联机帮助手册。仔细阅读该手册,可熟悉SRS系统的使用方法。,SRS系统的特点,SRS系统是一个功能强大的数据库查询功能,其主要特点作有以下几个方面,1.统一的用户界面,SRS具有
12、为统一的Web用户界面,用户只需安装Netscape等网络浏览器即可通过Internet查询世界各地SRS服务器上的300多个数据库。SRS支持以文本文件形式存放的各种数据库,包括序列数据库EMBL、SwissProt,结构数据库PDB,资料数据库AAIndex、Biocat、dbcat,文献数据库MedLine等,生物信息数据库种类繁多,结构各异。如何快速、高效地对各种数据库进行查询,是数据库查询系统必须解决的问题。SRS系统采用了建立数据库索引文件的手段,较好地解决了这一问题。即使是含几百万个序列的EMBL数据库,只需几分钟即可实现整库查询,得到所需结果。此外,SRS系统具有查询结果相关处
13、理功能,每次查询结果可作为进一步查询的子数据库,并可对其进行并、交等操作,对查询结果进行组合或筛选,2.高效的查询功能,3.灵活的指针链接,通过超文本指针链接实现信息资源的有机联系,是目前Internet信息服务的主要趋势。许多生物信息数据库均包含与其它相关数据库的代码,如SwissProt数据库中的蛋白质序列包含了该序列在EMBL、PDB、Prosite、Medline等其它数据库的代码。利用超文本链接,可将这些相关数据库联系在一起。SRS采用实时方式,根据查询结果产生链接指针,而不是在原始数据库中增加超文本标记,既节省了存储空间,也便于数据库管理,4.方便的程序接口,将序列分析等常用程序整
14、合到基本查询系统中,是SRS的另一个重要特点。用户可以对查询结果直接进行进一步分析处理。例如,查询所得的蛋白质序列,可立即用BLAST和FASTA查询程序进行数据库搜索,找出其同源序列;也可以用PrositeSearch程序,寻找功能位点;用ClustalW程序进行多序列比较,5.开放的管理模式,在管理模式上,SRS采用了开放的方式。无论是数据库还是应用程序,均可进行扩充和更新。用户可在本地机上安装自己的SRS系统,并将自己的数据库添加到SRS系统中,并可与其它数据库实现超文本链接。也可自行编写应用程序,整合到SRS系统中,6.统一的开发平台,SRS系统中所有数据库均以文件系统方式存放,通过预
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一次 数据库 查寻
链接地址:https://www.31ppt.com/p-5622367.html