数据库相似性搜索.ppt
《数据库相似性搜索.ppt》由会员分享,可在线阅读,更多相关《数据库相似性搜索.ppt(34页珍藏版)》请在三一办公上搜索。
1、第四章 数据库相似性搜索,王红岩,序 言,序列两两比对的一个主要应用就是在数据库中基于相似性检索生物序列。这个过程包括提交查询序列和对查询序列与数据库中的每一序列进行两两比对。所以数据库相似性搜索就是一个大规模的序列两两比对。这种类型的搜索是一种最有效的用来推导新测定序列功能的方法。然而,第三章讲述的动态规划算法速度太慢因此大多数时候是不实用的。为了提高序列比较的计算速度需要特殊的搜索方法。这章将要介绍数据库搜索方法的理论和应用。,数据库搜索的独特要求,对序列数据库进行搜索的算法有独特的要求。第一个标准是敏感性,它是指找到尽可能多的相似序列的能力。它是用正确识别属于同一家族的序列范围来度量的。
2、这些正确识别的序列在数据库搜索中被认为是“真阳性“。第二个标准是选择性,也叫特异性,它是指排除不正确序列的能力。这些不正确的序列是在数据库搜索中被错误识别的无关序列,它们被称为”假阳性“。第三个标准就是速度,它是指从数据库搜索中得到结果所用的时间,这依赖于数据库的大小,有时速度可能是最重要的因素。理想上,人们总是希望在数据库搜索中得到最大的敏感性,特异性和速度。然而,同时满足这三个要求在实际中是非常困难的。通常是提高了敏感性就降低了特异性。而降低特异性又可能会使结果包含许多假阳性。同样的,提高速度经常会付出敏感性和特异性下降的代价。我们经常需要在这三个标准之间作出折衷。,数据库搜索的独特要求,
3、在数据库搜索和许多其它生物信息学领域中有两种基本类型的算法。一种是穷举法,它用一种严格的算法通过考察所有的数学组合来找一个特定问题的最佳的或者精确的解。动态规划算法是穷举法的一个例子,它在计算上是非常精确的。另一种是启发式方法,它是一种利用拇指规则(经验法则)来寻找经验上的或是近似最优结果的计算策略。本质上,这种类型的算法是一种根据一些标准缩小搜索空间的快捷方法。然而,这种快捷方法并不保证找到最佳或是最精确的结果。经常用它是因为要在不显著牺牲计算结果的正确性情况下和可以接受的时间内获得结果。,启发式数据库搜索,用动态规划算法,比如Smith-Waterman算法,搜索一个大型数据库尽管是精确可
4、靠的,但是速度太慢以至于在计算机资源有限的时候是不切实际的。十年前做的一个估计显示,用当时的常规计算机系统以一个包含100个残基的查询序列搜索一个包含300000个残基的数据库需要2-3小时。因此搜索速度成为一个重要的问题。为了提高比较速度必须使用启发式方法。启发式算法之所以表现出更快的搜索速度是因为它只考察那些用动态规划算法计算过的有可能匹配的序列。,启发式数据库搜索,目前,主要有两种用于数据库搜索的算法:BLAST和FASTA。这些算法不保证能找到最理想的比对和真正同源的序列,但是比动态规划算法快50-100倍。提高速度是通过适度地牺牲搜索的敏感性和特异性实现的,而这种牺牲很容易被分子生物
5、学工作者接受。两种算法都能通过识别相似序列片段来合理地预测序列的相似性。,启发式数据库搜索,BLAST和FASTA都是用基于单词的启发式方法来进行快速序列两两比对的算法。这是序列两两比对的第三种方法。它是通过寻找两条序列中显著的或是近似显著的相似连续字母来实现的。这些短的字符串叫做单词,它类似于点阵法中用到的窗口。一个基本的假设是两条相关序列中至少包含一个共同单词。在识别出匹配的单词后,用一个比较长的算法来从单词开始扩展相似区域。一但找到高得分的序列相似区域,就把这些高得分区域连接起来以得到一个全序列比对。,基本局部比对搜索工具(BLAST),BLAST程序是NCBI的Stephen Alts
6、chul于1990年发明的,它目前已经成为最流行的序列分析程序之一。BLAST使用启式方发法比对查询序列和数据库中的所有序列。它的目标是找到相关序列间的高得分无空位片段。高于给定阈值的这种片段的存在说明序列相似不是随机的,它能帮助人们从数据库中不相关的序列中辨别相关的序列。BLAST通过下面的过程来完成序列比对。第一步是根据查询序列建立一个单词列表。一般地,每一个单词对于蛋白质序列来说包含3个残基,对于DNA序列来说包含11个残基。这个列表包含从查询序列中提取的所有可能单词。这个步骤也叫搜索种子。第二步是搜索出现这些单词的数据库中的序列。这步是识别包含匹配单词的数据库序列。,基本局部比对搜索工
7、具(BLAST),第三步是用一个给定的得分矩阵给匹配的单词打分。如果一个单词的得分高于某个阈值就认为它是匹配的。第四步是通过用同样的得分矩阵给比对打分来从两个方向扩展单词。扩展一直继续直到比对得分由于失配降低到一个阈值之下为止(蛋白质序列的下降阈值是22 而DNA序列是20)。得到的结果是叫做高得分片段对(HSP)的无空位连续片段对。在BLAST的原始版本中,最高得分的高得分片段对就作为最后的结果了。它们也叫做最大得分对。在最近的BLAST的改进的程序中可以进行有空位比对。在有空位的BLAST中,用动态规划算法从两个方向扩展选择的最高得分片段以引进空位。如果得分高于某个阈值扩展就继续;否则就终
8、止。然而,总的得分允许临时低于阈值最后再达到阈值之上。在得到最后比对结果之前需要对末端区域进行修整。,基本局部比对搜索工具(BLAST),变形 BLAST是一个包含BLASTN,BLASTP,BLASTX,TBLASTN和TBLASTX的程序族。BLASTN用一个核酸序列查询核酸数据库。BLASTP用一个蛋白质序列作为查询序列来查询蛋白质序列数据库。BLASTX用核酸序列作为查询序列,它把查询序列按照六种阅读框翻译成蛋白质序列然后查询蛋白质序列数据库。TBLASTN用蛋白质序列作为查询序列查询核酸序列数据库,查询时把数据库中的核酸序列按照六种阅读框翻译成蛋白质序列。TBLASTX用核酸序列作为
9、查询序列去查询核酸序列数据库,查询时查询序列和数据库中序列都被按照六种阅读框翻译成蛋白质序列。,基本局部比对搜索工具(BLAST),变形 如果要在新测定的基因组序列中搜索编码蛋白质的序列就要用到TBLASTN,它会把数据库中的核酸序列按六种阅读框翻译成蛋白质序列。它可以帮助人们识别出还没有注释的编码蛋白质的基因。如果查询序列是DNA序列,那么可以用TBLASTX进行蛋白质水平的比较。然而两个程序都是非常精细的所以搜索过程可能很慢。,基本局部比对搜索工具(BLAST),变形 BLAST web服务器()已经被设计出来了,它能简化选择程序的任务。程序是基于查询序列的类型(蛋白质序列,DNA序列还被
10、翻译的DNA序列)组织的。除此之外,特殊用途的程序被单独编组。例如,bl2seq,免疫球蛋白BLAST和VecSceen,一个去除序列的载体污染的程序。被设计用来搜索基因组数据库的程序也被单独列出来。,基本局部比对搜索工具(BLAST),统计显著性 BLAST的输出结果提供一系列按统计显著性分级的匹配序列。显著性分数帮助人们从不相关的序列中识别出有进化关系的序列。一般说来,只有分数高于某个阈值的相似序列才被显示出来。这里的统计度量与单个序列两两比对稍微不同;数据库越大存在的不相关序列比对就越多。这就需要一个新的参数来计算进行序列比对的总次数,这个次数是同数据库的规模成正比的。在BLAST搜索中
11、这个统计量就是E值(期望值),这个值反映了从数据库中搜索出的比对结果是随机得到的可能性。,基本局部比对搜索工具(BLAST),统计显著性 E值同用来评估单序列两两比对的P值相关。BLAST比较查询序列和数据库中的所有序列,所以E值是用下面的公式得到的:E=m*n*P 其中m是数据库中总的残基数,n查询序列的残基数,而P是指一个高得分片段对是由随机得到的可能性。,基本局部比对搜索工具(BLAST),统计显著性 例如,用一个含有100个残基的序列去查询一个共包含1012个的残基的数据库,对于数据库中每一个匹配序列的无空位高得分片段对的P值都是110-20。那么E值就是这三个值的乘积,其结果表示为
12、100101210-20,等于10-6。在BLAST的输出结果中它被表示成 le-6。它表示这个数据库中序列的匹配是随机发生的可能性是10-6。,基本局部比对搜索工具(BLAST),统计显著性 E值提供了一个给定的序列纯粹是由于随机匹配得到的可能性。E值越低,数据库序列匹配是随机发生的可能性就越小,因此匹配就越显著。对于E值的经验上的解释是这样的。如果E值小于le-50,那么数据库的匹配序列是同源关系的可能性就极高。如果E值在le-50至0.01之间,那么匹配序列可以被认为是同源的。如果E值在0.01至10之间,那么匹配就是不显著的,但是可以暂时被认为具有远源关系,如果有其它的证据就可以确认它
13、们的同源关系。如果E值大于10,那么序列就被认为不相关的或者具有极远的关系以至于用现有的方法无法发现。,基本局部比对搜索工具(BLAST),统计显著性 因为E值很可能受到数据库大小的影响,一个明显的问题是随着数据库的增大,给定的匹配序列的E值也会增大。因为两条序列的真正的进化关系是保守的,所以随着数据库的增长序列匹配的可信度就会降低,也就是说随着数据库的增大可能丢失先前已经确定的同源关系。因此,需要一种替代E值的计算方法。,基本局部比对搜索工具(BLAST),统计显著性 bit分数是除了E值之外在BLAST的输出中用到的另一个重要的统计指示量。bit分数不依靠查询序列的长度和数据库的大小衡量序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 相似性 搜索
链接地址:https://www.31ppt.com/p-5985696.html