《数据库的搜索》PPT课件.ppt

资源ID：5584098 资源大小：7.08MB 全文页数：125页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

《数据库的搜索》PPT课件.ppt

数据库的搜索BLAST工具的应用,曹毅生命科学学院,生物序列的相似性,相似性(similarity)：是指一种很直接的数量关系，比如部分相同或相似的百分比或其它一些合适的度量。比如说，A序列和B序列的相似性是80，或者4/5。这是个量化的关系。当然可进行自身局部比较。,生物序列的同源性,同源性(homology)：指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论，属于质的判断。就是说A和B的关系上，只有是同源序列，或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。,序列的相似性和序列的同源性有一定的关系，一般来说序列间的相似性越高的话，它们是同源序列的可能性就更高，所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系，很多时候对序列的相似性和同源性就没有做很明显的区分，造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。,相似性和同源性关系,序列相似性比较和序列同源性分析,序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；,序列对位排列（sequence alignment）将两条或多条序列对位排列，突出相似的结构区域,用核苷酸或蛋白质序列进行数据库检索(Sequence-based database searching),两条DNA序列对位排列分析,两条蛋白质序列对位排列分析,分析功能分析物种进化检测突变、插入或缺失序列延长序列定位基因表达谱分析,用途,序列对位排列分析的种类,序列对库对位排列分析,从数据库中寻找同源序列主要涉及核苷酸数据库和蛋白质数据库,两序列对位排列分析多序列对位排列分析,最流行的序列数据库快速搜索程序 BLASTFastA,何为BLAST？What为何BLAST？Why何处BLAST？Where如何BLAST？How何时BLAST？When,BLAST,何为BLAST?,原文：Basic Local Alignment Search Tool直译：基本局部排比搜索工具意译：基于局部序列排比的常用数据库搜索工具含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库用法：以一个或几个蛋白质或核酸序列为检测序列，搜索蛋白质或核酸序列数据库，寻找与检测序列中一个或多个片段具有较高相似性的一组序列，,为何BLAST？,使用方便、功能齐全速度快、结果可信NCBI精心维护、持续开发配套数据库不断更新免费服务（NCBI、EBI、TIGR）免费下载，本地安装,何处BLAST,NCBI-National Center for Biotechnology Information(US)EBI-European Bioinfromatics Institute(EU)TIGR-The Genome Institute(US)Sanger-Sanger Institute(UK)UK-CropNet-The UK Crop Plant Bioinformatics Network(UK)WU-BLAST-Washington University(US),BLAST的搜索策略,意译：基于局部序列排比的常用数据库搜索工具用法：以一个或几个蛋白质或核酸序列为检测序列，搜索蛋白质或核酸序列数据库，寻找与检测序列中一个或多个片段具有较高相似性的一组序列，复习：二进位制与十进位制的转换(101.101)2=122+021+120+12-1+02-2+12-30.,BLAST的操作流程How,(1)Choose the sequence(query)(2)Select the BLAST program(3)Choose the database to search(4)Choose optional parametersThen click“BLAST”,NP_006735,Step 1:Choose your sequence,三种主要的输入方式：剪切然后粘贴DNA或蛋白质序列使用FASTA格式的序列简单地使用索引号码(如一个RefSeq或GenBank(GI)的序号)。Sequence can be input in FASTA format or as accession number,Example of the FASTA format for a BLAST query一个FASTA格式的序列以一个单行的说明开始，接下来是若干个行的序列数据。,在一个BLAST搜索中输入accession number通常要容易些。BLAST程序可以识别和忽略出现在你的输入序列字母中间的数字。,Step 2:Choose the BLAST program,Step 2:Choose the BLAST program,blastn(nucleotide BLAST)blastp(protein BLAST)tblastn(translated BLAST)blastx(translated BLAST)tblastx(translated BLAST),Step 2:Choose the BLAST program,blastn(nucleotide BLAST)：将一个核酸的查询序列与一个核酸序列数据库相比较。blastp(protein BLAST)：将一个氨基酸的查询序列与一个蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索相关的可选参数，如对各种PAM和BLOSUM打分矩阵的选择。tblastn(translated BLAST)：将一个蛋白质查询序列与一个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行比较。可以用此程序来判断一个DNA数据库是否编码所感兴趣的查询蛋白。用RBP查询是否可以在某个已测序的DNA数据库中找到匹配项呢？,Step 2:Choose the BLAST program,blastx(translated BLAST)：将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。如若有一个DNA序列，想知道它编码什么蛋白质，用此程序进行搜索。它会自动将DNA翻译成6种可能的蛋白质。然后此程序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的各个成员进行比较。tblastx(translated BLAST)：将一个核酸查询序列的6种框架的翻译结果与一个核酸序列数据库的6种框架翻译产物进行比较。该程序不能使用BLAST网页上提供的主要的去冗余(nr)数据库，因这一操作很消耗计算机资源。,Choose the BLAST program,ProgramInput Database 1blastnDNA DNA 1blastpprotein protein 6blastxDNA protein 6tblastnprotein DNA 36tblastxDNA DNA,DNA potentially encodes six proteins,5 CAT CAA 5 ATC AAC 5 TCA ACT,5 GTG GGT 5 TGG GTA 5 GGG TAG,5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 33 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5,Step 3:choose the database,BLAST搜索可使用的数据库会列在每一个BLAST页面上，对于蛋白质数据库搜索(blastp和blastx)，两个主要的选择即nr数据库和SwissProt。nr=non-redundant(most general database)dbest=database of expressed sequence tagsdbsts=database of sequence tag sitesgss=genomic survey sequenceshtgs=high throughput genomic sequence,Step 3:choose the database,nr数据库是合并了若干个主要的蛋白质或DNA数据库得到的。这些数据库中经常包含有相同的序列，但nr数据库只收录其中的一个序列(即使在nr数据库中出现看上去一样的序列，实际上还是具有一些细节上的区别)。nr数据库是在要搜索现有的绝大多数序列时典型和常用的数据库。,去冗余GenBank编码序列PDB+SwissProt+PIR+PRF,当确定了要输入的序列和要搜索的数据库之后，还有10个其他的可选参数要确定。Limit by Entrez Query：任何NCBI BLAST 搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定。,Step 4a:选择可选的搜索参数Select optional search parameters,Step 4a:选择可选的搜索参数Select optional search parameters,Step 4a:选择可选的搜索参数Select optional search parameters,Max target sequences：比对之后显示的最大的比对序列的数目。,Step 4a:选择可选的搜索参数Select optional search parameters,Step 4a:选择可选的搜索参数Select optional search parameters,期望expect：期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。对于blastn、blastp、blastxt和blastn期望值的默认设置是10。在这个E值下，随机出现得分等于或高于比对得分S的期望数为10个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时，返回的数据库搜索结果将变少，匹配被搜索到的概率也会变小。增大E值将返回更多的结果。,Step 4a:选择可选的搜索参数Select optional search parameters,Step 4a:选择可选的搜索参数Select optional search parameters,Step 4a:选择可选的搜索参数Select optional search parameters,字段长度word size：BLAST程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为“word”,即字)的联配得分总和来决定。联配时，“字”的每个碱基均被计分：如果碱基对完全相同(如A与A)，得某一正值；如果碱基对不很匹配(W与A或T)，则得某一略小的正值；如果两个碱基不匹配，则得一负值。总的合计得分便决定了序列间的相似程度。,对于蛋白质搜索，窗口大小可以被设定为3(默认值)或者2。当用一个查询序列来进行数据库搜索时，BLAST算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的序列段(字段)。对于blastp，更大的字段长度将得到更高的搜索精度。对于任意的字段长度，每个字段的匹配结果将被延伸以得到BLAST的输出结果。实际应用中对于蛋白质搜索很少需要改变字段的长度。,对于核酸序列，默认的字段长度是11，BLAST的字长缺省值为11，即BLASTN将扫描数据库，直到发现那些与未知序列的11个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和几乎所有随机产生的显著联配。它可以被增大(15)或减小(7)。降低字段长度将会使搜索变得更准确同时也会变得更慢。,Step 4a:选择可选的搜索参数Select optional search parameters,矩阵matrix：对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵：PAM30,PAM70,BLOSUM45,BLOSUM62(默认值)以及BLOSUM80.一些其他的BLAST服务器还提供了很多其他的替代矩阵，如PAM250。通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵。,Step 4a:选择可选的搜索参数Select optional search parameters,PAM1矩阵：Dayhoff和同事利用可接受点突变的数据和每个氨基酸的发现频率产生突变概率矩阵M。矩阵元素Mij表示在一给定进化时期内氨基酸j(列)替换成氨基酸i(行)的概率。进化时期为一个PAM（PAM定义为进化趋异的单位，表示两个蛋白1%氨基酸发生变化的时间）。PAM1矩阵基于紧密相关蛋白质的比对，这些蛋白质家族内的序列一致程度至少有85%。除PAM1矩阵外的其他PAM矩阵是如何得来的？Dayhoff等用PAM1矩阵乘以自身数百次，得到其他PAM矩阵。如PAM250矩阵就是PAM1矩阵乘以自身250次产生，是BLAST搜索数据库的常用矩阵之一。,Step 4a:选择可选的搜索参数Select optional search parameters,Dayhoffs PAM1 mutation probability matrix,原始氨基酸,Each element of the matrix shows the probability that an originalamino acid(top)will be replaced by another amino acid(side),替代氨基酸,PAM250 mutation probability matrix,Top:original amino acidSide:replacement amino acid,PAM0矩阵：矩阵将成为单位矩阵，因没有氨基酸发生变化。PAM矩阵：PAM相当大(如PAM2000或矩阵和自己相乘无数次)。每种氨基酸等概率出现，每行的所有值都接近于一个数值，这个数值就是氨基酸的出现频率。,Step 4a:选择可选的搜索参数Select optional search parameters,Dayhoffs PAM0 mutation probability matrix:the rules for extremely slowly evolving proteins,Top:original amino acidSide:replacement amino acid,Dayhoffs PAM2000 mutation probability matrix:the rules for very distantly related proteins,G,8.9%,8.9%,8.9%,8.9%,8.9%,8.9%,8.9%,8.9%,Top:original amino acidSide:replacement amino acid,Step 4a:选择可选的搜索参数Select optional search parameters,Step 4a:Select optional search parameters,Step 4a:选择可选的搜索参数Select optional search parameters,Compositional adjustments：这个选项是默认选择的，一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)。,Step 4a:选择可选的搜索参数Select optional search parameters,选择过滤条件Filter：过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列)，用一系列N(NNNNNN)替代这些程序。N代表任意碱基(IUB-code)。只有未知待检序列被过滤替代，而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的，“Filter”项的缺省选项为ON。例如，多A碱基的尾部和脯氨酸富积的序列，会得到人为的高联配得分而误导分析。这是因为这类序列数量极大，遍布整个基因组，直至整个数据库。,Step 4a:选择可选的搜索参数Select optional search parameters,选择过滤条件Filter：过滤选项的调整对于BLAST搜索的结果将会产生显著的影响。当使用blastp nr来查询一个人类富含脯氨酸的蛋白质(NP_036522)时，会得到8个数据库中的匹配项，而其中两个具有统计显著性。而当关掉过滤选项后，就会得到包含其他一些富含脯氨酸的蛋白质在内的23个匹配。一般来讲，过滤可以帮助避免那些假的数据库匹配，但在某些情况下一些可信的匹配也可能会被过滤掉。,Step 4a:选择可选的搜索参数Select optional search parameters,filtering,以一种富含脯氨酸的人类唾液蛋白NP_036522作为查询项使用blasstp nr进行搜索的结果。该蛋白质的大部分没有在数据库中的匹配，这是由于该蛋白的中间区域被默认的过滤功能给过滤掉了,关掉过滤选项后搜索的结果。这次得到了更多的与在蛋白质的全序列范围内相匹配的数据库返回结果。第一个比对显示了该蛋白极度富含脯氨酸的特点,NCBI blast now offers masking as lowercase/colored,Entrez!,Filter,Scoring matrix,Word size,Expect,Step 4a:选择可选的搜索参数Select optional search parameters,BLAST:optional parameters,You can.choose the organism to search turn filtering on/off change the substitution matrix change the expect(e)value change the word size change the output format,Step 4b:选择可选格式参数optional formatting parameters,BLAST搜索有很多控制输出格式的参数：Alignment view Descriptions Alignments,Step 4b:选择可选格式参数optional formatting parameters,BLAST搜索结果的顶部顶部提供关于该搜索的详细信息:BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类。,database,program,query,taxonomy,结果网页,taxonomy,Step 4b:选择可选格式参数optional formatting parameters,BLAST搜索结果的中间部分显示的是数据库中序列与查询序列相匹配的项的列表。简明图形提供了用不同颜色表示的搜索结果的概况。图下面的每一个条带表示数据库中的一个与查询序列相匹配的蛋白质或核酸序列，被标以不同颜色表示亲缘关系的远近(根据比对的分)，最接近匹配用红色表示。每条线的长度对应于该序列与查询序列比对上的区域大小。所有比对用一个被称为“描述”的单行小结列表描述。按照E值增加的顺序排列。显著性最强的匹配将位于顶端。,结果的图示输出数据库序列的列表,High scoreslow e values,Step 4b:选择可选格式参数optional formatting parameters,BLAST搜索结果的靠下面部分显示的是一系列的两两序列比对可检查查询序列（输入序列）与对象序列（如和查询序列比对的的特定的数据库匹配）之间的比对情况。4种衡量的分数：比特分数、期望分数、一致性百分比、正性(相似性百分比),Step 4b:选择可选格式参数optional formatting parameters,可以不用整体地进行BLAST搜索而仅通过改变格式选项来提供一些不同的输出结果一些选项可以把比对序列显示成多序列比对的形式，这对于确定一个蛋白质或DNA家族中的保守的或趋异的氨基酸残基非常有用。,BLAST format options,BLAST format options,threshold score=11,EVD parameters,BLOSUM matrix,Effective search space=mn=length of query x db length,10.0 is the E value,gap penalties,cut-off parameters,如何评价搜索结果的显著性如何处理过多的结果如何处理过少的结果多结构域蛋白HIV-1 pol的BLAST 检索BLAST 检索脂质运载蛋白 lipocalins:改变打分矩阵的作用,BLAST 搜索的一些策略,BLAST搜索策略总图.,视黄醇结合蛋白,如何评价搜索结果的显著性同源性是基于由搜索结果的统计评估支持的序列相似性推出的。指认基因或蛋白质之间的相似性的问题不能单靠序列分析解决，还需要使用生物学上的标准来支持同源性的推导。可用对于蛋白的结构和功能的评估来补充BLAST的结果。真正有亲缘关系的蛋白质的序列可以有很大的差别，即使是那些有相近三维结构的蛋白质。因此，认为数据库搜索和蛋白质比对可能会得出一定数量的假阴性匹配。如脂质运载蛋白家族很多成员如RBP4和气味分子结合蛋白OBP只有非常有限的序列一致性，但它们的三维结构关系非常近，而且它们作为疏水性配体的载体的功能也被认为是相同的。,BLAST 搜索的一些策略,Sometimes a real match has an E value 1,Sometimes a similar E value occurs for a short exact match and long less exact match,决定两个蛋白质或DNA序列是否同源，可问下面的问题：期望值究竟是不是显著？两个蛋白质是不是具有近似的大小？实际上同源蛋白质不要求具有相同的大小，两个蛋白质可能只共享有限的一个相同的结构域。但是，产生一个对两个蛋白质同源的可能性的生物学上的直觉是非常重要的。比如一个1000个氨基酸具有跨膜结构域的蛋白质不太可能与RBP蛋白同源，因绝大多数脂质运载蛋白长度都近似200aa(20-25kD)。,如何评价搜索结果的显著性,决定两个蛋白质或DNA序列是否同源，可以问下面的问题：这两个蛋白是否有共同的基序或信号序列？是。孕激素相关子宫内膜蛋白和RBP4蛋白都含有一个GXW载脂蛋白标签。这两个蛋白质是不是一个合理的多序列比对的一部分？这两个蛋白质是否共有一个相似的生物学功能？就像所有的载脂蛋白一样，这两个蛋白都是小的、亲水性的含量丰富的分泌分子。这两个蛋白质是否具有相似的三维结构？虽然载脂蛋白序列多种多样，它们却共享一个显著的非常保守的结构。这个结构(一个杯状的盂)可使它们将疏水性配体运输通过一个水环境区间。,载脂蛋白,如何评价搜索结果的显著性,决定两个蛋白质或DNA序列是否同源，可以问下面的问题：如果BLAST搜索得到一个对另一个蛋白质的边缘匹配，以这个具有较远亲缘关系的蛋白质作为查询项再进行一次新的搜索。如用孕激素相关子宫内膜蛋白进行blastp nr搜索可得到一些在RBP4蛋白的搜索中也检测到的蛋白。这个发现增加了认为这两个蛋白实际上是一个蛋白超家族中的同源成员的信心。,载脂蛋白,如何评价搜索结果的显著性,Assessing whether proteins are homologous,RBP4 and PAEP:Low bit score,E value 0.49,24%identity(“twilight zone”).But they are indeed homologous.Try a BLAST search with PAEP as a query,and find many other lipocalins.,The universe of lipocalins(each dot is a protein),retinol-binding protein,odorant-binding protein,apolipoprotein D,BLAST search with PAEP as a query finds many other lipocalins,如何处理过多的结果在“limit Entrez query”窗口输入“refseq”，这样所有返回结果都带有一个refseq号，可去掉冗余的数据库匹配结果。利用生物体的种类对数据库返回结果作出限制。利用序列的一部分进行搜索。如利用独立的结构域序列就可进行多结构域蛋白的检索。调整打分矩阵使其更恰当地体现你的query和数据库匹配之间的相似度。调整期望值。降低E值可减少返回的数据库中的匹配项。,BLAST 搜索的一些策略,如何处理过少的结果很多基因或蛋白在数据库中没有或只有极少数的匹配项。当新的微生物基因组测序完成时，预测到的蛋白质有一半不和其他任何蛋白相匹配。用于提高BLAST搜索得到的数据库匹配项数目的策略：去掉Entrez限制，提高期望值，尝试更高PAM值或更低BLOSUM值的打分矩阵。还可从更多附加数据库中搜索。在NCBI站点上，可搜索所有可提供的数据库如HTGS和GSS，很多基因组序列中心保存着不同的数据库可通过BLAST 进行搜索。,BLAST 搜索的一些策略,多结构域蛋白HIV-1 pol的BLAST 检索,BLAST 搜索的一些策略,Searching with a multidomain protein,pol,使用HIV-1 pol进行blastp nr搜索得到了非常多的看上去像是HIV-1变体的数据库匹配，这里所有显示的E值都是0。这个结果掩盖了那些不是来自HIV-1的可能的匹配,使用HIV-1 pol进行blastp nr搜索的部分结果。这种平铺并与查询序列一起列出的结果输出格式表示出了那些被置换的氨基酸残基以及那些保留的不变氨基酸残基,Searching bacterial sequences with pol,将搜索范围限制在细菌中时使用HIV-1 pol进行blastp nr搜索的结果。图形化的BLAST搜索结果使很容易确定HIV-1中那些具有细菌中同源物的区域。,Searching bacterial sequences with pol,由一个使用使用HIV-1 pol进行blastp nr搜索确定的细菌蛋白质。包括转座酶和核酸酶H蛋白。,BLAST 检索脂质运载蛋白 lipocalins:改变打分矩阵的作用默认的scoring matrice 是BLOSUM62，若使用适合关系较近蛋白的PAM矩阵，将得到更少的结果。,BLAST 搜索的一些策略,BLOSUM62,PAM30,PAM70,当使用PAM30时亲缘关系较远的蛋白如载脂蛋白D会得到很差的打分。PAM70矩阵被设计来从数据库中找到更多的亲缘关系较远的匹配，得到的一些蛋白在使用PAM30或BLOSUM62 矩阵时都是没有出现的,作业,气味分子结合蛋白(odorant-binding protein,OBP)在大鼠中被发现，并作为牛的一种脂质运载蛋白，可选择性结合气味分子。找到这种大鼠蛋白的序列号，检索最相近的人类同源物，它是什么。并把这两种蛋白的pairwise alignment结果贴出来，并写出其identity百分比和similarity百分比。,谢谢！,

注意事项

本文（《数据库的搜索》PPT课件.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。