生物信息技术应用分子序列比对分析.ppt
《生物信息技术应用分子序列比对分析.ppt》由会员分享,可在线阅读,更多相关《生物信息技术应用分子序列比对分析.ppt(66页珍藏版)》请在三一办公上搜索。
1、生物信息技术应用,分子序列比对分析,Sequence alignment,Contents,序列比对的应用,序列数据库,基本类型:初级数据库 收录、存储序列的基本数据资源,如核酸(蛋白质)序列、蛋白质空间结构及基因组信息。次级数据库 在初级库资源基础上进行整理和标注,为特定专业领域服务的派生数据库,如表达序列标记、微列阵(基因芯片)、代谢和信号途径、遗传疾病数据库、免疫数据库等等。,核酸序列数据库,以核苷酸顺序及注释信息为基本内容的数据库世界三大核酸数据库GenBank in USA(http:/)EMBL in Europe(http:/)DDBJ in Japan(http:/)1998年
2、,GenBank,EMBL,DDBJ共同成立国际核酸序列数据库协会(INSDC,http:/),实现了全球范围内的核酸序列的同步更新和交换互享。,蛋白质序列数据库,以蛋白质氨基酸顺序及注释信息为基本内容的数据库世界主要蛋白质序列数据库(1)PIR-PSD(Protein information resource-protein sequence database)founded by NBRF of USA(美国国家医学研究基金会)in 1984(http:/)1988年,日本国际蛋白质信息库(JIPID)和德国慕尼黑蛋白质序列信息中心(MIPS)加入PIR,合作成立了国际蛋白质信息中心(PI
3、R-International)。PIR为较全面和权威注释的蛋白质数据库,具有非冗余、高质量注释和分类全面等特点。,蛋白质序列数据库,世界主要蛋白质序列数据库(2)SwissProt 1986年始创于瑞士日内瓦大学,现由瑞士生物信息学研究所(SIB)和欧洲生物信息学研究所(EBI)共同管理和维护。(http:/)SwissProt数据库的特点:所有序列条目经过专家核实,可靠性与可信度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译后修饰及其位点、突变体等,蛋白质序列数据库,世界主要蛋白质序列数据库(3)TrEMBL(translation of EMBL)建立于1996年,是从EMBL
4、中的cDNA序列翻译得到的蛋白质数据库。相似的还有GenPept(GenBank)数据库。TrEMBL、GenPept数据库的特点:序列条目来自核酸序列库的翻译,即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都较高。,蛋白质序列数据库,全球统一的蛋白质序列与功能数据库UniProt(Universal Protein Resource,通用蛋白质资源)(http:/)2002年,PIR、SIB、EBI合并了分属其下的PIR-PSD、Swiss-Prot和TrEMBL数据库,形成了统一的蛋白质数据库UniProt截止2008年8月,UniProt共收录蛋白质序列 6,462,751个
5、,生物大分子结构数据库,以生物大分子各原子空间信息为基本内容的数据库给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构?信息来源:对蛋白质晶体的X射线衍射、核磁共振及冷冻电镜分析主要数据库:美国Brookhaven国家实验室的PDB(Protein Data Bank,1971年成立)联合MSD-EBI、PDBj,于2003年组建全球共享的worldwide PDB(wwPDB)(http:/)截止2008年8月,共收录蛋白质结构52684个,Research Collaboratory for Structural Bioinformatics,http:/,GenBank,Natio
6、nal Center for Biotechnology Information(NCBI)National Library of MedicineNational Institutes of Healthhttp:/,GenBank,http:/,全球著名的生物信息综合数据库 GenBank(1982年成立)包含所有已知的核苷酸及蛋白质序列以及与之相关的生物学信息和参考文献,现由美国生物技术信息中心(NCBI,成立于1988年)管理维护,是世界上的权威序列数据库。数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发行的数据库,如EMBL,DDBJ交换每日更新的数据。,Gen
7、Bank,GenBank 核酸数据库的增长(1982-2008),截止2008年2月,GenBank 共收录核酸序列近8300万条,约860亿碱基对,来自26万余种生物,GenBank,http:/Home page,NCBI 数据库检索系统 Entrez,Entrez为基于万维网的NCBI数据库检索系统,通过输入关键词,运用布尔算符,可在NCBI所有数据库中进行文本搜索。,NCBI 数据库检索系统 Entrez,Entrez为基于万维网的NCBI数据库检索系统,通过输入关键词,运用布尔算符,可在NCBI所有数据库中进行文本搜索。,NCBI 数据库检索系统 Entrez,Entrez 应用举例
8、,检索主题:小鼠(mouse)转录因子(TF)-E2F mRNA的核酸序列检索过程:NCBI主页All Databases在Search对话框输入关键词”E2F”,点”Go”输出检索结果。,Entrez 应用举例,输出相关序列3784条,有待进一步筛选:限制物种来源(小鼠 Mus musculus)、限制分子为mRNA(排除未经实验验证的预测序列)。,Entrez 应用举例,最后命中168条,从中选中NM_148952,以待详细分析。,Entrez 应用举例,NM_148952:小鼠E2F转录因子-4。,序列文件格式:FASTA 格式,标题行:文件的第一行,以大于号“”开始,不换行。内容可自定
9、义,包括基本信息和简单注释;序列行:文件第二行起至结束,中间不得有空格。FASTA为最简单的序列(核酸或蛋白质)格式,序列文件格式:GenBank 格式,GenBank 格式注释信息丰富全面,属文本文件,包括4部分:头部:含名称、定义、识别码、物种来源等基本信息;引文区:含相关文献信息。序列特征表:含序列的编码区、非编码区、功能域、修饰或突变位点、翻译序列等众多注释信息序列区:序列本身,GenBank 格式,Locus 行信息:Locus name;Sequence length;Type of Molecule:DNA,mRNA,cDNA Taxonomy:PRI primate(灵长类)、
10、ROD rodent(啮齿类)、MAM-other mammalian(其它哺乳类)、VRT-other vertebrate(脊椎动物)、INV invertebrate sequences、PLN-plant,fungal,and algal;BCT-bacterial;VRL-viral,PHG-bacteriophage,SYN-synthetic;UNA-unannotated;EST-expressed sequence tags Date:上传或最近修改时间,GenBank 格式,GenBank 格式,GenBank 格式,/,成对序列比对与BLAST工具,序列比对概念:通过比较
11、两个或两个以上的核酸(蛋白质)序列,显示其中相似的结构区域。成对序列比对(pairwise sequence alignment)多重序列比对(multiple sequence alignment)功能:(1)“相似”的序列“相似”的三维结构;(2)“相似”的序列“相似”的功能;(3)“相似”的序列 共同的进化起源,序列比对是序列分析(结构、功能与进化关系)的基础,序列比对相关概念,相似性(Similarity):序列间相同碱基或氨基酸残基所占比例的高低,是直观的数量关系,是序列间匹配程度的直接测度。同源性(Homology):核酸或蛋白质序列间具有共同起源,是依据进化事实的因果判断。直系同
12、源(orthology):经由物种分离事件形成的存在于不同物种中的结构及功能相似的序列旁系同源(paralogy):经由基因复制而演化形成在同一生物体的一系列结构及功能相似的序列序列的相似与序列的同源之间无必然的因果关系(相似并不一定同源),但存在一定的相关性(足够的相似性往往意味着同源关系的存在),成对序列比对,用于两个核酸(蛋白质)序列间相似性比较,是生物信息学的基本技术,是多重比对的基础。The process of lining up two sequences to achieve maximal levels of identity(or conservation,in the c
13、ase of amino acid sequences)for the purpose of assessing the degree of similarity and the possibility of homology.,DNA、蛋白质序列比对,Query:181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240|Sbjct:189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247,RBP:26 RVKENFDKARFSGTWY
14、AMAKKDPEGLFLQDNIVA 59+K+GTW+MA+L+A glycodelin:23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKA 55,成对序列比对,全局比对(global alignment)比较结果包含所比较序列全长范围内所有位点的比对,适用于整体相似水平高的同源序列,在分子系统学中常用。局部比对(local alignment)仅对相似水平较高的 局部片段进行比对,多用于分子结构和功能域研究。,成对序列比对举例,视黄醇结合蛋白(RBP)与水解牛乳蛋白(-lactoglobulin)的比对结果,完全相同区,部分相似区,identity,Similari
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息技术 应用 分子 序列 分析
链接地址:https://www.31ppt.com/p-6001812.html