计算机在生物学中的应用课件.ppt
《计算机在生物学中的应用课件.ppt》由会员分享,可在线阅读,更多相关《计算机在生物学中的应用课件.ppt(183页珍藏版)》请在三一办公上搜索。
1、Excel计算和作图;序列数据应用于试验室技术改良(8);第一章、生物信息数据库(12)第二章、数据库检索(25)第三章、序列比对(30) 一 序列比对策略(31);二 算法(34) ;三 序列双重比对(42) ;四 多序列比对(47)。第四章 在系统发生分析中的应用(51)第五章、生物信息学在基因组构建中的应用;一 基因的识别和鉴定(62)二 蛋白质功能的预测(73) ;三 蛋白质结构预测(78) ;四 基因组中非编码区的研究(96) ;五 人类基因组多样性计划(102) 。第六章、计算机在其他方面的应用(107);药物开发(110)。第七章、生物信息学在组学中的应用;一 基因组学研究(11
2、9);二 功能基因组研究(128) ;三 蛋白质组研究(137) ;四 蛋白质的功能确定(140);五 代谢组(142);六 网络研究(145);七 细胞计划(157) 。第八章、生物医学信息资源(160),计算机在生命科学和生物技术中的应用,计算机是生物研究的工具。为了了解计算机工具在生物研究中的应用,首先需要了解生物研究的现状。基因决定论 由于DNA双螺旋结构的发现,基因决定论成为主要观点。人们尝试寻找决定生物功能的基因,但是受到挫折。,一是由于美国能源部用30多年研究“核辐射对人类基因突变作用”,未取得实质性突破进展,受害者已表现 出明显的突变性状,但检测不出其基因突变与对照组存在显著性
3、差异。二是美国于1975年巨额投资启动的“肿瘤十年计划”基本以失败告终。 R. Dulbecco 于1986在science上发表癌症研究的转折点:测序人类基因组,认为要彻底阐明癌症的发生、演进、侵袭和转移的机制,必须对人体细胞的基因组进行全测序。美国政府与1990年正式启动HGP。,基因组学 由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,在研究遗传、发育、进化、功能调控等基本生物学问题方面,基因组学关注的是基因组整体的作用,而不是个别基因。功能基因组学(后基因组学)的中心任务是通过了解基因组表达与环境的关系,以及其在基本生物学方面和人类健康和疾病相关的生物医
4、学问题方面的意义。后基因组学转录组学:关注mRNA的组成和细胞功能的关系。,蛋白质组学:其中心任务是通过比较不同时间或不同细胞的蛋白质组成,以揭示蛋白质变化的生物学意义。结构基因组学:了解蛋白质三维结构与蛋白质功能的关系。蛋白质相互作用网络:了解蛋白质相互作用。代谢组学:其中心任务是通过比较不同时间或不同细胞的小分子组成,揭示生物学意义。系统生物学:以一个理论模式为基础,与基因组学和蛋白质组学的表现进行比较,判断生物在分子水平上复杂的相互作用。,生物学发展的展望W. Gilbert (80年诺贝尔化学奖)91年专门在“nature”撰文讨论生物学研究形式的变化: 正在兴起的新的范式在于,所有的
5、基因将被知晓(在可用电子方式从数据库里读取的意义上),今后生物学研究项目的起点将是理论的。一位科学家将从理论猜测开始,然后才转向实验去继续或检验该假设。 新的范式:从机理出发,推论在一定条件下细胞的表现,再用实验去验证。 现代,生物学已分为两个部分:,试验生物学:传统的、依靠实践发现事物的性质和活动规律的学科。 研究对象是组成生物体的元件。研究手段是物质分离和检测技术。当前主要在于建立高通量检测技术。理论生物学:根据事物已知性质和活动规律推导其可能性质和活动规律的学科。 研究对象是生物体整体。研究手段是逻辑分析和推导。计算机作为生物研究的工具,在前期生物学研究工作中作为计算和存储工具起辅助作用
6、。在当前生物学研究工作中作为数据处理工具。 数据处理是高通量检测技术和理论生物学研究的主要方法。产生生物信息学。,一 Excel的功能:表格处理;图表功能;数据库管理功能。1 图表制作建立图表,激活和修改图表项。2 计算引用:相对引用(=(a1-b1)/c1*d1) 绝对引用($ a$1-$b$1)/$c$1*$d$1 )函数:chitest(检验相关性);slope(斜率);intercept(截距)。二 化学做图: ISIS DRAW2的应用下载软件:www.bio-,计算机辅助工具的运用,生物信息学,背景:1 数据分析技术的发展:1962年Zuckerkandl和Pauling将序列变异
7、分析与其演化关系联系起来,开辟了分子演化的研究领域;1964年Davies开创了蛋白质结构预测研究;1970年Needoeman和Wunsch发表了两序列比较算法;1974年Ratner运用理论方法对分子遗传调控系统进行分析;1975年Pipas和McMahon用计算机技术预测二级结构。1976年后生物学数据分析技术大量涌现。2 人类基因组计划产生了大量基因信息(图0),生物信息学(bioinformatics):利用计算机技术并参照现代信息技术,对生物信息进行储存、检索和综合分析。及一是对海量数据的收集、整理与服务。二是使用数据。生物信息学是把DNA序列分析作为源头,找到基因组序列中代表蛋白
8、质和mRNA的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。,生物信息学基本方法:1 数据库信息检索;2 用序列比对(alignment,对位排列)方法进行数据库序列检索;3 网络分析,计算机模拟。问题:你对生物信息学的认识,第一章 生物信息数据库,生物信息数据库分类保存各种生物信息,为大家提供计算机分析的基本材料。例文献数据库、序列数据库。一 信息中心:维护和提供数据库服务。 主要工作:在分子水平上应用数学和计算科学的方法研究基
9、础生物、医学问题;为科学和医学界开发、维护和分享一系列的生物信息学数据库;开发和促进生物信息学数据库、数据存储、交换以及生物学命名规则的标准化。,重要的生物信息中心:1 美国国家生物技术信息中心(NCBI) www.ncbi.nlm.nih.gov/ (管理着包括GenBank在内的一批数据库)2 欧洲生物信息学研究所(EBI) www.ebi.ac.uk/ (主网页,可链接到其他项目) www2.ebi.ac.uk (各种数据库和分析工具) www3.ebi.ac.uk (公众服务网页),3 日本核酸数据库(DDBJ):www.ddbj.nig.ac.jp/ 4 北京大学生物信息中心 (CB
10、I或PKUCBI,是EMBnet的中国节点,也是APBionet的中国节点) ,二 序列数据库,1 一级数据库:记录实验结果和初步的解释2 二级数据库:从一级数据库提取的信息构建的数据库 一级核酸序列数据库:(A)GenBank: www.ncbi.nlm.nih.gov/genband/ (B)EMBL(欧洲分子生物学实验室的DNA和RNA数据库): www.ebi.ac.uk/,(C)DDBJ(日本核酸数据库): www.ddbj.nig.ac.jp/ 翻译编码的DNA序列(根据ORF,数据库中搜索)(D)GeneBuilder:r.it/webgene/genebuilder.html(
11、E)上海生命科学中心: 一级蛋白质序列数据库:(A) PIR-PSD:序列来自于GenBank/EMBL/ DDBJ的编码序列的翻译、文献中的和用户,直接提交的序列。目前最大的公共蛋白质序列数据库。衍生出iProClass(描述蛋白质家族的关系及结构/功能特征),还有PIR-NREF ,PIR-ASDB,IESA,PIR-NRL3D,RESID,PIR-ALN等其他辅助数据库。 pir.georgetown.edu/pirwww/(B)SWISS-PROT/TrEMBL:经注释的蛋白质数据库。每个条目包括蛋白质序列、引用文献、分类学信息、注释等。注释包括蛋白质功能、转录后修饰位点、特殊位点和区
12、域、二级结构、四级结构、与其他序列的形式性、序列残缺与疾病的关系、序列变异体等信息。 www.expasy.org/swissprot/,二级核酸序列数据库CUTG:密码子使用频度表 www.dna.affrc.go.jp/nakamura/CUTG.html EPD:真核生物启动子数据库 www.epd.isb-sib.ch/OOTFD:转录因子和基因表达数据库 www.ifti.org/ RepBase:真核生物DNA中重复序列数据库 www.firinst.orf/server/repbase.html MPDB:外显子和内含子数据库 www.biotech.ist.unige.it/i
13、nterlab/mpdb.html,三 专门研究的数据库,HGMD(可用于预测基因疾病): www.uwcm.ac.uk/medical_genetics/research/hgmd/ PDD(人类体液中蛋白质与疾病关系): www-lmmb.ncifcrf.gov/pdd/HIV(爱滋病分子免疫学): hiv-web.lanl.gov/immunology/immuno-main.html WIT(重构代谢) :wit.ics.anl.gov/wit2/ CSNDB(细胞信号网络):geo.nihs.go.jp/csndb/,AgDB(农业数据库和信息资源总清单):www.agnic.org
14、/agdb/ PharmGKB( 药物遗传学和药物基因组学):www.pharmgkb.org/ GBIF(全球生物多样性信息机构):www.gbif.org/linkfram.htm 四 模式生物数据库模式生物:,人(Homo sapiens); 小鼠(Mus musculus); 大肠杆菌(Escherichia coli); 酿酒酵母(Saccharomyces cerevisiae); 果蝇(Drosophila melanogaster):遗传; 秀丽线虫(Caenorhabitedis elegans):只有约千个细胞的动物,研究RNAi的模式生物; 海胆(Strongylocen
15、trotus purpuratus):研究发育和基因调控的模式生物; 拟南芥(Arabidopsis thaliana):生活周期6周的十字花科植物,研究植物的模式生物。,1 各种生物信息中心2 大肠杆菌K12完全基因组序列: www.genetics.wisc.edu/pub/3 MYGD(酵母基因组蛋白质和同源关系数据库) www.mips.biochem.mpg.de/proj/yeast/4 BDGP(果蝇基因组中心): www.fruitfly.org/,五 其他数据库,1 PubMed:生物医学文献数据库2 OMIM(Online Mendelian inheritance in
16、Man):保存所有已知的人类生物学和疾病信息的数据库3 GeneCard:www.genecard.org/ 保存注释过(定性)基因的数据库4 LocusLink:同3,六 数据库目录,1 核酸研究(每年第一期是数据库专集) :www.nar.oupjournals.org/2 NAR (核酸研究数据库总汇) :www3.oup.co.uk/nar/databse/3 DBcat (法国生物信息中心):www.infobiogen.fr/services/dbcat/4 nature(介绍基因组测序进展的新闻): www.nature/genomics问题:生物信息数据库的作用,第二章 数据库
17、检索,一 序列数据库检索1 序列检索工具:Entrez:Batch Entrez (批处理) ,NCBI提供的集成检索工具。可以通过一次检索而查询到多个子系统中的所有信息。 主页面有两个窗口1) 下拉式菜单:选择14个数据库2) 搜索:关键词、作者、杂志、名、物种、检索号等。3) 查询结果右上角的link表示与其他数据库的超级连接。,SRS:Sequence Retrieval System,EBI的检索工具。有三种查询方式:1)Quick Sequence:快速查询。选择数据库查关键词。2) Standard:标准查询。由用户限定查询条件。3) Extended:扩展查询。可以将输入关键词的
18、查寻范围限定在物种、说明、作者、文献等范围内,也可以先定日期和序列长度。,二 序列文件的格式,1 GBFF格式( GenBank flatfile, GenBank平面文件)。 (图 1,图2,图3)BACs(bacterial artificial chromosomes)细菌人工染色体:携带人类基因DNA片段的细菌载体YACs(yeast artificial chromosomes)酵母人工染色体:携带人类基因DNA片段的酵母载体STS(sequence tagged site)序列标签位点:染色体上独特的DNA序列短片段ESTs(expressed sequence tags)表达序列
19、标签:cDNA 5端的短片段,2 FASTA格式 : 第一行:打头的文字说明,主要为标记序列用。第二行开始是序列,每行不超过80个字母(核酸大小写均可,氨基酸一般大写)。由于FASTA没有特殊的结束标志,建议最后留一空行。gi | 1293613 | gb | U49845 | SCU49845 Saccharomyces cerevisiae TCP-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsgatcct ,3 EPD格式和PDB数据格式: (图4)问题:自己设计一个检索路径。,第
20、三章 序列比对,用户提交一个核酸或蛋白质序列,同指定数据库的全部序列做比较,寻找一个得分最高(或代价最小)的比对。通过相似序列的种类和功能,确定其种类和功能。序列比对的基本思想基于一条分子生物学规则:当两个分子享有相似的序列时,由于进化关系和物理化学限制,它们将很有可能具有相似的三维结构和生物学功能。,一 序列比对策略:分两种(图5)1 最简单的操作:提交一个核酸或蛋白质序列,同一级数据库的序列做比较,人工判断同源性。基本原则:寻找一个最佳对齐方式。2 基于知识的预测:将已知样本抽象成代表序列-结构或序列-功能相关性的经验规则,由其判断同源性(如motif库)。此方法的首要任务是找出可以扩展到
21、结构和功能性质的序列特征。,两条序列相似程度的量化表示:相似度(表示相似程度的函数);距离(表示不相似程度的函数,有海明距离和编辑距离)代价(cost)或权重(weight): w(a,a)= 0 w(a,b)= 1 (a w(a,-)= w(-,b)= 1 得分(score):p (a,a)= 1 p (a,b)= 0 (ab) p (a,-)= w(-,b)= -1,例1:两条字符串AIMS和AMOS的最佳对齐方式 A I M S A MOS 例2:两个氨基酸序列ARRSG和ARKTVG。 ARRS G ARKTVG,二 算法:,1 点阵分析:用两条序列为X和Y轴构建二维矩阵,用点表现两条
22、序列的相似部分。点所包含的片段长度叫窗口,匹配长度叫相似度阈值。2 动态规划算法:最优对位排列方法 对两个序列a=a1a2an和b=b1b2bn,当S=S(a1a2ai,b1b2bi)时有: Sij= maxSi-1, j-1+s(ai , bj), max (Si-x, j+Wx), max(Si, j-y+Wy) Sij:ij位置的分值;s(ai , bj): Sij的打分分值; Wx :长度为x的空位(间隔)罚分。,蛋白质打分矩阵: PAM1矩阵:根据71组相似性在85%以上的蛋白质序列中的1572种变化来估计氨基酸在蛋白质进化中被替换的预期频率。设为表现每108年一个突变的替换频率(假
23、定每一个特定位点的每一个变化都是独立的)。 不同的PAM 矩阵可应用于不同相似性水平序列比对。例:PAM 250、PAM120、 PAM80和PAM60分别用于1427%、40%、50%、和60%相似性的序列比对。 PAM250由PAM1自乘250次产生,代表25亿年中250%的预期变化水平。(PAM250的矩阵,图7),打分矩阵:,BLOSUM矩阵:在有500个蛋白质家族的数据库(PROSITE)中针对2000个保守氨基酸模式进行替换频率鉴定。 具有60%同一性的模式聚在一起构造一个矩阵就是BLOSUM60,依此类推。 PAM模型可用于寻找蛋白质的进化起源,BLOSUM模型可用于发现蛋白质的
24、保守域。核酸打分矩阵: PAM矩阵 单位矩阵:相同碱基为1,不同为0。 转换-颠换矩阵:相同碱基为正1分,转换为-1分,颠换为-5分。,在不知道序列间的相似性大小时,需用H(相对平均信息量)判断选择合适的矩阵。一般来说,若其他因素相同,H值高的合适。 20 i H=qij*Sij i=1 j=1 q:每个氨基酸对出现的频率,S:每个氨基酸对的分值(以log2为单位,称比特bit)。空位罚分:wx=g+rx 或 wx=g+r( x 1) 。 g:空位窗,单个空位的罚分;r:空位扩展罚分,多个空位的追加罚分;x:空位长度。,A 全局比对:全局比对是两条序列从头到尾的比对,有Needleman-Wu
25、nsch算法。 第一步:用两条序列为X和Y轴构建二维矩阵,矩阵中只有元素S0,0=0,从S0,0开始,对每一个位点赋值。赋值由出发点的分值+打分(罚分)组成。在所有路径中选分最高的。 第二步:当矩阵中所有位点的赋值完成后,从最高分值位点回溯,找出的分值最高的路径就是最优化的序列对位排列方式。(图6),B 局部比对:是一条序列的片断与一条完整序列之间的比对,有Smith-Waterman算法。 对于矩阵中所有j,令D0,j=0,对于矩阵中所有i,令D0,i=0,就可能实现两条序列的局部比对。这对于在由多个区域组成的序列中发现多个匹配有用。C 高分值片段对(HSP)判断: P(Sx)=1-exp(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 生物学 中的 应用 课件
链接地址:https://www.31ppt.com/p-1596212.html