欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第六章 基因组信息分析ppt课件.ppt

    • 资源ID:2134005       资源大小:10.47MB        全文页数:144页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第六章 基因组信息分析ppt课件.ppt

    第六章 基因组信息分析,1、基因组DNA的奥秘 遗传信息存贮在4种字符组成的核酸序列中“天书”用遗传语言书写的人类遗传蓝本包含的信息量巨大更重要的是目前人类对它了解甚少天书中只有4个字符(碱基A、T、G、C)既没有段落,也没有标点符号是一个长度为3109的一维序列。,第一节 关于遗传语言,科学家对这本天书了解最多的部分就是遗传密码或者说掌握了DNA对蛋白质编码的规律 关于密码子(1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U,那么第三位将尽可能使用G、C;反之亦然。如果三位都用G、C,则配对容易,分解难;三位都用A、U,则相反。一般地说,高表达的基因,要求翻译速度快,要求密码子和反密码子配对快、分手也快。,(2)密码子的使用有一定的统计规律 对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同 人类基因组:密码子第三位取A、U的情况占90%而第三位取G、C仅占10%密码子的使用偏性与基因功能、蛋白质结构相关,(3)密码子中的密码 三个碱基的位置与所编码的氨基酸性质存在着联系例如:芳香族氨基酸以U作为第一位碱基中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是A第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。,基因组信息人类基因组:编码区域只占1%-3%对于非编码序列,尚不清楚其含义或功能非编码区域对于生命活动具有重要的意义 包括内含子、简单重复序列、移动元件、伪基因 重复序列:卫星(satellite)DNA小卫星(mini-satellite)DNA微卫星(micro-satellite)顺式调控元件:启动子、增强子、沉默子,2、探索遗传语言 用语言学的方法进行研究自然语言计算机程序设计语言遗传语言二进制序列0、1的长程关联性分析结果:编码区域 自然语言非编码区域 程序设计语言蛋白质编码区域所包含的信息相当于待加工的“数据”数据经过加工处理以后产生对应的蛋白质;而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成,用密码学方法进行研究是否存在其它密码?调控信息密码?蛋白质结构的密码?编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育,3、关于生物复杂性生物的复杂性不仅仅是基因的数目人类基因约为30000个线虫有20000个基因,230000/220000=210000103000,4、基因组计划带来的希望 实验数据的积累速度在迅速地增加 计算机科学和技术也在不断地发展,单个基因组分析基因序列基因功能基因的表达调控基因产物基因多态性,比较基因组分析物种关系物种进化物种起源,人、鼠基因组比较,人基因组 鼠基因组 鼠染色体上的颜色和数字代表在人染色体上对应的片段.,老鼠约75%的基因与人类相同。,第二节 DNA序列分析,DNA序列分析基因序列基因表达调控信息 寻找基因牵涉到两个方面的工作:识别与基因相关的特殊序列信号预测基因的编码区域结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。,一、DNA序列分析步骤和分析结果评价,在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。,发现重复元素,数据库搜索,分析功能位点,序列组成统计分析,综合分析,一个基本的DNA序列分析方案,功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。两个集合:训练集(training set)用于建立完成识别任务的数学模型。测试集或控制集(control set)用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。,收集已知的功能序列和非功能序列实例(这些序列之间是非相关的),训练集(training set),测试集或控制集(control set),建立完成识别任务的模型,检验所建模型的正确性,对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。,进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。,识别“功能序列”和“非功能序列”的过程,Sn 敏感性Sp特异性Tp是正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。,敏感性和特异性的权衡,对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡,给出综合评价指标。,对于一个识别程序准确性可按下式进行综合评价:另一个综合评介指标为相关系数,其计算计算公式为:,选择训练集和测试集在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集 测试集的构成非常关键在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。建立标准的功能序列测试集合。如基因转录剪切位点的测试集合、编码区域的测试集合等。,二、核苷酸关联分析,对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的出现频率各为0.25。而真实基因组的核苷酸分布则是非均匀的,酵母基因组核苷酸出现频率,在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。,单链核苷酸出现频率,基因和其它功能区域在正反两条链上出现的可能性通常一样,核苷酸出现频率也不应该有偏差,正反两条链在信息的组织结构方面不应该有差别,单链上A和T、C和G的出现频率相近。,正反两条链碱基互补的原则,单链上A和T、C和G的出现频率相近的解释,两联核苷酸频率,不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸,酵母基因组两联核苷酸频率表,对酵母基因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.119而出现频率最低的只有0.028,令:Pij 代表两联核苷酸(i,j)的出现频率 Pi 代表核苷酸i的出现频率 则:Pij=Pij/(PiPj)的值反应核苷酸i和j的关联关系 如果Pij=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。,关联性分析,对于酵母基因组 PA=0.3248 PAA=0.1193 PAA=0.1193/(0.3248*0.3248)=1.131 1 表明在两个连续位置上“A”的出现不是独立的,而是相关的。,关联性分析,同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性。假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k)I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度,三联核苷酸基因密码子,在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。在基因中,同义密码子的使用并不是完全一致的。不同物种、不同生物体的基因密码子使用存在着很大的差异,基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系 蛋白的三级结构与密码子使用概率有密切的关系通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。在不同物种中,类型相同的基因具有相近的同义密码子使用偏性对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小,三、功能位点分析,功能位点(functional site)与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。功能位点又称为功能序列(functional sequence)、序列模式(motif)、信号(signal)等。核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。,功能位点示意,基因组序列中若干个相邻的功能位点组合形成功能区域(functional region)。功能位点分析的任务发现功能位点特征识别功能位点,1、利用共有序列搜索功能位点,共有序列(consensus)又称一致性片段共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性 例如:NTATN 利用共有序列进行功能位点分析牵涉到两个方面的问题,如何构造共有序列如何利用共有序列在给定的核酸序列上搜索寻找功能位点,并计算所找到的功能位点的可靠性,共有序列具有以下几个方面的特征:(1)共有序列中既有保守的位置,也有可变的位置;(2)任何位置上的核苷酸可以用15种类型之一来表示:,核苷酸表示符号,共有序列构造过程:(1)初始化共有序列为一系列可变位置,以“N”代表;(2)在可变位置寻找出现次数最多的核苷酸,并将该位置转化为保守位置;(3)对当前所得到的共有序列进行特异性检查,若通过检查,转(5),否则转(4);(4)形成与当前共有序列一致的位点子集,转(2);(5)从原位点集合中删除与当前共有序列一致的位点,若还有剩余位点,则转(1),构造另外的共有序列。,TTATG,ATATA,TACGC,TTGTC,TCCAC,TTATG,ATATA,TACGC,TTGTC,TCCAC,TNNNN,tTATG,tACGC,tTGTC,tCCAC,tTATG,tACGC,tTGTC,tCCAC,TNNNC,1,2,3,4,2,3,N,N,N,N,N,T,N,N,N,N,非特异,T,N,N,N,C,非特异,tACGc,tTGTc,tCCAc,4,2,tACGc,tTGTc,tCCAc,3,TNSNC,特异,5,Consensus1:,TNSNC,剩余位点:,TTATG,ATATA,5,Consensus2:,NTATN,T,N,N,S,C,在给定的序列中搜索与共有序列一致的序列片段数据库搜索共有序列表示方法的缺点:是关于序列特征的一种定性描述,对于DNA序列,它能够说明序列每个位置可能出现的碱基类型,但是不能准确地说明各位置上不同类型碱基出现的可能性大小。,2、用感知矩阵分析功能位点,用权系数描述功能位点各位置上每种核苷酸的相对重要性感知矩阵(或加权矩阵)根据一系列功能位点的多重对比排列结果而建立的其大小为4n 4代表碱基的种类数目,n代表功能位点的长度,矩阵的每一个元素M(a,j)的值代表第a种核苷酸在功能位点第j个位置上出现的得分,a A,T,G,C。,感知矩阵示例,对于一个序列s=a1a2an,根据对应位置上核苷酸的类型,取感知矩阵中对应的权值,加和以后得到该序列的得分设S=ATTGCA,则 Ws=1+6+14-5+8+19=43 T功能位点阈值T非功能位点阈值如果Ws T,则S是功能位点;如果WsT,则S是非功能位点。,第三节 基因识别,基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列,The End,1、原核基因识别重点在于识别编码区域,非翻译区域(untranslated regions,UTR)编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域 5UTR-基因上游区域的非翻译区域 3UTR-基因下游区域的非翻译区域,对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(reading frames),CAA,A,ATT,CGA,TCG,A,TTC,GAT,CGC,AA,AT,TCG,ATC,GCA,(1),(3),(2),一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。,基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率 终止密码子出现的期望次数为:每21个(64/3)密码子出现一次终止密码子,基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。,识别编码区域的另一种方法是分析各种密码子出现的频率,将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1,例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子,但是在真实的氨基酸序列中,上述比例并不正确,这说明DNA的编码区域并非随机,假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF将每个ORF转换为相应的密码子序列,得到一个64个状态的马尔柯夫链。为每一个密码子分配一个状态,状态转换概率即为一个密码子跟随在其他密码子后面的概率。利用这种方法,可以计算一个ORF成为编码区域的可能性。,基于编码区域碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别单个碱基的组成比例多个碱基的组成通过统计分析识别编码序列,2、真核基因识别问题,真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。,基因识别基本思路 找出基因两端的功能区域:转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点剪切给体位点剪切接受体位点,3、基因识别的主要方法,两大类识别方法:从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域 基于同源序列比较的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。,4、编码区域识别,两类方法:基于特征信号的识别 内部外显子剪切位点5端的外显子一定在核心启动子的下游3端的外显子的下游包含多聚信号和终止编码 基于统计度量的方法 根据密码子使用倾向双联密码统计度量等,通过相似搜索发现编码区域或者外显子 EST(Expressed Sequence Tags)cDNA 蛋白质序列,5、构建基因模型,基因识别最终任务是建立完整的基因结构模型一个理想的基因识别程序应该能够发现完整的基因结构(,e1,i1,in-1,en,),ATG-外显子1,内含子,外显子,外显子n-UAG,gene A,基因可变剪切示意,6、基于剪切比对的基因识别方法,基本思想是:利用数据库中的同源信息进行基因识别,包括DNA、RNA和蛋白质数据库。其方法是:首先通过分析所有可能的剪切接受体位点和剪切给体位点,构建一组候选的外显子。然后进一步分析候选外显子,探查所有可能的外显子组合,寻找一个与已知目标蛋白质或其他表达序列最匹配的组合,7、基因识别程序介绍,表5.7 基因识别程序及访问地址(HP主页;ESE-mail服务器;WSweb服务器;CL客户/服务器协议;EX有可执行代码;SC有源代码),基因识别方法存在的问题和局限性:(1)关于基因的定义不明确 统一定义(2)目前的方法仅仅识别蛋白质编码基因 转录信号(3)现有的许多方法仅检测单个基因部分基因、多重基因(4)基于同源分析的方法是保守的不可能发现新的基因(5)忽视关于基因结构的生物学知识 基因表达的真实分子机制,THE END,

    注意事项

    本文(第六章 基因组信息分析ppt课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开