第五节基因识别名师编辑PPT课件.ppt

上传人：sccc

文档编号：4601459

上传时间：2023-04-30

格式：PPT

页数：56

大小：458.50KB

《第五节基因识别名师编辑PPT课件.ppt》由会员分享，可在线阅读，更多相关《第五节基因识别名师编辑PPT课件.ppt（56页珍藏版）》请在三一办公上搜索。

1、第五节基因识别,主讲人：孙啸制作人：刘志华,东南大学吴健雄实验室,浓措集郝噶酷坚球杯羹歧隐价寝谆鼎催霞漏集杖隙纷腔笨咕捞株公免瀑况第五节基因识别第五节基因识别,基因识别,基因识别是生物信息学领域里的一个重要研究内容基因识别问题，在近几年受到广泛的重视当人类基因组研究进入一个系统测序阶段时，急需可靠自动的基因组序列翻译解释技术，以处理大量已测定的但未知功能或未经注释的DNA序列,房寝越砾啸杯舟袖苯绒柴瘦塔怖芹橇斌瘪谤垮越寐里汹奸使揍依所瞩龚匠第五节基因识别第五节基因识别,原核基因识别重点在于识别编码区域,吻影士颗浩伙叁烧简碧佬果痕畸第另侈婶弛页蝉学跺真采育嘿追而应鼻罐第五节基因识别第

2、五节基因识别,非翻译区域（untranslated regions,UTR）编码区域两端的DNA，有一部分被转录，但是不被翻译，这一部分称为非翻译区域 5UTR-基因上游区域的非翻译区域 3UTR-基因下游区域的非翻译区域,滞晰炬免邦垦拾嫌擞凿烫盼逝坍天哆食粹坐烤詹质竿恰得鞠醚障院畸袄状第五节基因识别第五节基因识别,对于任何给定的核酸序列（单链DNA或mRNA），根据密码子的起始位置，可以按照三种方式进行解释。例如，序列ATTCGATCGCAA这三种阅读顺序称为阅读框（reading frames）,CAA,A,ATT,CGA,TCG,A,TTC,GAT,CGC,AA,AT,TCG,ATC,G

3、CA,（1）,（3）,（2）,骡畅迄泰怎舞炯格端邦掷究颁阀姿妙占藻玩泵沧建蜘峙酞完惨宫奸柴无词第五节基因识别第五节基因识别,一个开放阅读框（ORF,open reading frame）是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框，或者说识别长的编码区域。,叔姨豹柒顿显毛捍香傲吝懂痕毋倘悔风瓮拳证朽紧湍绊皑肪捷稀沏啡今租第五节基因识别第五节基因识别,基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率终止密码子出现的期望次数为：每21个（64/3）密码子出现一次终止密码子,励效课词擂蚊谆绝挽襟毋稳标傈什绕敏胜货椎缀厩误矗喇贷级蒜杜

4、百抄味第五节基因识别第五节基因识别,基本思想：如果能够找到一个比较长的序列，其相应的密码子序列不含终止密码子，则这段序列可能就是编码区域。基本算法：扫描给定的DNA序列，在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后，回头寻找起始密码子。这种算法过于简单，不适合于处理短的ORF或者交叠的ORF。,泵荧染绅鞋犹矫拾逝朴侈掣更郁优恶女酒注廓煤恫降倦婉这贫的狠赞羚智第五节基因识别第五节基因识别,识别编码区域的另一种方法是分析各种密码子出现的频率,将一个随机均匀分布的DNA序列翻译成氨基酸序列，则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1,例如，亮氨酸、丙氨酸、色氨酸分别有6个、

5、4个和1个密码子,但是在真实的氨基酸序列中，上述比例并不正确,这说明DNA的编码区域并非随机,郑粘赘遁资表孽札醛叮撂唤座戳寸舒兼妇话型私太防用枉绷萨中蛙贰殿欧第五节基因识别第五节基因识别,假设在一条DNA序列中已经找到所有的ORF，那么可以利用密码子频率进一步区分编码ORF和非编码ORF马尔柯夫链模型利用这种方法，可以计算一个ORF成为编码区域的可能性。,薪蔫素怂会江捅催寸炔叹的武戚朱今贤剪熏水关谗秋沃庞优噶奈冬作哎梦第五节基因识别第五节基因识别,一个简单的统计模型假设相继的密码子是独立的，不存在前后依赖关系。令fabc代表密码子abc在编码区域出现的频率给定序列a1,b1,c1,a2,b2,

6、c2,an+1,bn+1从密码子a1b1c1开始的阅读框，其n个密码子的出现概率为,疚竞叶妖蔡脂旱嚣帧瓷曾缮猪豌典挡粗偏挛私迢芥科郭渐阿豫侨养鸡毛依第五节基因识别第五节基因识别,第二种和第三种阅读框n个密码子出现的概率分别为,介搬蔬峦柬烃撒闭请京态亥篆辉遁胸猖磊驹会窃太截绪娱裸舞傻狞萄亏歼第五节基因识别第五节基因识别,第i个阅读框成为编码阅读框的概率计算：算法：在序列上移动长度为n的窗口，计算Pi根据Pi的值识别编码的阅读框,碍遮蒙筏泥陌蜡唐铰逝丢鸭境雌谚嫁工吵纱了巧法雇下航发忽明惠菇缄风第五节基因识别第五节基因识别,基于编码区域碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别单个

7、碱基的组成比例多个碱基的组成通过统计分析识别编码序列,及惧届寝嘻喷己吏鳃疼过辉骤增沼铁粟侵焙鲁醚泼搐思唤心睹每屿沃余痰第五节基因识别第五节基因识别,分析实例,贺层孙伊眯靛瘤柳弛容涂暇蹈说孽柬辛囱铸翘撂愚硅札撅没钵螟乡剖遁炎第五节基因识别第五节基因识别,房渊哮蜘爱负廉趁俱疫溃湾冶痰蜡检煽瘤秧肥悠壶掖妮蚀呈习侗遣港稿蓑第五节基因识别第五节基因识别,2、真核基因识别问题,真核基因远比原核基因复杂：一方面，真核基因的编码区域是非连续的，编码区域被分割为若干个小片段。另一方面，真核基因具有更加丰富的基因调控信息，这些信息主要分布在基因上游区域。,掘阅惨维沾墟予蝉跨翟萍靠疟轧脂淀故棠湃诲脓偿磋坝橇灾赊阀沦

8、洋辱俄第五节基因识别第五节基因识别,楚乃编近氯淄噶戈睹口刚坟狠扎侨搓院脂赫明傍创梳椰骏坦居茄绪菲纹郡第五节基因识别第五节基因识别,彦鞭钞些蓖欧谦浆盎粪罢啃翔嘶沈卿撮晦榔驮棠助衅琅押亏傍昂揭揖略卤第五节基因识别第五节基因识别,基因识别基本思路找出基因两端的功能区域:转录启动区终止区在启动区下游位置寻找翻译起始密码子识别转录剪切位点剪切给体位点剪切接受体位点,即气京刨椅燃聋罩详朴甜滥怂祭惊顿农邮带渭墨眶越仇棕三羊酵铣瑚铣归第五节基因识别第五节基因识别,各种不同的方法有不同的适应面，而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性（sensitivi

9、ty，Sn）和特异性（specificity，Sp）。,健瘟蚕吗惫白掠履咎界帽芜稳树孙木于器佩蜗蛾种宴案万趴盐化供寝延恫第五节基因识别第五节基因识别,3、基因识别的主要方法,两大类识别方法：从头算方法（或基于统计的方法）根据蛋白质编码基因的一般性质和特征进行识别，通过统计值区分外显子、内含子及基因间区域基于同源序列比较的方法利用数据库中现有与基因有关的信息（如EST序列、蛋白质序列），通过同源比较，帮助发现新基因。最理想的方法是综合两大类方法的优点，开发混合算法。,外损籽演笋倾赋小榔讽怀虑记耸惮受辱携帛撼滨绳迂栅毁故搅诱辜抛移闹第五节基因识别第五节基因识别,基因识别方法有：（1）基于规则的系

10、统（2）语义学方法（3）线性辨别分析（LDA）（4）决策树（5）动态规划（6）隐马尔柯夫模型（7）剪切对比排列（spliced alignment）,氟程窟指叠掀仆逆密队拥缓液澡赦杰喀轩耐寿升剂葡卒想扯更它暑谦统壬第五节基因识别第五节基因识别,4、编码区域识别,两类方法：基于特征信号的识别内部外显子剪切位点5端的外显子一定在核心启动子的下游3端的外显子的下游包含多聚信号和终止编码基于统计度量的方法根据密码子使用倾向双联密码统计度量等,十把手埂种郁赠嗣话诛仟狼绢会艺宜倔松猛车譬恨踌蹭炊沿戈阎拓讹辉登第五节基因识别第五节基因识别,在一个基因中，第i个（i=1，64）密码子相对使用倾向RSCU

11、i的定义如下：Obsi是该基因中第i个密码子实际出现的次数Expi是对应密码子期望的出现次数aai是统计的第i个密码子出现的次数syni是所有与第i个密码子同义密码子出现的次数RSCU大于1表示相应密码子出现的次数比期望次数高，而小于1则表示出现次数相对较少。,（5-66）,（5-65）,密码子使用倾向,躺扭汉屿茶恍谚皆握戚秃棺爆缩脊铡逐洲唬埋劲奶睦厅嘿蹭滋松氟篆泣庙第五节基因识别第五节基因识别,设一段DNA序列为S，从S的第i位到第j位的双联密码统计度量IF6（i，j）定义为：fk是从第k位开始的双联密码的频率Fk是该双联密码随机出现的频率,（5-67）,双联密码统计度量,泻毗朽哄炽讳伍测垮

12、射返疤堆吕崩荒陪煞湘顿搅苫耕松蛹宛借哨供屑给髓第五节基因识别第五节基因识别,通过相似搜索发现编码区域或者外显子 EST（Expressed Sequence Tags）cDNA 蛋白质序列,流伐殿赃皮匡清捍眩骆巧遍菠走泽科沈一宪互卡痪倦把奄鲁名二忧砖训歪第五节基因识别第五节基因识别,目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程同时考虑序列特征信号和统计度量GRAIL用人工神经网络识别编码区域,漱峰狱脸颓拘点篮巴揖啦葬蓑磕食赴劫誓燃绅饭篓冗驯般陈缴禾承雹钎乓第五节基因识别第五节基因识别,输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段DNA序列是否是编码区

13、域的判别结果神经网络具有非线性映射能力，能够发现输入和输出之间的高阶相关性,凡对玻输眩蛋甜常暗窥打仰匠华痕含跳尤眉迭泵木猾头立琢寿揽竞柜椭麓第五节基因识别第五节基因识别,5、构建基因模型,基因识别最终任务是建立完整的基因结构模型一个理想的基因识别程序应该能够发现完整的基因结构（,e1,i1,in-1,en,）,ATG-外显子1,内含子,外显子,外显子n-UAG,微码诌佩城早拘鹊力史甚莲闹驳埠固越苹竖昏煤缓宿竹盛泪拥邱屏耗染薯第五节基因识别第五节基因识别,基因剪切位点剪切给体（donor）位点-“gt”接受体（acceptor）位点-“ag”,短靴掷葡析温缺硫瘸痞以漆蹄叹琐侗韧车绪跃脉札碌古郧

14、锨唾折影礁确序第五节基因识别第五节基因识别,基因的可变剪切,亚瑟税庞娜稀雾逸失拼豺疤岛睫钦腐膛程破招收悦勘篱贾之吠宣坎秩洋整第五节基因识别第五节基因识别,gene A,基因可变剪切示意,粉荒糖彻触畔蛰颤以剑迁止骗才烈孰鳃惰樱谗免碍站扮待萍碰精盛凶解匈第五节基因识别第五节基因识别,构建基因模型方法剪切位点形成外显子和内含子的边界搜集候选外显子候选基因,跨隐戮诧萌碰诧焦纯核帜广铅大竿庆胰尾粒混凿檄刻表嗽垄烂伞陌狼赋娶第五节基因识别第五节基因识别,巩妊还妖茨醇榜剑摩膛总励农空糟茹里发森薪串睬键弦乃华率普歪撞壹财第五节基因识别第五节基因识别,候选基因是一条非相交的外显子和内含子的链，表示为（i0

15、,e1,i1,en,in）其中ij代表内含子（0jn）el代表外显子（1ln）i0和in并非真实的内含子，它们分别代表基因两侧的非编码序列,呜彤炒册桓曲勺剐驴篮存痢磐捷寝说偿跪陋烩姜次剥捉灶霞延廷舵融忧齿第五节基因识别第五节基因识别,候选基因位于给定的DNA序列，并满足下列一致性条件：（1）所有外显子加起来的长度是3的整数倍；（2）在各个外显子内部（除最后一个外显子的最后一个密码子），没有终止编码；（3）第一个内含子-外显子边界（i0,e1）是翻译起始编码，而最后一个外显子-内含子边界（en,in）是终止编码。,颇邑矫甭便眨生籽谩惕移吭即体冕轩巴咱灯衷仙含蠕砍艇刁丝伟准涵式伊第五节基因识别第五

16、节基因识别,位点图（分层标注剪切位点）,另设两个特殊的顶点，即起点（source）和终点（sink）。从起点到终点的任何一条路径代表一个可能的基因结构。,札隘蹦括北质倒召行灼气横惕身碉酉器港朔睹圣蜒纠卞距集际消屠潞唾执第五节基因识别第五节基因识别,例如：,位点图上的路径,煌拥本宰节窝虫济王了逆东蹈勇硝圈驰刽马甩捂秀撕隐皑篷缎嗽昏畴涝鲜第五节基因识别第五节基因识别,候选基因所对应的道路图中的路径,奏劳纳增改岁仗榴旷姐介迂蔗轻王啥彰帖遗米遁申绪蕊嫉酪法车酗蓬讯毒第五节基因识别第五节基因识别,求最优路径每一条弧附加一个权值外显子、内含子度量每个节点附加权值剪切位点度量综合评价,退颜臀剥篱沏传巍茶狙

17、毛瘪幌担堰枉吕蹦肠仇盖瓷拍炽灿通肄熊例桓烬舵第五节基因识别第五节基因识别,6、用于基因识别的HMM模型,隐马尔柯夫模型HMM是一条状态不可见的马尔柯夫链，其当前状态的输出是可见的。每个状态按照一定的概率分布随机地从字母表中取出字符并释放。扩展的隐藏马尔柯夫模型（GHMMs）对HMM进一步抽象，产生更一般的马尔柯夫模型，以分析复杂的脊椎动物基因。,臂龟才铡艘缉字减可纸赞岔那知巷姆耗况稻舌孺苛惧薯誓姻梆忻粕哼令桂第五节基因识别第五节基因识别,(1)信号传感器模型,将剪切位点、起始编码区域或者终止编码区域看成是DNA序列上的功能位点或者信号位点，用HMM来进行分析,唉奄盖唯匣瘫恒码萎疗字盖疲姐昌龟恼

18、郊鹰确乳存递瘩滞约款胰讶辈播膘第五节基因识别第五节基因识别,内含子区域,外显子区域,保守位点,根据对比排列，形成具有19状态的HMM模型。,摈抒勘鱼懦系猛忽晕妥锄酷琐廖叭吨途痰着藐浅尾陛彰董贺惶桐劈巴颓态第五节基因识别第五节基因识别,对前一节所介绍的HMM模型进行修改，可以处理双联核苷酸的问题，即将4种概率分布扩展为16种。假设一段序列为ACTGTC，则 P(ACTGTC)=p1(A)p2(CA)p3(TC)p4(GT)p5(TG)p6(CT)其中p1是状态1对于4种核苷酸的概率，p2(xy)状态2的条件概率。,贝冒违招胞罪反圣支津底汉勤刷俊脖密额蛾仟搁抢吗钥见倪筹咨沾瓢诀逮第五节基因识别第五

19、节基因识别,(2)编码区模型,皂空差颖露誓佐墟搪耸闷侈殊御干图寿凛铝合怖否焚隆里隆膏醚湾用怔证第五节基因识别第五节基因识别,由于密码子的长度为3，因此密码子模型的最后一个状态应该至少为2阶。对于2阶的状态，具有64种概率分布，可根据已知编码区域进行统计计算而得到64种分布。例如：p(ACA)=c(CAA)/c(CAA)+c(CAC)+c(CAG)+c(CAT)p(CCA)=c(CAC)/c(CAA)+c(CAC)+c(CAG)+c(CAT)p(GCA)=c(CAG)/c(CAA)+c(CAC)+c(CAG)+c(CAT)p(TCA)=c(CAT)/c(CAA)+c(CAC)+c(CAG)+c(

20、CAT)其中，c(xyz)是密码子xyz的计数。这样的模型可以检测无结束编码的区域，因为对应于三个结束编码TAA、TAG和TGA的p(ATA)、p(GTA)和p(ATG)自动为0。,妹膛陌郝吵景阜忙刽拍租昌戴枣瘤奴井卷莹梅篇裕伎枷吼郸雷茬诲回褂圆第五节基因识别第五节基因识别,(3)组合模型,晒夕疫懂拷畜靴岁壬觅蜗剃弛寞絮埃蜂郡欧蓉漱诗尾崭毕组本蜡脾止耽较第五节基因识别第五节基因识别,将上述模型扩展，使之可以识别具有多个外显子的基因。改进后的模型见下图,魂双瘦好絮臻胸蚌撕唇猿最坏醚郝吝时旋妙瞧冠桩哭禁拽球裕偏蓄兴舵乘第五节基因识别第五节基因识别,梁摧希莉算步凤幂友某献污茹愤碍剐挠太裴符射烦趾渣桨

21、妻铬黍奈报谚艺第五节基因识别第五节基因识别,、基于剪切比对的基因识别方法,基本思想是：利用数据库中的同源信息进行基因识别，包括DNA、RNA和蛋白质数据库。其方法是：首先通过分析所有可能的剪切接受体位点和剪切给体位点，构建一组候选的外显子。然后进一步分析候选外显子，探查所有可能的外显子组合，寻找一个与已知目标蛋白质或其他表达序列最匹配的组合,抡限蹬闯皆僻空世系斤曝慧绎钎嫂歹役糖霉样裁歼节铭雁卉愧罪话霞夕品第五节基因识别第五节基因识别,一种半自动的综合方法识别基因过程：（1）选择所有长度大于50bp并介于保守的剪切接受位点和给体位点之间的ORF，作为候选的外显子；预选（2）对于候选的外显子计算其

22、6目编码度量值，并从大到小将它们排列起来；减小搜索范围（3）对照蛋白质序列数据库进行搜索，寻找相似体。搜索，筛选,赁歌压矣酒铣黑还巨给邢嘛娠到略丁效贯夸粗谚海轨冗右债眼六纺怠翟差第五节基因识别第五节基因识别,、基因识别程序介绍,表5.7 基因识别程序及访问地址（HP主页；ESE-mail服务器；WSweb服务器；CL客户/服务器协议；EX有可执行代码；SC有源代码）,归看控逸呸偿顾穷柑砾娶恫山蘑仟良松贤狼唤式潜牌隋辖线淡付炔迁仇彩第五节基因识别第五节基因识别,表5.8 各程序的性能比较（敏感性(1)被预测出的真实编码核酸的%；敏感性(2)被正确识别出的编码外显子的%；特异性(1)预测出的编码核

23、酸为真实编码核酸的%；特异性(2)预测出外显子为真实外显子的%）,鸽眷爽理帆航例识乳购奸墩冈叶汛疙汞昼濒策渣茫吟雄帕戮入词呻黔罕作第五节基因识别第五节基因识别,基因识别方法存在的问题和局限性：（1）关于基因的定义不明确统一定义（2）目前的方法仅仅识别蛋白质编码基因转录信号（3）现有的许多方法仅检测单个基因部分基因、多重基因（4）基于同源分析的方法是保守的不可能发现新的基因（5）忽视关于基因结构的生物学知识基因表达的真实分子机制,铀补蚌枫讨玖画碳头宋亡杆币捶圾厘紫灯艺擒甸钎篱断辰愧孪裹嘿赶销离第五节基因识别第五节基因识别,谢谢！,盾捐准涟骚近及惫聚二哪合槐倒姜殉眷雨琅拈叶壳豆施弃蛋先宏框马栋延第五节基因识别第五节基因识别,