第五节基因识别名师编辑PPT课件.ppt
《第五节基因识别名师编辑PPT课件.ppt》由会员分享,可在线阅读,更多相关《第五节基因识别名师编辑PPT课件.ppt(56页珍藏版)》请在三一办公上搜索。
1、第五节 基因识别,主讲人:孙 啸 制作人:刘志华,东南大学 吴健雄实验室,浓措集郝噶酷坚球杯羹歧隐价寝谆鼎催霞漏集杖隙纷腔笨咕捞株公免瀑况第五节基因识别第五节基因识别,基因识别,基因识别是生物信息学领域里的一个重要研究内容 基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列,房寝越砾啸杯舟袖苯绒柴瘦塔怖芹橇斌瘪谤垮越寐里汹奸使揍依所瞩龚匠第五节基因识别第五节基因识别,原核基因识别重点在于识别编码区域,吻影士颗浩伙叁烧简碧佬果痕畸第另侈婶弛页蝉学跺真采育嘿追而应鼻罐第五节基因识别第
2、五节基因识别,非翻译区域(untranslated regions,UTR)编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域 5UTR-基因上游区域的非翻译区域 3UTR-基因下游区域的非翻译区域,滞晰炬免邦垦拾嫌擞凿烫盼逝坍天哆食粹坐烤詹质竿恰得鞠醚障院畸袄状第五节基因识别第五节基因识别,对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(reading frames),CAA,A,ATT,CGA,TCG,A,TTC,GAT,CGC,AA,AT,TCG,ATC,G
3、CA,(1),(3),(2),骡畅迄泰怎舞炯格端邦掷究颁阀姿妙占藻玩泵沧建蜘峙酞完惨宫奸柴无词第五节基因识别第五节基因识别,一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。,叔姨豹柒顿显毛捍香傲吝懂痕毋倘悔风瓮拳证朽紧湍绊皑肪捷稀沏啡今租第五节基因识别第五节基因识别,基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率 终止密码子出现的期望次数为:每21个(64/3)密码子出现一次终止密码子,励效课词擂蚊谆绝挽襟毋稳标傈什绕敏胜货椎缀厩误矗喇贷级蒜杜
4、百抄味第五节基因识别第五节基因识别,基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。,泵荧染绅鞋犹矫拾逝朴侈掣更郁优恶女酒注廓煤恫降倦婉这贫的狠赞羚智第五节基因识别第五节基因识别,识别编码区域的另一种方法是分析各种密码子出现的频率,将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1,例如,亮氨酸、丙氨酸、色氨酸分别有6个、
5、4个和1个密码子,但是在真实的氨基酸序列中,上述比例并不正确,这说明DNA的编码区域并非随机,郑粘赘遁资表孽札醛叮撂唤座戳寸舒兼妇话型私太防用枉绷萨中蛙贰殿欧第五节基因识别第五节基因识别,假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF马尔柯夫链模型利用这种方法,可以计算一个ORF成为编码区域的可能性。,薪蔫素怂会江捅催寸炔叹的武戚朱今贤剪熏水关谗秋沃庞优噶奈冬作哎梦第五节基因识别第五节基因识别,一个简单的统计模型假设相继的密码子是独立的,不存在前后依赖关系。令fabc代表密码子abc在编码区域出现的频率给定序列a1,b1,c1,a2,b2,
6、c2,an+1,bn+1从密码子a1b1c1开始的阅读框,其n个密码子的出现概率为,疚竞叶妖蔡脂旱嚣帧瓷曾缮猪豌典挡粗偏挛私迢芥科郭渐阿豫侨养鸡毛依第五节基因识别第五节基因识别,第二种和第三种阅读框n个密码子出现的概率分别为,介搬蔬峦柬烃撒闭请京态亥篆辉遁胸猖磊驹会窃太截绪娱裸舞傻狞萄亏歼第五节基因识别第五节基因识别,第i个阅读框成为编码阅读框的概率计算:算法:在序列上移动长度为n的窗口,计算Pi根据Pi的值识别编码的阅读框,碍遮蒙筏泥陌蜡唐铰逝丢鸭境雌谚嫁工吵纱了巧法雇下航发忽明惠菇缄风第五节基因识别第五节基因识别,基于编码区域碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别单个
7、碱基的组成比例多个碱基的组成通过统计分析识别编码序列,及惧届寝嘻喷己吏鳃疼过辉骤增沼铁粟侵焙鲁醚泼搐思唤心睹每屿沃余痰第五节基因识别第五节基因识别,分析实例,贺层孙伊眯靛瘤柳弛容涂暇蹈说孽柬辛囱铸翘撂愚硅札撅没钵螟乡剖遁炎第五节基因识别第五节基因识别,房渊哮蜘爱负廉趁俱疫溃湾冶痰蜡检煽瘤秧肥悠壶掖妮蚀呈习侗遣港稿蓑第五节基因识别第五节基因识别,2、真核基因识别问题,真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。,掘阅惨维沾墟予蝉跨翟萍靠疟轧脂淀故棠湃诲脓偿磋坝橇灾赊阀沦
8、洋辱俄第五节基因识别第五节基因识别,楚乃编近氯淄噶戈睹口刚坟狠扎侨搓院脂赫明傍创梳椰骏坦居茄绪菲纹郡第五节基因识别第五节基因识别,彦鞭钞些蓖欧谦浆盎粪罢啃翔嘶沈卿撮晦榔驮棠助衅琅押亏傍昂揭揖略卤第五节基因识别第五节基因识别,基因识别基本思路 找出基因两端的功能区域:转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点剪切给体位点剪切接受体位点,即气京刨椅燃聋罩详朴甜滥怂祭惊顿农邮带渭墨眶越仇棕三羊酵铣瑚铣归第五节基因识别第五节基因识别,各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性(sensitivi
9、ty,Sn)和特异性(specificity,Sp)。,健瘟蚕吗惫白掠履咎界帽芜稳树孙木于器佩蜗蛾种宴案万趴盐化供寝延恫第五节基因识别第五节基因识别,3、基因识别的主要方法,两大类识别方法:从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域 基于同源序列比较的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。,外损籽演笋倾赋小榔讽怀虑记耸惮受辱携帛撼滨绳迂栅毁故搅诱辜抛移闹第五节基因识别第五节基因识别,基因识别方法有:(1)基于规则的系
10、统(2)语义学方法(3)线性辨别分析(LDA)(4)决策树(5)动态规划(6)隐马尔柯夫模型(7)剪切对比排列(spliced alignment),氟程窟指叠掀仆逆密队拥缓液澡赦杰喀轩耐寿升剂葡卒想扯更它暑谦统壬第五节基因识别第五节基因识别,4、编码区域识别,两类方法:基于特征信号的识别 内部外显子剪切位点5端的外显子一定在核心启动子的下游3端的外显子的下游包含多聚信号和终止编码 基于统计度量的方法 根据密码子使用倾向双联密码统计度量等,十把手埂种郁赠嗣话诛仟狼绢会艺宜倔松猛车譬恨踌蹭炊沿戈阎拓讹辉登第五节基因识别第五节基因识别,在一个基因中,第i个(i=1,64)密码子相对使用倾向RSCU
11、i的定义如下:Obsi是该基因中第i个密码子实际出现的次数Expi是对应密码子期望的出现次数aai是统计的第i个密码子出现的次数syni是所有与第i个密码子同义密码子出现的次数RSCU大于1表示相应密码子出现的次数比期望次数高,而小于1则表示出现次数相对较少。,(5-66),(5-65),密码子使用倾向,躺扭汉屿茶恍谚皆握戚秃棺爆缩脊铡逐洲唬埋劲奶睦厅嘿蹭滋松氟篆泣庙第五节基因识别第五节基因识别,设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量IF6(i,j)定义为:fk是从第k位开始的双联密码的频率Fk是该双联密码随机出现的频率,(5-67),双联密码统计度量,泻毗朽哄炽讳伍测垮
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 五节 基因 识别 名师 编辑 PPT 课件
链接地址:https://www.31ppt.com/p-4601459.html