第六章 基因组信息分析ppt课件.ppt
《第六章 基因组信息分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第六章 基因组信息分析ppt课件.ppt(144页珍藏版)》请在三一办公上搜索。
1、第六章 基因组信息分析,1、基因组DNA的奥秘 遗传信息存贮在4种字符组成的核酸序列中“天书”用遗传语言书写的人类遗传蓝本包含的信息量巨大更重要的是目前人类对它了解甚少天书中只有4个字符(碱基A、T、G、C)既没有段落,也没有标点符号是一个长度为3109的一维序列。,第一节 关于遗传语言,科学家对这本天书了解最多的部分就是遗传密码或者说掌握了DNA对蛋白质编码的规律 关于密码子(1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U,那么第三位将尽可能使用G、C;反之亦然。如果三位都用G、C,则配对容易,分解难;三位都用A、U,则相反。一般地说,高表达的基因,要求翻译速度快,要求密码
2、子和反密码子配对快、分手也快。,(2)密码子的使用有一定的统计规律 对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同 人类基因组:密码子第三位取A、U的情况占90%而第三位取G、C仅占10%密码子的使用偏性与基因功能、蛋白质结构相关,(3)密码子中的密码 三个碱基的位置与所编码的氨基酸性质存在着联系例如:芳香族氨基酸以U作为第一位碱基中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是A第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。,基因组信息人类基因组:编码区域只占1%-3%对于非编码序列,尚不清楚其含义或功能非编码
3、区域对于生命活动具有重要的意义 包括内含子、简单重复序列、移动元件、伪基因 重复序列:卫星(satellite)DNA小卫星(mini-satellite)DNA微卫星(micro-satellite)顺式调控元件:启动子、增强子、沉默子,2、探索遗传语言 用语言学的方法进行研究自然语言计算机程序设计语言遗传语言二进制序列0、1的长程关联性分析结果:编码区域 自然语言非编码区域 程序设计语言蛋白质编码区域所包含的信息相当于待加工的“数据”数据经过加工处理以后产生对应的蛋白质;而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成,用密码学方法进行研究是否存
4、在其它密码?调控信息密码?蛋白质结构的密码?编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育,3、关于生物复杂性生物的复杂性不仅仅是基因的数目人类基因约为30000个线虫有20000个基因,230000/220000=210000103000,4、基因组计划带来的希望 实验数据的积累速度在迅速地增加 计算机科学和技术也在不断地发展,单个基因组分析基因序列基因功能基因的表达调控基因产物基因多态性,比较基因组分析物种关系物种进化物种起源,人、鼠基因组比较,人基因组 鼠基因组 鼠染色体上的颜色和数字代表在人染色体上对应的片段.,老鼠约75%的基因与人类相同。,第二节 DNA序列分析,DN
5、A序列分析基因序列基因表达调控信息 寻找基因牵涉到两个方面的工作:识别与基因相关的特殊序列信号预测基因的编码区域结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。,一、DNA序列分析步骤和分析结果评价,在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。,发现重复元素
6、,数据库搜索,分析功能位点,序列组成统计分析,综合分析,一个基本的DNA序列分析方案,功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。两个集合:训练集(training set)用于建立完成识别任务的数学模型。测试集或控制集(control set)用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。,收集已知的功能序列和非功能序列实例(这些序列之间是非相关的),训练集(training set),测试集或控制集(control set)
7、,建立完成识别任务的模型,检验所建模型的正确性,对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。,进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。,识别“功能序列”和“非功能序列”的过程,Sn 敏感性Sp特异性Tp是正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。,敏感性和特异性的权衡,对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。对于敏
8、感性和特异性需要进行权衡,给出综合评价指标。,对于一个识别程序准确性可按下式进行综合评价:另一个综合评介指标为相关系数,其计算计算公式为:,选择训练集和测试集在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集 测试集的构成非常关键在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。建立标准的功能序列测试集合。如基因转录剪切位点的测试集合、编码区域的测试集合等。,二、核苷酸关联分析,对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的出现频率各为0.25。而真实基因组的核苷酸分
9、布则是非均匀的,酵母基因组核苷酸出现频率,在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。,单链核苷酸出现频率,基因和其它功能区域在正反两条链上出现的可能性通常一样,核苷酸出现频率也不应该有偏差,正反两条链在信息的组织结构方面不应该有差别,单链上A和T、C和G的出现频率相近。,正反两条链碱基互补的原则,单链上A和T、C和G的出现频率相近的解释,两联核苷酸频率,不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸,酵母基因组两联核苷酸频率表,对酵母基
10、因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.119而出现频率最低的只有0.028,令:Pij 代表两联核苷酸(i,j)的出现频率 Pi 代表核苷酸i的出现频率 则:Pij=Pij/(PiPj)的值反应核苷酸i和j的关联关系 如果Pij=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。,关联性分析,对于酵母基因组 PA=0.3248 PAA=0.1193 PAA=0.1193/(0.3248*0.3248)=1.131 1 表明在两个连续位置上“A”的出现不是独立的,而是相关的。,关联性分析,同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性
11、。假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k)I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度,三联核苷酸基因密码子,在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。在基因中,同义密码子的使用并不是完全一致的。不同物种、不同生物体的基因密码子使用存在着很大的差异,基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系 蛋白的三级结构与密码子使用概率有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六章 基因组信息分析ppt课件 第六 基因组 信息 分析 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2134005.html