第十三章 计算表观遗传学课件.ppt
《第十三章 计算表观遗传学课件.ppt》由会员分享,可在线阅读,更多相关《第十三章 计算表观遗传学课件.ppt(117页珍藏版)》请在三一办公上搜索。
1、第十三章 计算表观遗传学,Computational Epigenetics,第一节 引言,一、 表观遗传学与计算表观遗传学二、 计算表观遗传学的研究内容三、 计算表观遗传学的方法和工具四、 计算表观遗传学的进展,第二节 基因组的DNA甲基化,一、CpG岛的DNA甲基化调控基因的表达(一) DNA甲基化与CpG岛 (二) 甲基化对转录的调控(三) DNA甲基化的意义,(一) DNA甲基化与CpG岛,DNA甲基化是一种发生在DNA序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。DNA甲基化是重要的表观遗传代码。,DNA甲基化,在哺乳动物中,大约60% 90%的CpG二核苷酸是甲基化的。C
2、pG中的p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。在哺乳动物细胞中,DNA甲基化主要发生在CpG二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-甲基-胞嘧啶,如图所示。,CpG岛与DNA甲基化的关系,CpG二核苷酸倾向于聚集成簇,这样的区域称作 CpG岛(CpG islands)。CpG岛的特点是GC的含量及CpG的含量非常高。CpG岛主要分布在基因的5非编码区、启动子和第一外显子区域,大约60%的基因的启动子含有CpG岛。这些区域的CpG二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化CpG带来高的突变率。,(二) 甲基化对转录的调控,DNA甲基化
3、影响转录的机制1. DNA甲基化阻碍转录因子的结合2DNA甲基化识别染色质标记 3. DNA甲基化募集其他蛋白引起染色质沉默4. DNA甲基化影响核小体定位,(三) DNA甲基化的意义,CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与基因的组织特异表达,二、通过实验和计算方法识别CpG岛 (一) CpG岛的定义及预测 (二) 实验方法寻找CpG岛 (三) CpG岛的定位有助于发现新基因,(一)CpG岛的定义及预测,Gardiner-Garden和Frommer长度最短200bpGC含量至少50%CpG O/E最小0.6许多启动子缺乏严格 定义的CpG
4、岛,但是 有组织特异的甲基化 模式,和转录活性有 密切联系。,1. 最初的CpG岛定义,2. 改进的CpG岛定义,Takai和Jones增加最短长度、CpG O/E值GC含量分别到500 bp,0.65% 和 55%对预测精度的影响。通过使阈值更加严格,Alu 重复元件得到最大程度的排 除,但此时却排除了原来数 量10%的CpG岛,这表明一 些真正的CpG岛可能也被排 除。,常见的CpG岛预测算法,差异取决于以下因素:(1)任意阈值的应用;(2)没有考虑到CpG岛的异质性;(3)基于DNA序列的预测方法忽略了DNA甲基化状态。,3.排除重复元件对CpG岛预测算法的干扰,重复元件(例如“年轻”的
5、Alu元件)的碱基组成和CpG岛十分类似,显著地增加了鉴别CpG岛的假阳性率。大多数的多拷贝序列可以通过Repbase数据库中已知的重复类型得以剔除。在Takai和Jones的基础上应用重复元件筛选后剔除1890个非CpG岛,从而得到更加保守的CpG岛数目的估计即27000个。,4. 基于窗口滑动法的CpG岛预测算法,首先准备通过实验方法得到的候选CpG岛集合或全基因组序列,然后设定窗口宽度的大小。接着考察窗口内的序列片段是否满足CpG岛定义中的长度、GC含量和CpG O/E值中的一个或几个阈值。一旦发现窗中的序列片段满足了CpG岛的定义,该片段就被选为候选CpG岛,同时扫描窗右移1bp。,如
6、果扫描窗中的序列片段不满足CpG岛的定义,扫描窗右移一个窗口的长度。如果扫描得到的CpG岛区域有重叠,则将重叠部分合并。这种依赖于长度、GC含量和CpG O/E值的一个或全部阈值的CpG岛识别算法有显而易见的缺陷:(1)由于这三个阈值的使用使得参数空间变得很大;(2)预测的CpG岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任意性;(3)CpG岛的起始点一般不是CpG二核苷酸;(4)预测和筛选过程依赖于相同的参数;(5)方法经常需要针对特定物种进行调整。(6)运行时间长。,窗口法,Analyze a window.,Does it meet CpG island criteria?,I
7、f not, slide to the right one nucleotide,And analyze again.,And again.,Until it meets the criteria,Then jump ahead and check the window adjacent to the island on the 3 side.,Repeat as needed, until the new window does not meet the CpG island criteria,Then slide the window back toward the island.,Kee
8、p sliding until the window meets CpG island criteria.,If it doesnt meet the criteria, try trimming a base pair off each end and analyzing again.,削减,Once it meets CpG island criteria, move on to the next adjacent window and analyze that.,5. 基于相邻CpG二核苷酸距离的CpG岛预测算法,CpGcluster是一种独特的方法,它并不依赖于任何CpG岛的阈值,并且
9、由于只涉及算术运算,计算速度提高很多。工作原理是计算基因组范围的相邻CpG二核苷酸之间的距离。该算法利用几何分布估计出该距离的理论分布,从而计算出CpG二核苷酸进行汇聚的统计学阈值(40bp)。最终,该算法得到197727个CpG岛。这个算法得到的CpG岛的特点是短而多,但其中包含大量的重复元件。,(1)假设有如下一条序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC (2) CpGcluster首先找到所有的CpG双核苷酸的位置(粗体):TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGG
10、CCGCCCTTGCAGCCCCGAGCCGAGCAGC (3) 然后得到CpG双核苷酸的位置的列表:4;18;26;34;38;52;57,(4) 通过公式 计算相邻二核苷酸之间的算术距离:13,7,7,3,13,4 ;(5)考虑到假设:CpG是伯努利实验的结果,这里设成功为CpG,失败为non-CpG。伯努利实验的概率p可以通过大量的序列算出。令序列的长度为L,N为CpG的数目,则 。(伯努利实验,例如投掷硬币N次,最后一次正面朝上的概率,满足几何分布 )。所以临近的CpG双核苷酸的距离满足几何分布,距离d等于失败的次数。(6) 绘制长度(d)分布和几何分布的直方分布图(下页图)。从中,我
11、们可以发现观测值分布和理论分布差别很大。短距离出现的概率较大。中位数值恰好可以作为CpG二核苷酸富集的阈值。(7) 为了计算之前步骤找到的CpG簇是CpG岛的概率,需要给出统计学p值,该p值可由负二项分布给出(伯努利实验,例如投掷硬币N次,r次正面朝上的概率,满足负二项分布 )。通过描述CpGcluster的算法原理,我们知道:存在比随机出现CpG二核苷酸之间距离距离更短的CpG簇,通过合并重合的簇,最终得到的簇就被认为是CpG岛。,人类基因组1号染色体的邻接CpG二核苷酸之间距离的概率密度函数观察值的分布以空心圆圈表示,而理论分布即几何分布则用实线表示。中位数值恰好和理论值吻合。距离小于中位
12、数值的两个CpG二核苷酸则被纳入CpG岛的一部分。X轴为距离d,Y轴为概率p。Median为中位数,Mean为均值,带圈实线代表观测值的连线,实线代表几何分布的概率密度曲线。(来自于CpGcluster: a distance-based algorithm for CpG-island detection),算法,表格展示的是LRRMT1的上游序列的预测结果,6. 结合功能基因组数据的CpG定位方法,大多数的预测算法和序列选择技术鉴别的CpG岛数目在24000到27000之间。尽管这些方法之间的差别不大,但是许多鉴别出来的CpG岛在不同的预测结果中并不一致。这种不一致的现象可以通过结合包括D
13、NA甲基化状态和染色质修饰在内的不同类型的信息到预测方法中来而得以解决。在CpG岛预测算法中融合表观遗传信息和基因组属性可能有利于探测方法去除一些看起来有些任意的阈值。例如,Bock等人使用了DNA结构,组蛋白修饰,DNA甲基化,转录因子结合谱,重复元件,进化保守,DNA序列模式等信息定位人类基因组CpG岛,是目前较好的CpG岛定位方法。但该方法很难扩展到非人类的物种中,因为注释数据在其他物种并不全面,甚至十分缺乏。,(二) 实验方法寻找CpG岛,为了克服算法带来的问题,Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXC affinity purification)
14、以富集非甲基化的CpG富集的DNA片段(CpG岛)。该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性,并被用于从全基因组DNA中提取CpG岛。他们从人类血液中提取了超过17000个CpG岛。,实验方法确定的基因组范围CpG岛图谱,(三) CpG岛的定位有助于发现新基因,CpG岛是重要的调控元件,是基因起始的标志,可用于新基因的发现。同时,CpG岛通常是不被甲基化的,作为管家基因的重要标志之一。,三、实验
15、检测技术测定DNA甲基化状态(一)DNA甲基化的检测方法(二)基因组范围的DNA甲基化检测方法(三)基于高通量测序的DNA甲基化检测方法(四)高通量检测技术的选择策略,(一)DNA甲基化的检测方法,目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其他碱基组成的变化。最新的检测方法还用到了基因微阵列(microarray)。,1. 限制性内切酶法,2. 重亚硫酸钠法,3. 亲和纯化,1. 限制性内切酶法,2. 重亚硫酸钠法,重亚硫酸钠(sodium bisulfite)法,3. 亲和纯化,(二)基因组范围的DNA甲基化检测方法,高通量测序是最新发展起来的但却是最有前途的全基因组D
16、NA甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。目前,两种高通量的测序平台最为流行:一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。,(三)高通量检测技术的选择策略,DNA甲基化大规模分析可用平台一览表,四、计算方法预测DNA甲基化,(一)从DNA序列预测胞嘧啶甲基化,1CpG位点甲基化预测,预测的原理如下:基于n个样本xi , yi , i=1,n (其中xi为d维特征构成的向量, yi取自-1,1而代表类别,-1作为甲基化标记,1作为非甲基化标记)作为训练数据,SVM利用下面的判
17、别函数进行训练和检验: 。其中 和b为待估参数,使得判别函数更好地拟合训练数据。当进一步增加窗宽时,SVM的性能并没有显著地提高。由于单个CpG位点的甲基化状态一般不是一成不变的,因此Methylator几乎没有实用价值,不能满足组织特异分析的要求。实际上,目前尚缺乏有效的CpG位点的预测工具。,2基于序列的CpG岛甲基化判别,MethCGI先进行了一些预处理,来去除由于实验误差产生的错误数据。主要就是甲基化和非甲基化区域的边界精确定位问题,由于DNA的缺失或者后期测序的问题,数据中甲基化和非甲基化片段的边界比较模糊,所以在初始边界附近定位限制性内切酶的识别位点。灰色直线代表DNA序列,黑色竖
18、条代表CpG位点,双斜线的位置表示实验数据中的初始边界位点,而箭头指向的位置就是最靠近初始边界的酶切位点。,在线预测工具MethCGI,MethCGI的输出界面如图所示,第一列是序列名称,第二列是CGIF的起始位置,第三列则是CGIF的终止位置,第四列是预测的甲基化状态,第五列是一个表示甲基化倾向性的值methylation_score),即100个分类器结果的平均值(预测结果:容易甲基化用-1表示,不易甲基化用+1表示)。需要指出的是,MethCGI预测结果实际上是对应一个个CpG岛片段给出的。,3. 使用基因组特征有助于识别CpG甲基化,为了鉴别序列相关的DNA属性和CpG岛甲基化之间的关
19、系,Bock等人汇集了1184个和序列直接或间接相关的DNA属性,对人淋巴细胞的第21号染色体的甲基化状态已知的132个CpG岛构建判别模型。,(二)借助其他表观遗传修饰谱预测CpG岛甲基化,结合其他表观遗传学信息可以提高CpG岛预测精度。最近的一项研究使用SVM并整合全基因组范围的ChIP-Seq数据进行CpG岛甲基化预测。此外,结合序列特征,重复元件及转录因子结合位点等信息进一步增强了SVM的分类性能。还发现添加了组蛋白甲基化修饰之后,该预测模型得到了更高分类正确率,同时还发现了四种显著影响CpG岛甲基化的组蛋白修饰 (H3K4me1、H3K4me2、H3K4me3以及H3K9me1)。,
20、算法间比较,(一)基因组整体低甲基化,重复元件所在基因组区域在正常基因组中是甲基化的,这会保证基因组的稳定性,防止转座和基因断裂的发生。在癌症基因组中会发生全局性的基因组去甲基化,这一现象被成为次甲基化(hypomethylation)。次甲基化可以进一步导致癌症基因组的遗传性变异,这通常是肿瘤发生的特征。在CpG岛超甲基化的同时,癌症基因组经历了全局性的次甲基化。相比正常基因组,大约20%60%的5-甲基-胞嘧啶的甲基基团脱落。癌症发展过程中经常伴随基因转录区域的整体性甲基化缺失以及重复元件DNA的去甲基化。,五、异常DNA甲基化参与了疾病的发生,(二)印记丢失,DNA甲基化还为生殖细胞特异
21、基因和组织特异基因的表达提供表观遗传控制。基因组印记需要父本和母本等位中的一份发生超甲基化而建立单等位表达的模式。类似地,在正常情况下女性基因组中的一条X染色体发生异染色质化。在DNA甲基化的调控作用中,印记丢失(loss of imprinting)是许多癌症基因活化的一种机制。,(三)基因超甲基化是癌症的标志,超甲基化被认为是所有人类癌症的一般标志,它几乎影响所有细胞通路。许多癌症超甲基化基因本身就是肿瘤抑制基因。例如许多具有抗增殖作用的基因的转录被癌症细胞系的CpG岛超甲基化所抑制。使用表观基因组技术有助于鉴别出癌症异常甲基化基因,使用生物信息学技术可以进一步分析受累的通路。在不同的肿瘤
22、类型中,CpG岛超甲基化基因通常是不同的。每一种肿瘤亚型可能被一些超甲基化基因或表观遗传学标记所区分,这通常是癌症诊断十分重要的标志。,MeInfoText和PubMeth数据库汇总了癌症特异的异常甲基化信息。使用生物信息学方法有助于进一步扩充已知的异常甲基化基因列表的信息。,第三节 组蛋白修饰的表观基因组,一、组蛋白密码是重要表观遗传标记之一(一)核小体与组蛋白修饰,1. 核小体与组蛋白,组成染色质的基本单位是核小体(nucleosome)。每个核小体均由5种组蛋白共同构成。组蛋白是指所有真核生物的细胞核中,与DNA结合的碱性蛋白质的总称。,人民卫生出版社8年制及7年制临床医学等专业用生物信
23、息学,组蛋白修饰位点,2. 组蛋白修饰与转录,关于组蛋白修饰在转录中的作用,已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。不同的组蛋白修饰类型的作用不尽相同。组蛋白乙酰化主要促使基因表达和DNA复制,使组蛋白乙酰化定位的基因得到动态的调控。组蛋白去乙酰化则使基因沉默。组蛋白的磷酸化可以改变组蛋白的电荷,对基因转录、DNA修复和染色质凝聚等过程起调控作用。组蛋白的泛素化可以降解组蛋白的泛素标记,启动基因表达。,3. 组蛋白修饰的命名法,一个组蛋白修饰的精确表示由三部分组成:组蛋白名称+组蛋白尾巴上的位点+修饰类型和个数。例如基因转录起始位点富集普遍存在H3K4me3修饰,它是组
24、蛋白H3上,具体的位置为第四个位置即赖氨酸(Lysine, K),该位置存在三个甲基基团。又如H3K9ac,代表组蛋白H3上第九个位置即赖氨酸上发生的乙酰化修饰。再如H3K9me,则表示组蛋白H3上的第九位置上的甲基化修饰,但并没有指定甲基集团的数目,则泛指组蛋白甲基化修饰,这些模糊记法已被广泛地使用。,(二)激活性和抑制性的组蛋白修饰,根据对基因起到激活还是抑制作用,组蛋白修饰可以大致分为两类:激活性的组蛋白修饰和抑制性的组蛋白修饰。激活性的组蛋白修饰中最常见的是H3K4me。抑制性的组蛋白修饰中最常见的是H3K27me。,(三)组蛋白密码,1. 动态而又稳定的组蛋白密码 组蛋白的氨基酸残基
25、可以接受许多种化学修饰,包括甲基化和乙酰化等修饰。质谱分析检测到组蛋白H2A有13个可以接受修饰的位点,H2B、H3和H4则分别有12个,21个和14个可以接受修饰的位点。每个氨基酸残基位点可以发生至少一种化学修饰。,2. 细胞分化过程中的组蛋白密码,组蛋白修饰的调控在许多生理过程中起到重要作用,这其中就包括细胞分化。研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性(pluripotency)。相反,用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化的进行。因此,表观遗传调控对于细胞成熟至关重要。到底是什么类型组蛋白修饰或组蛋白修饰组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十三章 计算表观遗传学课件 第十三 计算 表观 遗传学 课件
链接地址:https://www.31ppt.com/p-1823963.html