欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第十三章 计算表观遗传学课件.ppt

    • 资源ID:1823963       资源大小:8.41MB        全文页数:117页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第十三章 计算表观遗传学课件.ppt

    第十三章 计算表观遗传学,Computational Epigenetics,第一节 引言,一、 表观遗传学与计算表观遗传学二、 计算表观遗传学的研究内容三、 计算表观遗传学的方法和工具四、 计算表观遗传学的进展,第二节 基因组的DNA甲基化,一、CpG岛的DNA甲基化调控基因的表达(一) DNA甲基化与CpG岛 (二) 甲基化对转录的调控(三) DNA甲基化的意义,(一) DNA甲基化与CpG岛,DNA甲基化是一种发生在DNA序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。DNA甲基化是重要的表观遗传代码。,DNA甲基化,在哺乳动物中,大约60% 90%的CpG二核苷酸是甲基化的。CpG中的p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。在哺乳动物细胞中,DNA甲基化主要发生在CpG二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-甲基-胞嘧啶,如图所示。,CpG岛与DNA甲基化的关系,CpG二核苷酸倾向于聚集成簇,这样的区域称作 CpG岛(CpG islands)。CpG岛的特点是GC的含量及CpG的含量非常高。CpG岛主要分布在基因的5非编码区、启动子和第一外显子区域,大约60%的基因的启动子含有CpG岛。这些区域的CpG二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化CpG带来高的突变率。,(二) 甲基化对转录的调控,DNA甲基化影响转录的机制1. DNA甲基化阻碍转录因子的结合2DNA甲基化识别染色质标记 3. DNA甲基化募集其他蛋白引起染色质沉默4. DNA甲基化影响核小体定位,(三) DNA甲基化的意义,CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与基因的组织特异表达,二、通过实验和计算方法识别CpG岛 (一) CpG岛的定义及预测 (二) 实验方法寻找CpG岛 (三) CpG岛的定位有助于发现新基因,(一)CpG岛的定义及预测,Gardiner-Garden和Frommer长度最短200bpGC含量至少50%CpG O/E最小0.6许多启动子缺乏严格 定义的CpG岛,但是 有组织特异的甲基化 模式,和转录活性有 密切联系。,1. 最初的CpG岛定义,2. 改进的CpG岛定义,Takai和Jones增加最短长度、CpG O/E值GC含量分别到500 bp,0.65% 和 55%对预测精度的影响。通过使阈值更加严格,Alu 重复元件得到最大程度的排 除,但此时却排除了原来数 量10%的CpG岛,这表明一 些真正的CpG岛可能也被排 除。,常见的CpG岛预测算法,差异取决于以下因素:(1)任意阈值的应用;(2)没有考虑到CpG岛的异质性;(3)基于DNA序列的预测方法忽略了DNA甲基化状态。,3.排除重复元件对CpG岛预测算法的干扰,重复元件(例如“年轻”的Alu元件)的碱基组成和CpG岛十分类似,显著地增加了鉴别CpG岛的假阳性率。大多数的多拷贝序列可以通过Repbase数据库中已知的重复类型得以剔除。在Takai和Jones的基础上应用重复元件筛选后剔除1890个非CpG岛,从而得到更加保守的CpG岛数目的估计即27000个。,4. 基于窗口滑动法的CpG岛预测算法,首先准备通过实验方法得到的候选CpG岛集合或全基因组序列,然后设定窗口宽度的大小。接着考察窗口内的序列片段是否满足CpG岛定义中的长度、GC含量和CpG O/E值中的一个或几个阈值。一旦发现窗中的序列片段满足了CpG岛的定义,该片段就被选为候选CpG岛,同时扫描窗右移1bp。,如果扫描窗中的序列片段不满足CpG岛的定义,扫描窗右移一个窗口的长度。如果扫描得到的CpG岛区域有重叠,则将重叠部分合并。这种依赖于长度、GC含量和CpG O/E值的一个或全部阈值的CpG岛识别算法有显而易见的缺陷:(1)由于这三个阈值的使用使得参数空间变得很大;(2)预测的CpG岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任意性;(3)CpG岛的起始点一般不是CpG二核苷酸;(4)预测和筛选过程依赖于相同的参数;(5)方法经常需要针对特定物种进行调整。(6)运行时间长。,窗口法,Analyze a window.,Does it meet CpG island criteria?,If not, slide to the right one nucleotide,And analyze again.,And again.,Until it meets the criteria,Then jump ahead and check the window adjacent to the island on the 3 side.,Repeat as needed, until the new window does not meet the CpG island criteria,Then slide the window back toward the island.,Keep sliding until the window meets CpG island criteria.,If it doesnt meet the criteria, try trimming a base pair off each end and analyzing again.,削减,Once it meets CpG island criteria, move on to the next adjacent window and analyze that.,5. 基于相邻CpG二核苷酸距离的CpG岛预测算法,CpGcluster是一种独特的方法,它并不依赖于任何CpG岛的阈值,并且由于只涉及算术运算,计算速度提高很多。工作原理是计算基因组范围的相邻CpG二核苷酸之间的距离。该算法利用几何分布估计出该距离的理论分布,从而计算出CpG二核苷酸进行汇聚的统计学阈值(40bp)。最终,该算法得到197727个CpG岛。这个算法得到的CpG岛的特点是短而多,但其中包含大量的重复元件。,(1)假设有如下一条序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC (2) CpGcluster首先找到所有的CpG双核苷酸的位置(粗体):TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC (3) 然后得到CpG双核苷酸的位置的列表:4;18;26;34;38;52;57,(4) 通过公式 计算相邻二核苷酸之间的算术距离:13,7,7,3,13,4 ;(5)考虑到假设:CpG是伯努利实验的结果,这里设成功为CpG,失败为non-CpG。伯努利实验的概率p可以通过大量的序列算出。令序列的长度为L,N为CpG的数目,则 。(伯努利实验,例如投掷硬币N次,最后一次正面朝上的概率,满足几何分布 )。所以临近的CpG双核苷酸的距离满足几何分布,距离d等于失败的次数。(6) 绘制长度(d)分布和几何分布的直方分布图(下页图)。从中,我们可以发现观测值分布和理论分布差别很大。短距离出现的概率较大。中位数值恰好可以作为CpG二核苷酸富集的阈值。(7) 为了计算之前步骤找到的CpG簇是CpG岛的概率,需要给出统计学p值,该p值可由负二项分布给出(伯努利实验,例如投掷硬币N次,r次正面朝上的概率,满足负二项分布 )。通过描述CpGcluster的算法原理,我们知道:存在比随机出现CpG二核苷酸之间距离距离更短的CpG簇,通过合并重合的簇,最终得到的簇就被认为是CpG岛。,人类基因组1号染色体的邻接CpG二核苷酸之间距离的概率密度函数观察值的分布以空心圆圈表示,而理论分布即几何分布则用实线表示。中位数值恰好和理论值吻合。距离小于中位数值的两个CpG二核苷酸则被纳入CpG岛的一部分。X轴为距离d,Y轴为概率p。Median为中位数,Mean为均值,带圈实线代表观测值的连线,实线代表几何分布的概率密度曲线。(来自于CpGcluster: a distance-based algorithm for CpG-island detection),算法,表格展示的是LRRMT1的上游序列的预测结果,6. 结合功能基因组数据的CpG定位方法,大多数的预测算法和序列选择技术鉴别的CpG岛数目在24000到27000之间。尽管这些方法之间的差别不大,但是许多鉴别出来的CpG岛在不同的预测结果中并不一致。这种不一致的现象可以通过结合包括DNA甲基化状态和染色质修饰在内的不同类型的信息到预测方法中来而得以解决。在CpG岛预测算法中融合表观遗传信息和基因组属性可能有利于探测方法去除一些看起来有些任意的阈值。例如,Bock等人使用了DNA结构,组蛋白修饰,DNA甲基化,转录因子结合谱,重复元件,进化保守,DNA序列模式等信息定位人类基因组CpG岛,是目前较好的CpG岛定位方法。但该方法很难扩展到非人类的物种中,因为注释数据在其他物种并不全面,甚至十分缺乏。,(二) 实验方法寻找CpG岛,为了克服算法带来的问题,Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXC affinity purification)以富集非甲基化的CpG富集的DNA片段(CpG岛)。该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性,并被用于从全基因组DNA中提取CpG岛。他们从人类血液中提取了超过17000个CpG岛。,实验方法确定的基因组范围CpG岛图谱,(三) CpG岛的定位有助于发现新基因,CpG岛是重要的调控元件,是基因起始的标志,可用于新基因的发现。同时,CpG岛通常是不被甲基化的,作为管家基因的重要标志之一。,三、实验检测技术测定DNA甲基化状态(一)DNA甲基化的检测方法(二)基因组范围的DNA甲基化检测方法(三)基于高通量测序的DNA甲基化检测方法(四)高通量检测技术的选择策略,(一)DNA甲基化的检测方法,目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其他碱基组成的变化。最新的检测方法还用到了基因微阵列(microarray)。,1. 限制性内切酶法,2. 重亚硫酸钠法,3. 亲和纯化,1. 限制性内切酶法,2. 重亚硫酸钠法,重亚硫酸钠(sodium bisulfite)法,3. 亲和纯化,(二)基因组范围的DNA甲基化检测方法,高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。目前,两种高通量的测序平台最为流行:一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。,(三)高通量检测技术的选择策略,DNA甲基化大规模分析可用平台一览表,四、计算方法预测DNA甲基化,(一)从DNA序列预测胞嘧啶甲基化,1CpG位点甲基化预测,预测的原理如下:基于n个样本xi , yi , i=1,n (其中xi为d维特征构成的向量, yi取自-1,1而代表类别,-1作为甲基化标记,1作为非甲基化标记)作为训练数据,SVM利用下面的判别函数进行训练和检验: 。其中 和b为待估参数,使得判别函数更好地拟合训练数据。当进一步增加窗宽时,SVM的性能并没有显著地提高。由于单个CpG位点的甲基化状态一般不是一成不变的,因此Methylator几乎没有实用价值,不能满足组织特异分析的要求。实际上,目前尚缺乏有效的CpG位点的预测工具。,2基于序列的CpG岛甲基化判别,MethCGI先进行了一些预处理,来去除由于实验误差产生的错误数据。主要就是甲基化和非甲基化区域的边界精确定位问题,由于DNA的缺失或者后期测序的问题,数据中甲基化和非甲基化片段的边界比较模糊,所以在初始边界附近定位限制性内切酶的识别位点。灰色直线代表DNA序列,黑色竖条代表CpG位点,双斜线的位置表示实验数据中的初始边界位点,而箭头指向的位置就是最靠近初始边界的酶切位点。,在线预测工具MethCGI,MethCGI的输出界面如图所示,第一列是序列名称,第二列是CGIF的起始位置,第三列则是CGIF的终止位置,第四列是预测的甲基化状态,第五列是一个表示甲基化倾向性的值methylation_score),即100个分类器结果的平均值(预测结果:容易甲基化用-1表示,不易甲基化用+1表示)。需要指出的是,MethCGI预测结果实际上是对应一个个CpG岛片段给出的。,3. 使用基因组特征有助于识别CpG甲基化,为了鉴别序列相关的DNA属性和CpG岛甲基化之间的关系,Bock等人汇集了1184个和序列直接或间接相关的DNA属性,对人淋巴细胞的第21号染色体的甲基化状态已知的132个CpG岛构建判别模型。,(二)借助其他表观遗传修饰谱预测CpG岛甲基化,结合其他表观遗传学信息可以提高CpG岛预测精度。最近的一项研究使用SVM并整合全基因组范围的ChIP-Seq数据进行CpG岛甲基化预测。此外,结合序列特征,重复元件及转录因子结合位点等信息进一步增强了SVM的分类性能。还发现添加了组蛋白甲基化修饰之后,该预测模型得到了更高分类正确率,同时还发现了四种显著影响CpG岛甲基化的组蛋白修饰 (H3K4me1、H3K4me2、H3K4me3以及H3K9me1)。,算法间比较,(一)基因组整体低甲基化,重复元件所在基因组区域在正常基因组中是甲基化的,这会保证基因组的稳定性,防止转座和基因断裂的发生。在癌症基因组中会发生全局性的基因组去甲基化,这一现象被成为次甲基化(hypomethylation)。次甲基化可以进一步导致癌症基因组的遗传性变异,这通常是肿瘤发生的特征。在CpG岛超甲基化的同时,癌症基因组经历了全局性的次甲基化。相比正常基因组,大约20%60%的5-甲基-胞嘧啶的甲基基团脱落。癌症发展过程中经常伴随基因转录区域的整体性甲基化缺失以及重复元件DNA的去甲基化。,五、异常DNA甲基化参与了疾病的发生,(二)印记丢失,DNA甲基化还为生殖细胞特异基因和组织特异基因的表达提供表观遗传控制。基因组印记需要父本和母本等位中的一份发生超甲基化而建立单等位表达的模式。类似地,在正常情况下女性基因组中的一条X染色体发生异染色质化。在DNA甲基化的调控作用中,印记丢失(loss of imprinting)是许多癌症基因活化的一种机制。,(三)基因超甲基化是癌症的标志,超甲基化被认为是所有人类癌症的一般标志,它几乎影响所有细胞通路。许多癌症超甲基化基因本身就是肿瘤抑制基因。例如许多具有抗增殖作用的基因的转录被癌症细胞系的CpG岛超甲基化所抑制。使用表观基因组技术有助于鉴别出癌症异常甲基化基因,使用生物信息学技术可以进一步分析受累的通路。在不同的肿瘤类型中,CpG岛超甲基化基因通常是不同的。每一种肿瘤亚型可能被一些超甲基化基因或表观遗传学标记所区分,这通常是癌症诊断十分重要的标志。,MeInfoText和PubMeth数据库汇总了癌症特异的异常甲基化信息。使用生物信息学方法有助于进一步扩充已知的异常甲基化基因列表的信息。,第三节 组蛋白修饰的表观基因组,一、组蛋白密码是重要表观遗传标记之一(一)核小体与组蛋白修饰,1. 核小体与组蛋白,组成染色质的基本单位是核小体(nucleosome)。每个核小体均由5种组蛋白共同构成。组蛋白是指所有真核生物的细胞核中,与DNA结合的碱性蛋白质的总称。,人民卫生出版社8年制及7年制临床医学等专业用生物信息学,组蛋白修饰位点,2. 组蛋白修饰与转录,关于组蛋白修饰在转录中的作用,已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。不同的组蛋白修饰类型的作用不尽相同。组蛋白乙酰化主要促使基因表达和DNA复制,使组蛋白乙酰化定位的基因得到动态的调控。组蛋白去乙酰化则使基因沉默。组蛋白的磷酸化可以改变组蛋白的电荷,对基因转录、DNA修复和染色质凝聚等过程起调控作用。组蛋白的泛素化可以降解组蛋白的泛素标记,启动基因表达。,3. 组蛋白修饰的命名法,一个组蛋白修饰的精确表示由三部分组成:组蛋白名称+组蛋白尾巴上的位点+修饰类型和个数。例如基因转录起始位点富集普遍存在H3K4me3修饰,它是组蛋白H3上,具体的位置为第四个位置即赖氨酸(Lysine, K),该位置存在三个甲基基团。又如H3K9ac,代表组蛋白H3上第九个位置即赖氨酸上发生的乙酰化修饰。再如H3K9me,则表示组蛋白H3上的第九位置上的甲基化修饰,但并没有指定甲基集团的数目,则泛指组蛋白甲基化修饰,这些模糊记法已被广泛地使用。,(二)激活性和抑制性的组蛋白修饰,根据对基因起到激活还是抑制作用,组蛋白修饰可以大致分为两类:激活性的组蛋白修饰和抑制性的组蛋白修饰。激活性的组蛋白修饰中最常见的是H3K4me。抑制性的组蛋白修饰中最常见的是H3K27me。,(三)组蛋白密码,1. 动态而又稳定的组蛋白密码 组蛋白的氨基酸残基可以接受许多种化学修饰,包括甲基化和乙酰化等修饰。质谱分析检测到组蛋白H2A有13个可以接受修饰的位点,H2B、H3和H4则分别有12个,21个和14个可以接受修饰的位点。每个氨基酸残基位点可以发生至少一种化学修饰。,2. 细胞分化过程中的组蛋白密码,组蛋白修饰的调控在许多生理过程中起到重要作用,这其中就包括细胞分化。研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性(pluripotency)。相反,用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化的进行。因此,表观遗传调控对于细胞成熟至关重要。到底是什么类型组蛋白修饰或组蛋白修饰组合控制分化呢?如前所述,组蛋白乙酰化有助于保持细胞的多能性。,细胞分化过程中的组蛋白修饰变化,二、测序技术提供了基因组范围组蛋白修饰的分析方法,(一)测定组蛋白修饰的高通量技术(二)分析基因组范围的组蛋白修饰数据,(一)测定组蛋白修饰的高通量技术,ChIPchip,ChIPSAGE,来自Genome-wide approaches to studying chromatin modifications,ChIPSeq,ChIPSeq,ChIPSeq,(二)分析基因组范围的组蛋白修饰数据,1. 高通量组蛋白修饰分析工具,Tiling ArrayTileMap 基于模型的瓦式芯片分析算法(Model-based analysis of Tilingarray algorithm, MAT)。 ChIP-SeqCisGenomeMACS,2. 组蛋白修饰峰值探测,与其他基于ChIP的高通量技术一致的是,从ChIP-Seq标签数据鉴别出可靠的组蛋白修饰谱,等价于寻找一段基因组区域内的统计学显著的组蛋白修饰标签的峰。一个最直接的想法是,对于一段长度一定的基因组区域来说,包含R个序列标签可以从统计学水平支持这段区域被组蛋白修饰所定位。,一般原理,构造背景分布:泊松分布例:人类基因组gsize=3.0E9*0.8=2.4E9窗宽w基因组期望的标签数(CD4+ T细胞H3K9me3)求 使 0.01,当R=3时,p=0.0021,满足要求。所以,以w为窗宽,将基因组打碎,以d为步长,移动窗口,找出满足大于3个标签的窗口,合并后即为组蛋白修饰H3K9me3定位区域。,三、组蛋白修饰与其他表观遗传修饰存在协同调控关系,(一)DNA甲基化和组蛋白修饰的相互作用(二)通过贝叶斯网络重构DNA甲基化和组蛋白修饰协同调控基因表达网络,四、组蛋白修饰异常与人类疾病,(一)组蛋白修饰模式的改变被直接和癌症的发展相联系(二)组蛋白修饰与其他疾病(三)食品营养与癌症表观遗传学,第四节 染色质的重塑,一、染色质重塑和核小体(一)核小体是所有染色质的亚基(二)核小体有共同的结构二、核小体定位研究(一)核小体相位检测(二)核小体定位的计算方法研究,一、染色质重塑和核小体,组构形式:致密的染色质中,大多数DNA序列在结构和功能上是没有活性的,只有少数DNA序列是活性序列。染色质的一般结构是怎样的? 功能DNA序列和非功能DNA序列之间有什么区别? 遗传物质的总包装比很大, 这说明DNA不可能直接包装在染色质的最终结构中,而一定存在着一种“组构形式”。这种组构形式就是核小体。在分裂间期细胞核里的常染色质和异染色质,以及有丝分裂的染色体中,核小体都是其固有成分。 核小体的构造形成了DNA的一级组构,其包装比约为6。核小体的成份和结构已经研究得很清楚了。,染色质重塑 诱导染色质结构改变的一般过程重塑包括多种变化, 一般指染色质特定区域对核酶稳定性的变化 重塑因子调节机制假设:一个转录因子独立地与核小体DNA 结合,然后再结合一个重塑因子, 导致附近核小体结构发生稳定性的变化, 导致其他转录因子的结合, 这是一个串联反应的过程 由重塑因子首先独立地与核小体结合, 不改变其结构, 但使其松动并发生滑动, 这将导致转录因子的结合, 从而使新形成的无核小体区域稳定 核小体定位是染色质重塑的重要过程,核小体组成组蛋白含量,双螺旋DNA在圆柱形八聚体表面盘绕两圈的示意图,染色质结构的基本单元核小体,二、核小体定位研究,核小体定位可能通过两种方式实现内部途径:每个核小体都贮存在特殊的DNA序列上 外部途径 :第一个核小体在特殊的偏好位点组装。一个引起核小体定位的优先起始位点会形成排斥核小体结合的区域,排斥区域将提供允许邻近的核小体定位的界线核小体和DNA的相互关系处于动态变化中 核小体在DNA双螺旋上的位置常常被DNA结合或DNA弯曲状态等“屏障物”所限定,使核小体常出现在含有启动子或调控元件的区域附近核小体定位在不同研究中被毋庸置疑地确定是关键,(一)核小体相位检测,微球菌核酸酶-southern印迹法 利用核小体结构对DNA的保护作用,使用微球菌核酸酶(micrococcal nuclease, Mnase)消化基因组DNA,然后用southern印迹法进行分析。,(二)核小体定位的计算方法研究,1. 支持向量机方法2. 概率模型方法3. 整合参考图谱方法4. 其他方法5. 软件,支持向量机方法,Pham等人利用支持向量机(SVM)的方法对酵母中核小体的定位进行了预测,根据分类正确率选择了所有的4-mer和5-mer核苷酸组合作为特征,得到86%的准确率。缺陷是使用了500bp的周围序列来统计特征,由于一个核小体占据的DNA序列仅为147bp,而连接区的DNA序列为8-114bp,这样一段500bp的局部序列会跨越2个核小体,以此预测核小体定位就显得牵强。Heather E. Peckham等人也使用支持向量机方法准确预测了实验确定的核小体位置在酵母的具有较好特征的启动子区域,分析表明只有一个子集的核小体有可能被定位通过内在的序列信号。,概率模型方法,Segal等人对酵母全基因组的核小体定位进行了标记,在此基础上通过建立概率模型能够对酵母活体内50%的核小体定位进行预测。 结果表明基因组编码了一个内在的核小体组织,该组织能解释大约50%的活体内的核小体定位。 最后的模型还借鉴了热动力学模型的思想,考虑了位阻效应,对预测模型进行修正,这一工作再将证明核小体定位跟序列是密切相关的。,Segal等人预测核小体定位方法流程图,概率模型方法,步骤:步骤一:提取体内稳定绑定的单核小体的DNA序列并测序步骤二:数据收集步骤三:构建核小体-DNA互作的概率模型步骤四:预测核小体全基因组定位的热力学模型步骤五:模型评价,整合参考图谱方法,Cizhong Jiang 等人针对核小体对于控制基因表达有着位置特异的功能性,当涉及到跨数据集的单个核小体(或无核小体区)的功能时,需要一个系统的全基因组范围的核小体绝对和相对的定位参考图谱来尽量减少潜在的不确定性。 整合参考图谱:编制了六个来自不同实验室和探测平台的高分辨率的基因组范围的酵母核小体定位图谱。 构建一个核小体检索系统,允许用户在一个给定区域或是一系列基因中提取核小体位置。,Cizhong Jiang 等人构建核小体定位分配的流程图,整合参考图谱方法,步骤:步骤一:核小体数据集收集及数据预处理步骤二:测得的核小体位置“参考集合”的确定步骤三:将参考核小体分配到TSS相关的一个编号位置步骤四:参考核小体的占有率水平步骤五:连接子和NFRs的确定和分类步骤六:参考核小体的模糊度步骤七:TSS周围核小体的分布步骤八:将新测得的核小体位置分配到核小体参考位置步骤九:参考核小体的检索系统,4. 其他方法,RECON方法:这是最早的一个预测核小体定位的工具。该方法将位点向两侧各延长80bp作为该点的局部序列样本,将该序列样本保持核苷酸比例不变随机打乱,然后将原序列样本和随机产生的序列进行分块,得到各块内部的双核苷酸的分布情况,从而得么一个最优分块。得到最优分块以后,则可对目标序列分块并计算一个势函数得到待测位点处于核小体内的可能性。,Peckham等人提出了一个基于判别的计算模型,它只侧重于使用核小体占据或空缺产生的最强信号的序列作为训练集。Shobhit Gupta等人选择使用判别性方法因为目前对染色质生物学的理解表明实际上有些基因组序列确保了核小体定位,以及有些避免核小体定位。 Ioshikhes等人研究了酵母中核小体定位的序列特征。考虑到影响核小体定位的DNA序列信息相对比较微弱以至于很可能被随机噪声湮没的问题,他们将被相似机理调控的基因归为一类进行分析以抑制噪声的影响。,5. 软件,CisGenome软件:一种用于分析全基因组染色质免疫沉淀数据(ChIP)的软件系统。它的设计满足了ChIP数据分析的所有基本需求,包括可视化,数据标准化,峰值探测,错误发现率计算,基因-峰值关联性和序列及模体分析。MACS:是一个短读数测序方法如基因组分析(Illumina / Solexa)的基于模型的ChIP-Seq分析方法,它能用于分析短读数测序工具如Solexa基因组分析器产生的数据。新一代的平行测序技术使得测序后的染色质免疫共沉淀(ChIP-Seq)成为一个研究基因组范围的蛋白质-DNA互作的流行机制,对分析算法造成了新的挑战。,SISSRs软件:一个用于处理ChIP-Seq实验产生的短读数结合位点的精确验证的新算法。SISSRs的灵敏度和精确度促进了ChIP-Seq数据的具有启迪作用的见解的进一步的分析,这可指导利用ChIP-Seq实验绘制真实细胞状态下的蛋白质-DNA互作图谱。鉴于该算法的特征,可以将此算法应用于短读数峰值的探测。,软件,软件,预测方法,第五节 基因组印记,一、基因组印记是非孟德尔遗传的表观遗传现象 基本概念介绍 两种印记基因调控模式隔离子模型非编码RNA介导模型 印迹控制区DNA甲基化和组蛋白修饰的相互作用二、机器学习是挖掘印记基因的有效方法 主要模式识别方法及预测特征 基于主成分分析和二次判别的预测模型三、基因组的印记与表观遗传疾病有密切关系,一、基因组印记是非孟德尔遗传的表观遗传现象,基因组印记是在母本和父本之间产生功能性区别并在哺乳动物发育与生长中起重要作用的一种表观遗传学机制。,隔离子模型,非编码RNA介导模型,组蛋白修饰分布差异,印记位点的组蛋白修饰谱,迄今实验鉴定人的印迹基因发展缓慢,目前人类基因组中预测的印记基因共有205 个, 其中通过实验验证具有印记表达的有53个;小鼠中预测的印记基因共有90个, 其中72个经实验验证具有印记表达。(http:/)。,基因组印记作为一种单等位基因表达的表观遗传现象。很多假设用于解释为什么基因组印记在哺乳动物中进化,但很少能解释是如何产生的。宿主防御假说认为印记是从细胞内现存的机制沉默插入到基因组中的外源DNA元件发展而来的。然而,由于缺少现存所有分类大规模的基因组资源,哺乳动物基因组的改变伴随印记基因的进化很难定义。预计印记基因占人类基因组的1,并且至今只发现了一部分。因此,从预测的角度识别印记基因是一种可行的方法。,二、机器学习是挖掘印记基因的有效方法,目前实验测得印记基因的主要方法是利用DNA甲基化和基因表达分析基因的印记情况,只关注染色体的一小段区域。由于基因的单等位表达可能只发生在特定亚型、组织或发育阶段,所以实验确定印记基因面临很多问题。自从单等位基因和双等位基因不同的重复序列和DNA序列特性的被广泛关注,人们开始利用机器学习的方法预测小鼠和人类基因的印记情况。现在国内外主要预测印记基因的方法是用机器学习方法基于基因的序列特征预测全基因组印记基因。,常用的模式识别方法支持向量机(SVM)径向基神经网络(RBF)隐马尔科夫模型Logistic回归主成分分析和二次判别分析DNA序列特征 CpG岛和GC含量 重复序列长散在核元件(LINEs)短散在核元件(SINEs)简单重复序列DNA elements低复杂度重复序列长末端重复序列(LTRs),基于主成分分析和二次判别的预测模型,1.计算训练基因编码区的基因组特征NEWCPGREPORT程序分析CpG二核苷酸的序列,计算CpG岛总数。 http:/mobyle.pasteur.fr/cgibin/portal.py?form=newcpgreportRepeat Masker程序分析重复元件,收集重复元件,得到长末端重复序列和简单重复序列的个数。 http:/www.repeatmasker.org/cgi-bin/WEBRepeatMasker,2. 标准化数据集应用模式识别方法之前,由于各个变量单位是不同的,为了能够将变 量参与评价计算,需要对其进行规范化处理,通过函数变换将其数值 映射到某个数值区间。用此方法,可以在同一水平比较所有变量。 常用标准化方法: (1)线性函数转换,表达式如下: y=(x-minvalue)/(maxvalue-minvalue) 说明:x、y分别为转换前、后的值,maxvalue、minvalue分别为样本的 最大值和最小值。 (2)对数函数转换,表达式如下: y=lg (x) 说明:以10为底的对数函数转换。 (3)反余切函数转换,表达式如下: y=atan(x)*2/,3. 特征选择主成分分析(PCA)和二次判别分析(QDA)分析标准化的序列特征数据。主成分分析是一种多元统计方法。主要思想是降低数据集(代表大量相关变量)的维度,同时保留尽可能多的变量。当数据量过大时,可以利用PCA搜索数据质量和数量上的差别。 二次判别分析(QDA)主要用于预测序列特征集中的成员。预测变量与二次判别相结合可以最好的预测预测组成员,使每一个基因基于它的序列特征可区分为印记基因和非印记基因。,4. 构建模型首先,采用主成分分析技术。获得最好的分类是使用下列特征: GC含量,bpCpG岛,bp简单重复序列和bp长末端重复序列。这表明,分类编码区研究中其他变量是不显著的。主成分分析结果表明,第一主成分(PC1)的贡献率为49.6。考虑到第一主成分(PC1)和第二主成分(PC2),累计贡献率达到72。PC1和PC2可以通过下列方程组表示,这实际上构成了PCA模式识别模型。 (1)PC1=0.535GC%+0.511CGIbp%+0.521LTRbp%+0.426SRbp% (2)PC2=-0.425GC%-0.467CGIbp%+0.313LTRbp%+0.71SRbp%然后,用二次判别分析(QDA)建立一个新的模型。QDA也和主成分分析(PCA)密切相关,都在寻找最佳解释数据的最好组合变量。QDA明确试图寻找模型数据集之间的差异(监督模式识别)。而PCA没有考虑到任何类之间差异(非监督模式识别)。,5. 模型评估根据软件的功能,利用内部和外部的验证方法对分类进行评估。QDA模型,采用内部验证方法称为交叉验证。此方法使用训练集检验模型。这一过程将训练集分为几部分,一部分保留来验证结果,其余的用来建立模型。最后,用所有的训练集建立和验证模型。PCA模型,我们使用外部验证检验集的方法。检验集的个数必须足够大(至少为训练集大小的25),独立于训练集。检验集的印迹情况是已知的,所以可用于评估模型。评估印迹基因的预测方法可能存在问题,原因是基因数量少,主要集中在小的基因组区域,以及难以实验验证。,三、基因组的印记与表观遗传疾病有密切关系,印记基因对哺乳动物的发育是至关重要的,哺乳动物的基因印记抑制基因表达,印记基因的异常表达会导致多种人类疾病。研究发现许多印记基因对胚胎和胎儿出生后的生长发育有重要的调节作用,对行为和大脑的功能也有很大的影响,印记基因的异常同样可诱发癌症。与基因组印记相关的疾病常常是由于印记丢失导致两个等位基因同时表达,或突变导致有活性的等位基因失活所致。调控基因簇的印记中心发生突变将导致一系列基因不表达,引发复杂综合征。基因组印记的本质为DNA修饰和蛋白修饰,所以和印记相关的蛋白发生突变也将导致表观遗传疾病。,印记基因的异常表达引发伴有复杂突变和表型缺陷的多种疾病。如Prader-Willi综合征(PWS)、Angelman综合征(AS)、Beckwity-Wiedemann综合征(BWS)、Russell-Silver 综合征、成神经细胞瘤,急性早幼粒细胞性白血病,横纹肌肉瘤和散发的骨肉瘤等。基因组印记是哺乳动物雌核胚、雄核胚以及孤雌胚早期死亡的原因。基因组印记与生物进化、性别决定、生长发育以及肿瘤发生有关。基因组印记与胚胎发育异常、胎盘和骨骼缺陷、免疫生理缺陷及产期死亡等现象相关。,基因组印记与脐疝-巨舌-巨人症综合征(BWS) BWS患者表现为胚胎和胎盘过度增生,巨舌,巨大发育,儿童期易发生肿瘤。该病主要由11号染色体上的IGF2和CDKN1C两个印记基因的错误表达引发的。基因组印记与PWS/AS综合征 PWS/AS 这两种疾病都和神经功能失调相关。WS是由父本印记基因在大脑中高表达所致,如SNPNP。AS是母本UBE3A基因缺失或受抑制所致。基因组印记与癌症 印记丢失不仅影响胚胎发育并可诱发出生后的发育异常,从而导致癌症。IGF2的丢失将导致多种肿瘤,如Wilms瘤。,随着表观遗传学数据的不断增多,特别是高通量实验技术的不断涌现,在各基因组中产生了基因组范围的表观遗传遗传学修饰的图谱,对这些数据的存储和分析提出了挑战,应用于基因组研究的生物信息学解决了这一难题,开发相应的算法和数据库对基因组范围内的数据分析和存储很有意义。,第六节表观遗传学数据库及软件,1. 人类表观基因组计划数据库,人类表观基因组计划数据库(The Human Epigenome Project,HEP),网址:http:/www.epigenome.org/。人类表观基因组计划旨在确定、记录和解释人类所有基因在所有主要组织中的基因组范围内DNA甲基化模式。,一、表观遗传学常用数据库,2. 人类组蛋白修饰数据库,人类组蛋白修饰数据库(HHMD),网址:http:/,3. 人类DNA甲基化与癌症数据库,人类DNA甲基化与癌症数据库(MethyCancer),网址:http:/ MethyCancer的开发旨在研究DNA甲基化、基因表达与癌症间的相互作用。该库包含DNA甲基化、癌症相关基因、突变、癌症信息和CpG岛,对这些不同数据类型之间的互联互通进行了分析和讨论,并提供了搜索工具和可视化工具(MethyView)来帮助用户获取感兴趣的数据并在基因组的背景下查看DNA甲基化模式。,1. EpiGRAPH界面友好的(表观)基因组分析和预测软件,EpiGRAPH ,界面友好的(表观)基因组分析和预测软件,网址:http:/epigraph.mpi-inf.mpg.de/WebGRAPH/。EpiGRAPH是Bock等开发的一个在线软件,用来便利复杂的基因组和表观基因组数据集的生物信息学分析,这样的数据集经常包括共享特定属性(例如被一个特

    注意事项

    本文(第十三章 计算表观遗传学课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开