《基因芯片技术》第9章-基因芯片与系统生物学.ppt
《《基因芯片技术》第9章-基因芯片与系统生物学.ppt》由会员分享,可在线阅读,更多相关《《基因芯片技术》第9章-基因芯片与系统生物学.ppt(102页珍藏版)》请在三一办公上搜索。
1、基因芯片技术,Gene chip technology,第9章 基因芯片与系统生物学,内容提要:第一节 系统生物学与基因芯片 第二节 基因芯片数据的MIAME规则 第三节 芯片实验设计原则和方法,第一节 系统生物学与基因芯片,系统生物学四个方面,一是系统结构:包括基因,蛋白间关系;由此得到的基因蛋白网络和生物通路(pathway),以及这些相互之间关系所牵涉到的细胞内、外结构的物理特性和机制。二是系统动力学:在不同时间点不同条件下系统的行为。通过代谢分析,敏感性分析,动力学分析工具、识别不同行为内在机制分析方法等来研究。三是系统的控制方法。搞清楚控制细胞处于各种状态的机制,然后模拟系统,能得到
2、治疗疾病的药靶。四是设计的方法。基于某些设计的原则和模拟方法,可以修正和构造具有所需特性的系统,而不必盲目地反复实验。,系统生物学两个关键技术基础,1.“组学”数据基础:从基因组学到功能基因组学从大量的测序数据到大量生命过程中结构与功能的数据:基因组、转录组、蛋白组、结构基因组、代谢组、生理组、表型组、化学(药物)基因组2.检测和实验技术基础:功能基因组检测技术平台:单分子测序、生物芯片等 系统生物学研究技术和体系:细胞和动物模型(人类样品库)、药物材料库、生物信息和生物计算技术,图:有丝分裂,细胞周期图,心脏病细胞的钙调途径,Genmapp对数据整理的形象描述,转录调控网络,通过表达谱将基因
3、聚类,识别每类基因可能存在的共有转录调控因子的结合区域,综合相应的转录调控因子和各类基因,构成基因调控网络。,调控元件分析,共表达在一定程度上意味共调控,从共调控序列的上游序列能得到共有调控元件。同一个类别中的基因在转录中可能受共同调控,而表达谱聚类分析是高通量识别共调控基因群的最有效和最方便的手段。通过分析同处在一个类中的基因共有保守序列就能发现调控区域和调控元件。,基因芯片技术预测调控元件常用的策略,工具,聚类工具:Kmeans,SOM多序列比对工具:保守性、特异性LOGO的显示:Weblogo,Gene Ontology数据库中基因功能分类的分析,GO研究目的:1)提供和维护基因本体论的
4、类别;2)把基因与本体论联系起来,从而进行更有效的基因功能注释和信息提取;3)提供工具来便于对基因信息的利用。,Gene Ontology数据库中基因功能分类的分析,GO提供三种本体论分类:1)分子功能(molecular function)、2)生物学过程(biological process)3)细胞组分(cellular component)。,在每一个分类中,都提供一个描述相关信息的分级结构。,http:/,使用AmiGO浏览GO的例子,Pathway分析 KEGG数据库,http:/,KEGG结果,TCA cycle(三羧酸循环)的KEGG生物学通路,BioCarta,http:/,
5、BioCarta结果,BioCarta数据库中的AKT信号转导通路,基因芯片实验与功能分析(GO pathway analysis),第一种方法是把发生差异表达的基因和GO pathway联系起来,并且使用不同的颜色来表示其中的差异表达基因,使其能够很容易地被检测到。这是一种比较直观的方法。例如:根据在某一GO分类中发生差异表达的基因的数量,来推理与此GO分类相关的生物学功能是否发生了改变。,基因芯片实验与功能分析(GO pathway analysis),基因芯片实验与功能分析(GO pathway analysis),第二种方法是对基因芯片检测的结果进行统计学分析,从而确定一系列发生差异表
6、达的基因是否多到可以代表某些生物学通路。通常用富集度分析。,http:/,GeneMAPP,GenMAPP(Gene MicroArray Pathway Profiler)是一个可以免费使用的计算机程序,用来显现和分析基因芯片的表达谱实验结果,并且将分析结果与生物学通路和其它基因群联系起来。,GeneMAPP,顺向技术和反向技术,勾勒网络有顺向技术和反向技术(reverse-engineering)。顺向技术:是指先根据生物化学知识,推导出一些关系,设计出简单网络,并通过实验来证实。反向技术:是指从已有的表达数据中,去推断其中蕴含的网络。海量堆积的芯片数据,正需要反向技术来挖掘其中的生物意义
7、。,基因网络研究的源起和发展,基因调控网络:运用生物信息学的方法和技术,通过数据采集、分析、建模、模拟和推断等手段研究复杂的网络关系,在基因组层次上揭示有关的作用机理。基因网络的研究始于20世纪60年代,Rater描述了控制原核生物的分子基因系统组织的特点。另一项研究是Kaufman通过简单的逻辑规则研究基因网络动力学。20世纪90年代实验数据的增加加速了基因网络理论的研究,到目前为止已发展了很多研究基因网络的方法:如结构方程模型、随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等。,基因调控网络研究的目的和内容,识别和推断基因网络的结构、特性和调控关系认识复杂的分子调控过程理解支
8、配基因表达和功能的基本规则揭示基因表达过程中的信息传输规律整体的框架下研究基因的功能,芯片数据识别和推断网络,目前研究最多的是从基因表达谱推断和识别基因网络。从表达数据识别基因调控网络结构;通过随机扰动,分析个体基因对全局动态网络性能的影响,得出网络特性;根据大规模的数据进行基因网络分析,识别基因网络中的调控关系,获得网络参数,推断网络特征;通过建立静态网络,推断网络中基因之间在稳态下的相互作用机制;在表达谱的基础上推断基因功能和生物网络的线路逻辑;识别基因网络的因果结构等等。,芯片数据识别和推断网络,生物信息学通过对基因网络的关系进行适当简化和定量化处理,根据实验获得的数据和已知的经验知识发
9、掘关系信息,建立网络模型,通过模拟分析和实验测试挖掘各种关系研究网络特性,认识调控关系和相关机制。,权重矩阵网络,权重矩阵网络:假如基因的表达与时间无关,某个时刻的基因的表达只是受到这个时刻其它基因表达量的影响。,线性结构方程组,Y:endogenous variablesX:exogenous variables,布尔网络,基因的表达是一个连续的过程,若将其离散化处理,那么就得到布尔网络。一个布尔网络含有N个节点(每个节点就是基因),当这些基因被抑制或者表达,节点分别表现出的状态是0和1。布尔网络从初始状态开始,经过一系列的状态转换,最终到达最终的稳定状态。从不同的初始状态出发,布尔网络会达
10、到不同的中止状态,而这些不同的中止状态对应于细胞相对稳定的生化状态。,布尔网络,它有一些和真正的生物基因网络可比的特征,例如,全局性,自组织性,冗余性等等。布尔网络在应用于调控网络学习时仍然存在很多缺点:基因只有开和关两种状态;不能量化调控关系;要求所有基因的状态必须同步变化。,常微分方程,在常微分方程模型中,方程的变量包括RNAs、蛋白质及其他生物小分子,基因调控关系可以用分子表达水平的变化率函数来表示,常微分方程,常微分方程族方法在建模时存在不少的问题:适用于在大多数基因和它们的调控关系相对比较清楚的情况;要求基因状态同步发生变化;在模型中对变量之间的关系过多的简化,比如表达量函数通常是简
11、单的线性关系。,偏微分方程,生物调控网络不仅是单个细胞内部不同分子之间相互作用的结果,不同细胞内部基因产物的相互作用也会对分子的表达量产生影响。在偏微分模型中变量不仅是时间的函数,还可以是细胞序列号等变量的函数。,偏微分方程,该模型的最大优点是:比较符合生物网络的特点。但是该模型要求非常精确的分子绝对表达量,这一点是目前的基因芯片实验所达不到的。其次,对于比较大的复杂网络,寻找参数和数据之间最优匹配的计算代价非常高,难以用于实际数据分析。最后,由于在应用中通常需要对不同细胞之间分子的关系作较多的简化,因此对于复杂的生物网络并不能得到比较满意的效果。,贝叶斯网络,对于贝叶斯网络,调控网络学习问题
12、就是在给定打分函数和搜索策略的情况下,寻找和基因芯片数据拟合得最好的简单网络。贝叶斯网络的统计特性使得能够处理基因表达数据存在的噪音和随机问题。同时它还能用于处理信息不完备的系统。正是由于这些优点,贝叶斯网络方法在生物网络学习方面得到了广泛的应用。动态贝叶斯网络和卡尔曼滤波、隐马尔科夫模型、概率布尔网络等随机模型有关系,并且动态贝叶斯网络证明了在利用基因表达数据学习调控网络方面的优越性。,贝叶斯网络模型,(一)数据预处理。基因表达数据首先被离散成三种类型:-1,0,1。这一简化是基于一个基因的表达水平是否显著地低于,或者是近似,或者是显著地高于某个参照水平。(二)学习贝叶斯网络的算法。主要思想
13、是首先利用一些简单的统计量(如相关系数)对每个基因推导出少数几个可能的父母集合。在随后的寻找过程中,这个算法只是从这些可能的父母集合中寻找每个基因可能的调控基因,因此,这个算法可以从很小的网络空间中寻找到局部的(local)最佳结构。,贝叶斯网络模型,(三)对网络统计显著性的评估。对网络统计显著性的评估一般可以用我们上面定义的得分函数(BIC或AIC)来进行。(四)对于推导的网络的稳健性评估。这一步骤对学习贝叶斯网络是必不可少的。,构造大规模的网络,酵母转录网络,构造大规模的网络困难和不足,数据量不足相关数据库的建设和高质量软件的开发是一项紧迫而艰巨的任务 数据噪声和系统鲁棒问题以及数据采集和
14、分析的可靠性和数据集的可容性问题,构造大规模的网络困难和不足,建模时遇到的两难问题:求大导致模型粗糙试图建立适用于研究大规模基因网络的模型导致模型过于粗糙,不能很好反映真实情况;求全导致计算复杂试图建立高效、仿真的模型,使参数集规模过大、计算复杂度剧增,结果模型复杂到难以处理的程度。建模范围小使模型反映的网络范围狭小,从而使研究难以达到预期的目的和效果。分析模拟结果的生物学解释方面也存在一些问题。,第二节基因芯片数据的MIAME规则,芯片数据难以共享,基因芯片发展年限太短,最近才日趋成熟;数据复杂,例如需要详细描述芯片制备方法、基因信息,所用的实验条件、实验样品等;数据之间相互比较的难度大,因
15、为芯片结果不是基因的绝对丰度,而是和对照样本的相对比值,而所用对照样本没有统一标准;芯片生产平台、数据产生格式、处理软件,归一化方法都存在多样性等。另外目前一些文献上和已报告的芯片数据格式多样,信息不全,不能很好地评估芯片试验的质量、重复性、可靠性等,也影响了芯片结果数据的共享。必须有一个统一的标准来规范基因芯片实验数据。,MGED,MIAME规则,MIAME(Minimum information about a microarray experiment)标准:芯片实验的最低限度信息。是针对基因芯片提出了一套指导方案。构建基因芯片数据库的过程中,如果参考MIAME规则,那么整个基因芯片体系
16、的基本内容就不会被遗漏.制定MIAME规则的一个主要的目标就是能指导微阵列数据库和数据管理软件的开发。,MIAME规则,(1)每次实验记录的信息足以解释实验而且应该足够详细,使得能比较类似的实验和进行重复实验;(2)信息应当以一定方式结构化,使得能够有利于查询和数据分析和挖掘,比如结构化的词汇表,包括用一些标准化的名字注释生物样本和条件。,MIAMI主要内容,微阵列的描述 阵列相关信息微阵列上每个点的类型信息微阵列上每个点的信息 微阵列的类型信息 微阵列的详细信息 微阵列上对照点的信息,MIAMI主要内容,对基因表达实验的描述基因表达实验的设计;主要对整个实验项目进行简述 样品的信息,样品抽提
17、,标记的信息。杂交实验的信息。杂交获得的实验数据及后续数据分析的信息。MIAME规则从三个层面来考量微阵列杂交实验获得数据:原始数据,图像分析结果和均一化及分析后的结果数据。,第三节芯片实验设计原则和方法,芯片实验设计,根据实验目的、实验材料以及实验条件而选择合适的芯片,设计最佳的样品处理和收集方法,并在此基础上制定出杂交方案。杂交方案:包括参考样品的使用与否以及样品的配对方式,是实验设计的核心样品的处理和收集:重复样品的使用以及样品数量的确定,是否合并样品芯片探针的设计,芯片实验设计中存在的问题,缺乏统计学参与。不少实验设计中缺乏统计学家的参与,仅由生物学家完成。但是有关实验设计的研究通常是
18、由统计学家完成,并且高效率的设计往往比较复杂。经费原因。由于芯片技术的高成本而对芯片实验有不切实际的期望,希望一个实验能解答许多问题。追求多效性但往往低效。,基因芯片实验目的,类型比较(Class Comparison):通过比较不同样品类型的表达谱来找到差异表达的基因。类型发现(Class Discovery):通过基因表达谱的研究来对生物样品进行分类。,类型比较,样品间的生物学差异已知,目的是通过比较不同类型样本找出它们之间的差异表达基因,研究造成样本差异的内在机理,或者是利用差异基因建立预测模型用来对未知样本进行预测。比如,转基因动物与正常动物间的比较、疾病组织与正常组织间的比较、不同生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因芯片技术 基因芯片 技术 系统 生物学
链接地址:https://www.31ppt.com/p-6077051.html