《基因芯片技术》第9章-基因芯片与系统生物学.ppt
基因芯片技术,Gene chip technology,第9章 基因芯片与系统生物学,内容提要:第一节 系统生物学与基因芯片 第二节 基因芯片数据的MIAME规则 第三节 芯片实验设计原则和方法,第一节 系统生物学与基因芯片,系统生物学四个方面,一是系统结构:包括基因,蛋白间关系;由此得到的基因蛋白网络和生物通路(pathway),以及这些相互之间关系所牵涉到的细胞内、外结构的物理特性和机制。二是系统动力学:在不同时间点不同条件下系统的行为。通过代谢分析,敏感性分析,动力学分析工具、识别不同行为内在机制分析方法等来研究。三是系统的控制方法。搞清楚控制细胞处于各种状态的机制,然后模拟系统,能得到治疗疾病的药靶。四是设计的方法。基于某些设计的原则和模拟方法,可以修正和构造具有所需特性的系统,而不必盲目地反复实验。,系统生物学两个关键技术基础,1.“组学”数据基础:从基因组学到功能基因组学从大量的测序数据到大量生命过程中结构与功能的数据:基因组、转录组、蛋白组、结构基因组、代谢组、生理组、表型组、化学(药物)基因组2.检测和实验技术基础:功能基因组检测技术平台:单分子测序、生物芯片等 系统生物学研究技术和体系:细胞和动物模型(人类样品库)、药物材料库、生物信息和生物计算技术,图:有丝分裂,细胞周期图,心脏病细胞的钙调途径,Genmapp对数据整理的形象描述,转录调控网络,通过表达谱将基因聚类,识别每类基因可能存在的共有转录调控因子的结合区域,综合相应的转录调控因子和各类基因,构成基因调控网络。,调控元件分析,共表达在一定程度上意味共调控,从共调控序列的上游序列能得到共有调控元件。同一个类别中的基因在转录中可能受共同调控,而表达谱聚类分析是高通量识别共调控基因群的最有效和最方便的手段。通过分析同处在一个类中的基因共有保守序列就能发现调控区域和调控元件。,基因芯片技术预测调控元件常用的策略,工具,聚类工具:Kmeans,SOM多序列比对工具:保守性、特异性LOGO的显示:Weblogo,Gene Ontology数据库中基因功能分类的分析,GO研究目的:1)提供和维护基因本体论的类别;2)把基因与本体论联系起来,从而进行更有效的基因功能注释和信息提取;3)提供工具来便于对基因信息的利用。,Gene Ontology数据库中基因功能分类的分析,GO提供三种本体论分类:1)分子功能(molecular function)、2)生物学过程(biological process)3)细胞组分(cellular component)。,在每一个分类中,都提供一个描述相关信息的分级结构。,http:/,使用AmiGO浏览GO的例子,Pathway分析 KEGG数据库,http:/,KEGG结果,TCA cycle(三羧酸循环)的KEGG生物学通路,BioCarta,http:/,BioCarta结果,BioCarta数据库中的AKT信号转导通路,基因芯片实验与功能分析(GO pathway analysis),第一种方法是把发生差异表达的基因和GO pathway联系起来,并且使用不同的颜色来表示其中的差异表达基因,使其能够很容易地被检测到。这是一种比较直观的方法。例如:根据在某一GO分类中发生差异表达的基因的数量,来推理与此GO分类相关的生物学功能是否发生了改变。,基因芯片实验与功能分析(GO pathway analysis),基因芯片实验与功能分析(GO pathway analysis),第二种方法是对基因芯片检测的结果进行统计学分析,从而确定一系列发生差异表达的基因是否多到可以代表某些生物学通路。通常用富集度分析。,http:/,GeneMAPP,GenMAPP(Gene MicroArray Pathway Profiler)是一个可以免费使用的计算机程序,用来显现和分析基因芯片的表达谱实验结果,并且将分析结果与生物学通路和其它基因群联系起来。,GeneMAPP,顺向技术和反向技术,勾勒网络有顺向技术和反向技术(reverse-engineering)。顺向技术:是指先根据生物化学知识,推导出一些关系,设计出简单网络,并通过实验来证实。反向技术:是指从已有的表达数据中,去推断其中蕴含的网络。海量堆积的芯片数据,正需要反向技术来挖掘其中的生物意义。,基因网络研究的源起和发展,基因调控网络:运用生物信息学的方法和技术,通过数据采集、分析、建模、模拟和推断等手段研究复杂的网络关系,在基因组层次上揭示有关的作用机理。基因网络的研究始于20世纪60年代,Rater描述了控制原核生物的分子基因系统组织的特点。另一项研究是Kaufman通过简单的逻辑规则研究基因网络动力学。20世纪90年代实验数据的增加加速了基因网络理论的研究,到目前为止已发展了很多研究基因网络的方法:如结构方程模型、随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等。,基因调控网络研究的目的和内容,识别和推断基因网络的结构、特性和调控关系认识复杂的分子调控过程理解支配基因表达和功能的基本规则揭示基因表达过程中的信息传输规律整体的框架下研究基因的功能,芯片数据识别和推断网络,目前研究最多的是从基因表达谱推断和识别基因网络。从表达数据识别基因调控网络结构;通过随机扰动,分析个体基因对全局动态网络性能的影响,得出网络特性;根据大规模的数据进行基因网络分析,识别基因网络中的调控关系,获得网络参数,推断网络特征;通过建立静态网络,推断网络中基因之间在稳态下的相互作用机制;在表达谱的基础上推断基因功能和生物网络的线路逻辑;识别基因网络的因果结构等等。,芯片数据识别和推断网络,生物信息学通过对基因网络的关系进行适当简化和定量化处理,根据实验获得的数据和已知的经验知识发掘关系信息,建立网络模型,通过模拟分析和实验测试挖掘各种关系研究网络特性,认识调控关系和相关机制。,权重矩阵网络,权重矩阵网络:假如基因的表达与时间无关,某个时刻的基因的表达只是受到这个时刻其它基因表达量的影响。,线性结构方程组,Y:endogenous variablesX:exogenous variables,布尔网络,基因的表达是一个连续的过程,若将其离散化处理,那么就得到布尔网络。一个布尔网络含有N个节点(每个节点就是基因),当这些基因被抑制或者表达,节点分别表现出的状态是0和1。布尔网络从初始状态开始,经过一系列的状态转换,最终到达最终的稳定状态。从不同的初始状态出发,布尔网络会达到不同的中止状态,而这些不同的中止状态对应于细胞相对稳定的生化状态。,布尔网络,它有一些和真正的生物基因网络可比的特征,例如,全局性,自组织性,冗余性等等。布尔网络在应用于调控网络学习时仍然存在很多缺点:基因只有开和关两种状态;不能量化调控关系;要求所有基因的状态必须同步变化。,常微分方程,在常微分方程模型中,方程的变量包括RNAs、蛋白质及其他生物小分子,基因调控关系可以用分子表达水平的变化率函数来表示,常微分方程,常微分方程族方法在建模时存在不少的问题:适用于在大多数基因和它们的调控关系相对比较清楚的情况;要求基因状态同步发生变化;在模型中对变量之间的关系过多的简化,比如表达量函数通常是简单的线性关系。,偏微分方程,生物调控网络不仅是单个细胞内部不同分子之间相互作用的结果,不同细胞内部基因产物的相互作用也会对分子的表达量产生影响。在偏微分模型中变量不仅是时间的函数,还可以是细胞序列号等变量的函数。,偏微分方程,该模型的最大优点是:比较符合生物网络的特点。但是该模型要求非常精确的分子绝对表达量,这一点是目前的基因芯片实验所达不到的。其次,对于比较大的复杂网络,寻找参数和数据之间最优匹配的计算代价非常高,难以用于实际数据分析。最后,由于在应用中通常需要对不同细胞之间分子的关系作较多的简化,因此对于复杂的生物网络并不能得到比较满意的效果。,贝叶斯网络,对于贝叶斯网络,调控网络学习问题就是在给定打分函数和搜索策略的情况下,寻找和基因芯片数据拟合得最好的简单网络。贝叶斯网络的统计特性使得能够处理基因表达数据存在的噪音和随机问题。同时它还能用于处理信息不完备的系统。正是由于这些优点,贝叶斯网络方法在生物网络学习方面得到了广泛的应用。动态贝叶斯网络和卡尔曼滤波、隐马尔科夫模型、概率布尔网络等随机模型有关系,并且动态贝叶斯网络证明了在利用基因表达数据学习调控网络方面的优越性。,贝叶斯网络模型,(一)数据预处理。基因表达数据首先被离散成三种类型:-1,0,1。这一简化是基于一个基因的表达水平是否显著地低于,或者是近似,或者是显著地高于某个参照水平。(二)学习贝叶斯网络的算法。主要思想是首先利用一些简单的统计量(如相关系数)对每个基因推导出少数几个可能的父母集合。在随后的寻找过程中,这个算法只是从这些可能的父母集合中寻找每个基因可能的调控基因,因此,这个算法可以从很小的网络空间中寻找到局部的(local)最佳结构。,贝叶斯网络模型,(三)对网络统计显著性的评估。对网络统计显著性的评估一般可以用我们上面定义的得分函数(BIC或AIC)来进行。(四)对于推导的网络的稳健性评估。这一步骤对学习贝叶斯网络是必不可少的。,构造大规模的网络,酵母转录网络,构造大规模的网络困难和不足,数据量不足相关数据库的建设和高质量软件的开发是一项紧迫而艰巨的任务 数据噪声和系统鲁棒问题以及数据采集和分析的可靠性和数据集的可容性问题,构造大规模的网络困难和不足,建模时遇到的两难问题:求大导致模型粗糙试图建立适用于研究大规模基因网络的模型导致模型过于粗糙,不能很好反映真实情况;求全导致计算复杂试图建立高效、仿真的模型,使参数集规模过大、计算复杂度剧增,结果模型复杂到难以处理的程度。建模范围小使模型反映的网络范围狭小,从而使研究难以达到预期的目的和效果。分析模拟结果的生物学解释方面也存在一些问题。,第二节基因芯片数据的MIAME规则,芯片数据难以共享,基因芯片发展年限太短,最近才日趋成熟;数据复杂,例如需要详细描述芯片制备方法、基因信息,所用的实验条件、实验样品等;数据之间相互比较的难度大,因为芯片结果不是基因的绝对丰度,而是和对照样本的相对比值,而所用对照样本没有统一标准;芯片生产平台、数据产生格式、处理软件,归一化方法都存在多样性等。另外目前一些文献上和已报告的芯片数据格式多样,信息不全,不能很好地评估芯片试验的质量、重复性、可靠性等,也影响了芯片结果数据的共享。必须有一个统一的标准来规范基因芯片实验数据。,MGED,MIAME规则,MIAME(Minimum information about a microarray experiment)标准:芯片实验的最低限度信息。是针对基因芯片提出了一套指导方案。构建基因芯片数据库的过程中,如果参考MIAME规则,那么整个基因芯片体系的基本内容就不会被遗漏.制定MIAME规则的一个主要的目标就是能指导微阵列数据库和数据管理软件的开发。,MIAME规则,(1)每次实验记录的信息足以解释实验而且应该足够详细,使得能比较类似的实验和进行重复实验;(2)信息应当以一定方式结构化,使得能够有利于查询和数据分析和挖掘,比如结构化的词汇表,包括用一些标准化的名字注释生物样本和条件。,MIAMI主要内容,微阵列的描述 阵列相关信息微阵列上每个点的类型信息微阵列上每个点的信息 微阵列的类型信息 微阵列的详细信息 微阵列上对照点的信息,MIAMI主要内容,对基因表达实验的描述基因表达实验的设计;主要对整个实验项目进行简述 样品的信息,样品抽提,标记的信息。杂交实验的信息。杂交获得的实验数据及后续数据分析的信息。MIAME规则从三个层面来考量微阵列杂交实验获得数据:原始数据,图像分析结果和均一化及分析后的结果数据。,第三节芯片实验设计原则和方法,芯片实验设计,根据实验目的、实验材料以及实验条件而选择合适的芯片,设计最佳的样品处理和收集方法,并在此基础上制定出杂交方案。杂交方案:包括参考样品的使用与否以及样品的配对方式,是实验设计的核心样品的处理和收集:重复样品的使用以及样品数量的确定,是否合并样品芯片探针的设计,芯片实验设计中存在的问题,缺乏统计学参与。不少实验设计中缺乏统计学家的参与,仅由生物学家完成。但是有关实验设计的研究通常是由统计学家完成,并且高效率的设计往往比较复杂。经费原因。由于芯片技术的高成本而对芯片实验有不切实际的期望,希望一个实验能解答许多问题。追求多效性但往往低效。,基因芯片实验目的,类型比较(Class Comparison):通过比较不同样品类型的表达谱来找到差异表达的基因。类型发现(Class Discovery):通过基因表达谱的研究来对生物样品进行分类。,类型比较,样品间的生物学差异已知,目的是通过比较不同类型样本找出它们之间的差异表达基因,研究造成样本差异的内在机理,或者是利用差异基因建立预测模型用来对未知样本进行预测。比如,转基因动物与正常动物间的比较、疾病组织与正常组织间的比较、不同生长状态下细胞株的比较,类型比较时样本的选择,根据不同的检测目标选用不同的样本,可以是组织来源或者血液来源,也可以是培养的细胞或者病人的体外分泌物。组织样本比较宝贵。病人组织和培养的细胞还是有一定差异的。内源性基因用活检组织最好,当针对不同诱导物的诱导进行基因表达谱研究时用培养的细胞。样品要准确,类型比较,简单离散型差异比较:所需比较类型不多,或者虽然样品组数较多,但并不需要在所有样品间两两比较,而是用一个参照样品测出其他样品的相对差异表达。比如,一组疾病样本与一组正常样本间比较,或者要测试许多药物,但只关心药物和非药物之间的差异,而不是药物彼此间差异。,类型比较,连续型差异比较:实验样本与对照样本间仅有一种差异因素,但差异因素有很多种状态,近似于连续变量。比如,同一种药物不同剂量下基因表达谱变化或者同一药物不同时间下基因表达谱变化,细胞周期研究中不同时间点基因表达谱变化。每一个点都是与对照比较,但各点彼此相关,常用聚类分析或相关分析。,类型比较,多因子实验:几种因素及它们之间相互作用造成的表达谱差异。比如,研究两种生长因子对细胞生长的影响,每一种因子与对照作比较,而比较两种因子共同处理下与一种因子单独处理可以得到需要两种因子共同刺激才能表达的基因,这些基因就体现了相互作用。随着变量数目及每个变量状态数目的增加,需要考虑的相互作用大大增加了。,类型发现,样本间的生物学差异是未知的,实验目的是通过基因表达谱的差异对样本进行归类往往通过聚类分析同时找到样本的类型划分和差异基因比如,临床医学研究中对疾病亚型的分类,基础研究中也可以研究细胞株的分类及活体组织的分类,样本配对方案,如何将样品配对如何选择标记染料如何将样品分配到芯片上共同参照、直接比较、环状、更复杂的设计,共同参照方案,所有的芯片都只将一种染料用于实验样品,另一种染料被用于一个参考样品。使用参考样品目的是校正芯片点样量的误差所有芯片表达量基于同样基准的相对值,因而是可比的。,参照样品的选用,所用的实验样品等量混合 优点:参考样品与实验样品相似,校正作用较好 缺点:不同实验不能比较一些与实验无关,但来源广泛切大部分基因均有表达的RNA样本(多种细胞株或多种组织的mRNA)混合 缺点:参考样本与实验样本无关,参考样本中缺少某些基因使校正功能丧失 优点:参考样本稳定可靠,易于进行多实验比较,共同参照方案,适合大规模比较、需要聚类分析或相关性分析的实验,以及一些需要进行很多两两比较的实验。优点:较好的牢固性(少数样品的损失对整个实验影响较小,不需要染料互换),可扩展性。缺点:误差大些,所需芯片更多一些。,直接比较方案,一个实验样品和一个对照样品分别标记两种染料,杂交到同一芯片。实验组和对照组的基因表达差异值直接从两种染料的比值中得到。,直接比较方案,适用于两个样本间差异表达基因的寻找优点:节省芯片,测量精度高缺点:不适合聚类分析和相关分析,不适合在不同样品之间进行多种比较(样品之间没有经过同一对照校正,不具有直接可比性),染料互换,直接比较中,两种染料可能带来系统误差(有些基因用一种染料测出的表达量比用另一种染料测出的表达量高)标记mRNA是不同的基因对Cy5和Cy3有不同的标记效率,在杂交结果上表现出由染料造成的差异。解决办法:染料互换(Dye Swapping)(一半的芯片用Cy5标记的对照组样品和Cy3标记的实验组样品杂交,另一半芯片用Cy3标记的对照组样品和Cy5标记的实验组样品杂交),环状设计及更复杂的网状设计,适用于比较复杂的特别是有较多样品组别需要比较的实验优点:同时运用直接和间接方法提高测量精度缺点:复杂,中间可能缺失在相隔较远节点间增加一些杂交,环状成网状,TA,TB,TC,TA,TB,TC,TD,TB,TC,TD,TE,TA,样本配对模式的选择,实验目的,实验室生物学背景和每个实验室具体情况类型发现实验需要经过聚类分析,一般采用间接比较模式简单离散型比较实验采用直接比较模式合适,能在花费较低情况下得到比较准确的结果连续型比较实验常要用聚类分析和相关分析,多采用间接比较模式。,时间序列实验,用了4张芯片,间接比较,测定误差大但适用于各种比较,用了3张芯片,起始时间作为对照直接比较,T1为通用参照,适用于各个时间与起始时间的比较,T1,T2,T3,T4,用了3张芯片,直接按顺序比较,适用于相邻时间样品间的比较,T1,T2,T3,T4,用了4张芯片,T1为通用对照,在直接比较方案上增加一些配对以提高测定精确度,多因子实验,多因子实验和复杂的离散型比较实验多采用网状或环状,以提高效率并满足其多重比较的特点。,A,B,AB,C,C,A,AB,B,C,A,AB,B,用了6张芯片,间接比较,测定误差大,但所需样品最少,用了6张芯片,环状,综合精度最高,但A因子测量误差大,用了6张芯片,网状,但AB作用测量误差大,C是空白对照,探针的设计,一般由芯片制造商完成寡核苷酸和cDNA探针设计定制或查阅克隆信息一般都从公开的数据库:EST(expressed sequence tags),Unigene,RefSeq(reference sequences),控制系统的设计,空白点。控制芯片制备过程中的污染阴性内参。对实验阴性结果的说明阳性内参。对实验阳性结果的说明定量内参或者管家基因。对实验结果量化的修正外参。与研究物种的基因没有同源性的基因。校正样本间的差异,样品重复,重复样本使用可以提高数据可靠性一个目的是通过重复样品的平均值得到更准确的测量结果另一个目的是计算样品群体的方差,用统计学的方法判断两组样品之间的差异是否有显著性。这对类型比较实验很重要,因为只有通过统计学的显著性才能判断得到的差异基因是否是真的。,样品重复,生物上的差异 个体差异 同一个体样本也有差异技术上的差异:样本的准备 抽提,标记和杂交 芯片,仪器和试剂,样品重复,技术上重复,RNA制备重复、染料标记重复和杂交重复统称为技术重复杂交步骤误差最大,首先考虑杂交重复技术重复可以检测实验系统的误差范围以确保实验系统没有问题,但不能进行实验的显著性分析。,降低技术上差异,实验流程流程标准化样本质控降低实验处理上的差异尽量降低人员差异(Technician-to-technician variability)实验仪器校正(Calibration of instrumentation)控制试剂差异(Control reagent variability),生物重复,用彼此独立的生物学样本重复重复样本的选择因实验目的不同而有所不同研究某种疾病与正常的比较,每个病人就是一个重复但对这种疾病进行分型时,病人之间差异可能就是病的差异,生物学重复应当时从同一病人体内取得的不同样品。,生物重复,性别(Sex-related expression patterns)取样时间(What time of day were the samples isolated?)组织(Each cell type has different expression patterns)饮食(Eating habits or media types will affect expression levels),生物重复,生物样本差异对结果的影响要远大于技术上的差异减轻生物差异的影响:在实验设计中将所有的引起差异的因素都考虑在内增加生物样本重复的次数技术重复只是检测手段上的重复,不一定需要。生物重复既检测不同样本上的差异又检测手段上的差异,必须的。,需要多少次重复?,尽可能多(Statistics says:The more replicates,the better your estimate of expression)5次(Experience shows:For most common experiments you get a reasonable list of differentially expressed genes with 5 replicates)3次(One to convince yourself,one to convince your boss,one just in case.),需要多少次重复?,significance level(probability of detecting FP)1-power to detect differences(probability of detecting TP)standard deviation of the log-ratios detectable difference between class mean log-ratiosz percentile of standard normal distribution n required number of arrays(reference design),需要多少次重复?,在各种生物学材料中,样本间误差值由低到高依次为培养细胞、动物组织、人体正常组织、人体肿瘤组织差异基因最多、差异值最大的往往是一些肿瘤比较实验及生长因子处理实验,差异最小的往往是生理状态比较实验。样本取样误差大,基因差异小情况下适当增加重复样品的数量实际设计中极少能用上这公式,因为上述参数随实验系统不同有很大差别,而实现实验设计者不知道这些数据,需要多少次重复?,根据样本的质量实验的设计分析的方法能给的经费,选什么芯片好?,什么样的芯片最适合自己,不同芯片的数据有没有可比性,芯片平台的标准,芯片数据的可靠性,MAQC:The MicroArray Quality Control Project(芯片质控联盟)MAQC Consortium,Nature Biotechnology,Vol.24,2006,FDA组织的来评估各种芯片数据的可信度(“An unprecedented,community-wide effect,spearheaded by FDA scientists,that seeks to experimentally address the key issues surrounding the reliability of DNA microarray data.”)137 researchers51 academic,government and commercial institutions7 microarray platformsProfile 2 RNA samples for expression,选什么芯片好?Conclusion,数据的可重复性都不错,可信度都很好“Within the MAQC study,there were notable differences in various dimensions of performance between microarray platforms.Some platforms had better intrasite repeatability overall(e.g.,Illumina),better intersite reproducibility(e.g.,Affymetrix),or more consistency in the detection calls(e.g.,GE Healthcare).Likewise,some platforms were more comparable to TaqMan assays(e.g.,Applied Biosystems and Agilent one-color),whereas others demonstrated signal compression(e.g.,NCI_Operon).”根据自己的喜好和经费,选什么芯片好?Conclusion,统计上的需要有一定的生物和技术上的重复考虑牢固性(由于某些原因,一些样品测定失败而导致数据缺损下仍能达到实验预期目的)和扩展性(一个实验完成之后可以比较容易地接受新加入的杂交而成为更大的实验)设计时要根据自己的实验目标、实验室的具体情况和费用而定,本章小结:,1 发生差异表达的基因和GO pathway联系起来,另一种方法是对基因芯片检测的结果进行统计学分析。2 在进行系统生物学研究时,常用到顺向技术和反向技术3 GeneMAPP是一个用于分析基因芯片的表达谱实验结果的常用免费软件4 研究基因网络的方法:结构方程模型、随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等。5 MIAME规则是使用芯片数据的通用规则 6 在进行芯片实验前要考虑:实验目标、实验室的具体情况和费用、统计上的需要、生物和技术上的重复性等,思考题:,1系统生物学研究包括哪些方面?2将基因芯片实验用于基因功能分析(GO pathway analysis)的主要方法?3顺向技术和反向技术的区别和联系?4研究基因网络的常用方法?5 MIAME规则的主要内容?6 在设计基因芯片实验时要考虑哪些方面?,The End Thank you,