基因芯片原理及数据分析01.ppt
基因芯片原理及数据分析,杨德印生物信息学系,参考教材和资料,基因芯片数据分析与处理李瑶 化学工业出版社 2006年生物芯片分析 美M.谢纳 著 科学出版社DNA芯片技术的方法与应用 马文丽 郑文岭 广东科技出版社生物芯片技术 邢婉丽 程京 清华大学出版社生物芯片技术 陈忠斌 化学工业出版社基因芯片与功能基因组 李瑶 化学工业出版社Google,ncbi,endnote:网络资源,文章(Paper)相关关键词microarray,gene chip,gene expression,内容,基因芯片技术(概念、制作过程、应用等)基因芯片数据分析一般流程和主要内容,课程目的,基因芯片分析流程,生物学问题,实验设计,图像采集和处理(图像分析),芯片实验,预处理和标准化,聚类分析,差异表达基因分析,判别分析,基因网络分析,生物学解释和验证,基因芯片数据分析,基因芯片的产生,人类基因组计划完成,人类基因组研究的重心逐渐进入后基因组时代(PostgenomeEra)向基因的功能及基因的多样性倾斜,基因芯片正是迎合这一需要产生的 基因芯片技术在不同学科和技术的基础上发展起来的。,基因芯片技术,基因芯片的技术发展历史,基因芯片技术,Southern&Northern Blot,Dot Blot,Macroarray,Microarray,Based on Southern BIot Technology(Edward Southern,1975,J.Mol.Biol.)1990:first high-density Nylon filter Arrays(Lennon/Lehrach,1991,Trends Genet.,Review)1995:cDNA-Microarrays described by Schena et al,Science1996:Affymetrix Genechip Technology described by Lockhart et al,Nat.Biotechnol,基因芯片的概念,基因芯片(Gene chip)指对数以千记的DNA片段同时进行处理分析的技术,诸如基因组DNA突变谱和 mRNA表达谱的检测等。该技术系指将大量探针分子固定于支持物上后与标记的样品分子进行杂交,通过检测每个探针分子的杂交信号强度进而进行大量的基因表达及监测等方面研究的最新革命性技术。探针:所谓基因探针只是一段人工合成的碱基序列,在探针上连接一些可检测的物质,根据碱基互补的原理,利用基因探针到基因混合物中识别特定基因。它将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析。基因芯片示例图片,基因芯片技术,基因芯片原型,基因芯片技术,基因芯片的制作、检测,基因芯片技术,基因芯片的其他称呼,通常用计算机硅芯片作为固相支持物,所以基因芯片(gene chip)又称DNA芯片,DNA微阵列(DNA microarray)。DNA芯片为生物芯片(biochip)的一种,基因芯片是生物芯片中应用最广泛、技术最成熟的一种,它来源于计算机芯片.一块基因芯片相当于一个集成处理器,其中的每个探针相当于一个探头,能对相关及大量信息实现同时、自动和快速的采集、传输、分析和处理,做出相应的检测和诊断.,基因芯片技术,什么是生物芯片(Biochips)?,生物芯片是将大量生物识别分子按预先设置的排列固定于一种载体(如硅片、玻片及高聚物载体等)表面,利用生物分子的特意性亲和反应,如核酸杂交反应,抗原抗体反应等来分子各种生物分子存在的量的一种技术。生物芯片包括:DNA芯片蛋白质芯片组织芯片其它芯片,基因芯片技术,基因芯片分类,根据功能基因表达谱芯片DNA测序芯片疾病监测的诊断类芯片。根据探针类型Cdna寡核苷酸,基因芯片技术,基因芯片分类,按制备方式原位合成:指根据预先设计的点阵序列在每个位点通过有机合成的方式直接聚合得到所要求的探针分子。聚合之后芯片片基的制作即告结束。-Affymetrix公司研制 安捷伦公司点样法(1)首先是探针库的制备,根据基因芯片的分析目标从相关的基因数据库中选取特异的序列进行PCR扩增或直接人工合成寡核苷酸序列,(2)然后通过计算机控制的三坐标工作平台用特殊的针头和微喷头分别把不同的探针溶液逐点分配在玻璃、尼龙以及其它固相基片表面的不同位点上,通过物理和化学的方法使之固定 该方法各技术环节均较成熟,且灵活性大,适合于研究单位根据需要自行制备点阵规模适中的基因芯片 斯坦福大学,基因芯片技术,基因芯片的优点,基因芯片的最大优点在于其高通量。传统方法检测众多基因要经历多次实验而且自动化程度低,因而每次实验之间是存在系统误差的。基因芯片可以克服这个缺点,众多基因的探针的标记、杂交等过程是在一次实验过程中完成的,而且自动化程度高,数据客观可靠。,基因芯片技术,基因芯片的缺点,基因芯片的缺点在于其不能对待检测基因在多细胞类型组织中的精确定位进行判断。另外很多蛋白质调节其功能不主要是依赖其是否表达或表达量高低,而是依赖蛋白质磷酸化-去磷酸化等方式。在这种情况下,用核酸类生物芯片就没有什么意义了,蛋白类芯片可能会有所作为的。从数据分析的角度,高维,小样本,高噪。,基因芯片技术,基因芯片的应用,发育相同的遗传物质,不同的细胞形状、大小、功能等 全基因组表达谱研究-分子调控疾病研究不同疾病导致不同的基因表达异常 比较正常组织和疾病组织的表达谱差异-疾病发生的分子基础-预防和治疗药物发现很多药物通过与特定的药靶结合,抑制蛋白质的功能,影响基因的表达 比较病人疾病发生的过程和用药过程基因表达的变化情况-药物发现、毒理研究和临床药效研究-降低成本、缩短研发周期、降低药物的毒副作用等遗传筛查和诊断人类基因的多态性-个性化诊疗,基因芯片数据分析流程,生物学问题,实验设计,图像采集和处理(图像分析),芯片实验,预处理和标准化,聚类分析,差异表达基因分析,判别分析,基因网络分析,生物学解释和验证,基因芯片数据分析,基因芯片图像的处理,划格分割信息提取,杂交后数据的获得,两张图的获得:对双色cDNA芯片经激光扫描仪扫描后,Cy3(参照样本)、CY5(实验样本)对每个点四个数据的获得红色前景荧光强度 Rf 红色背景荧光强度 Rb绿色前景荧光强度 Gf 绿色背景荧光强度 Gb对荧光强度可以用相应信号像素强度的平均值,中位值,众数值获得背景校正后红色荧光强度R=Rf-Rb 绿色荧光强度G=Gf-GbM和A点的对数差异表达比M=log2(R/G):样本相对于参照样本的相对表达强度点的对数强度=1/2(log2RG)=1/2(log2R+log2G):点的整体亮度 备注:对Affymetrix采用的短的寡核苷酸芯片,采用单色荧光标记,则表达值为实验组合对照组两张芯片的信号比值,数据,数据表示:常用矩阵表示,即行列表示含义主要基因芯片数据库smd,Geo(www.ncbi,nih.gov/geo),EBI ArrayExpress,Outline,得到矩阵后?,芯片数据:众多基因的时空表达情况基因表达模式-聚类差异表达基因筛选(疾病相关基因筛选)疾病类型识别网络分析:通过芯片数据找出基因之间的相互作用基因注释其他,基因芯片数据分析流程,生物学问题,实验设计,图像采集和处理(图像分析),芯片实验,预处理和标准化,聚类分析,差异表达基因分析,判别分析,基因网络分析,生物学解释和验证,基因芯片数据分析,基因芯片数据的预处理是一个十分关键的步骤,通过数据过滤获取需要的数据、数据转换满足正态分布的分析要求、缺失值的估计弥补不完整的数据、数据归一化纠正系统误差等处理为后续分析工作做准备,预处理分析的重要性并不亚于基因芯片的后续分析,它将直接影响后续分析是否能得到预期的结果,Arraytools,预处理和归一化,背景的校正弱信号的处理数据的对数转换重复数据的合并异常值和缺失值得处理数据的归一化,一、背景的校正,原因:点的荧光强度是背景荧光和标记DNA产生的荧光的共同作用,减去背景荧光强度才能真正反映基因的真实转录水平方法局部背景校正亚栅格背景校正分组背景校正空白点背景校正对照点背景校正,二、弱信号的处理,原因(背景):很多点信号强度很弱,但是并不是低质量的点,不能删除。弱信号点的分类:1)噪声引起,尤其当前景信号强度接近背景信号强度,背景校正后,红绿光的荧光强度波动较大 2)重要信息点:可能少量的表达就起到重要的作用,弱信号的处理方法,分离噪声和有价值意义的弱信号点1)重复芯片试验,观察弱信号点的稳定性,但成本高,提高分析的复杂性;2)找到一个适当的信号强度阈值,低于该值的点删掉简单信号强度阈值信噪比通过背景、空白点、阴性对照点确定弱信号的阈值信号强度的累积分布函数确定阈值,三、数据的对数转换,对换原因生物学上易于理解使数据的分布满足对称性和近似正态分布、满足常用的统计分析方法使用的方便性,四、重复数据的合并,重复的必要性:减少变异,增强稳定性,便于统计分析重复的类型点的重复:注意合理布局芯片的重复:技术重复:RNA制备重复、标记重复、杂交重复生物学重复重复数据的合并计算重复值的集中趋势指标,五、异常值和缺失值的处理,异常值的产生芯片的缺陷点像素强度达到饱和点像素强度非常小异常值的处理删掉,微阵列获取软件标记,数据预处理阶段去除缺失值的产生:异常值去除,缺失值的处理,处理的必要性:一些统计学方法要求数据的完整性,比如奇异值分解,某些基因的聚类分析处理的方法删掉缺失值得整条记录(所在行和列,即删掉基因和相关的样本)便于操作,但是会丢失大量有价值的信息数据填充使用重复数据点利用基因的相关性,使用重复数据点,条件:缺失数据发生在含有重复测量点方法:利用未缺失的重复数据点的集中趋势指标估计单张芯片上的重复点技术重复:可以用其他进行技术重复的芯片上集中趋势来估计生物学重复:需要谨慎,尽量使用同质的样品估计,例如癌症组织的某个样品的某个基因的缺失,不能用正常组织样本,利用基因的相关性,预测模型的建立应变量:需要填充的变量自变量:其他变量(不能有缺失值)方法行均数、中位数、0等简单填充使用回归模型对每个变量的缺失数据进行迭代性的预测奇异值分解(特征选择、特征提取)有一个适当完整的基因数据集没有或者难于找到一个完整的基因数据集 K-近邻法,K-近邻法,方法(假定某个基因在某个指标上有缺失值)计算缺失值的基因和其他基因的相似性指标和距离指标(要估计的指标不参与计算)该基因的K个最近邻:找出与该基因最相似的K个基因计算这K个基因在该指标上的均数或者加权均数 K一般取10-20之间(Troyanskaya等分析发现的结果),六、数据的归一化,原因:系统误差的存在,使得同一芯片上和不同芯片间基因表达水平的直接比较无法实现,需要消除它点样头芯片的空间位置,影响Cy3和Cy5的因素,随机变异:随机因素引起,无法控制系统变异:系统变异样品的生物学变异:研究的目的系统误差:Cy3和Cy5等荧光标记物的物理化学性质扫描仪的属性设置对荧光强度测量的影响两种荧光标记物在标记效率上的差异不同点样头的差异芯片的空间位置的不同使得测量结果不能反映生物学差异,使得同一芯片上和不同芯片间基因的表达水平直接比较无法实现=根据系统误差的来源对数据进行归一化,消除系统误差,系统误差的图形呈现方法,系统误差的图形呈现方法,2.MA散点图-1,系统误差的图形呈现方法,2.MA散点图-2,系统误差的图形呈现方法,3.分组箱式图,归一化的步骤,非差异表达基因的选取校准,非差异表达基因的选择,全部基因或大多数基因管家基因对照秩不变基因,归一化方法的分类,序列内归一化多张芯片间的归一化染色互换配对设计的芯片的归一化,序列内归一化,位置的归一化全局归一化强度依存偏倚的归一化稳健现行回归局部加权线性回归:LOWESS LOESS分段归一化点样头分组的归一化离散度的序列内归一化,标准化,做一次转换,标准化,