生物信息学在基因芯片中的应.ppt
第八章 生物信息学在基因芯片中的应用,主讲人:孙 啸制作人:刘志华东南大学 吴健雄实验室,生物信息学和基因芯片是生命科学研究领域中的两种新方法和新技术,生物信息学与基因芯片密切相关,生物信息学促进了基因芯片的研究与应用,而基因芯片则丰富了生物信息学的研究内容,第一节 概述,、基因芯片简介,()基因芯片的基本原理及生物信息学的作用,基因芯片(gene chip),又称DNA微阵列(microarray),是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。基因芯片把大量已知序列探针集成在同一个基片上,经过标记的若干靶核酸序列通过与芯片特定位置上的探针杂交,便可根据碱基互补匹配的原理确定靶基因的序列。,根据探针的类型和长度,基因芯片可分为两类。其中一类是较长的DNA探针(100mer)芯片这类芯片的探针往往是PCR的产物,通过点样方法将探针固定在芯片上,主要用于RNA的表达分析。另一类是短的寡核苷酸探针芯片其探针长度为25 mer左右,一般通过在片(原位)合成方法得到,这类芯片既可用于RNA的表达监控,也可以用于核酸序列分析。,原理-通过杂交检测信息,一组寡核苷酸探针,TATGCAATCTAG,CGTTAGAT,ACGTTAGA,ATACGTTAGATC,TACGTTAG,由杂交位置确定的一组,核酸探针序列,GTTAGATC,杂交探针组,TATGCAATCTAG,重组的互补序列,靶序列,TACGTTAG,ACGTTAGA,ATACGTTA,CGTTAGAT,GTTAGATC,ATACGTTA,基因芯片,荧光标记的样品,共聚焦显微镜,获取荧光图象,杂交结果分析,探 针 设 计,杂交,()基因芯片制备,基因芯片的制备主要有两种基本方法:一是在片合成法,在片合成法是基于组合化学的合成原理,它通过一组定位模板来决定基片表面上不同化学单体的偶联位点和次序。在片合成法制备DNA芯片的关键是高空间分辨率的模板定位技术和固相合成化学技术的精巧结合。另一种方法是点样法。基因芯片点样法首先按常规方法制备cDNA(或寡核苷酸)探针库,然后通过特殊的针头和微喷头,分别把不同的探针溶液,逐点分配在玻璃、尼龙或者其它固相基底表面上不同位点,并通过物理和化学的结合使探针被固定于芯片的相应位点。,()靶基因样品的制备及芯片杂交,根据基因芯片的检测目的不同,可以把样品制备方法分为用于表达谱测量的mRNA样品制备用于多态性(或突变)研究的基因样品的制备,()杂交信号检测,对于用荧光素标记经扩增(也可用其他放大技术)的序列或样品,与芯片上的探针进行杂交,然后冲洗,采集荧光图像。图像的采集用落射荧光显微镜 或电荷偶联装置照相机 非共聚焦激光扫描仪等进行。,、基因芯片对于生物分子信息检测的作用和意义,在生命科学领域中,基因芯片为分子生物学、生物医学等研究提供了强有力的手段。利用基因芯片技术,可研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个体或物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功能,研究生物体在进化、发育、遗传过程中的规律。,、基因芯片研究和应用中所涉及到的生物信息学问题,提取什么信息如何提取信息如何处理和利用信息,确定芯片检测目标芯片设计数据管理与分析,探针设计解决杂交条件一致性问题,芯片优化提高芯片制备效率,公共 数据库,专用 数据库,确定目标选择待检测的目标序列,数据分析分析杂交检测结果及可靠性,基因芯片 数据库,图像处理,数 据 库 查 询 序 列 分 析,生 物 信 息 学 数 据 挖 掘 数 据 可 视 化,杂交检测图像,基因芯片数据流图,()生物信息学在基因芯片中的应用,生物信息学在基因芯片中的应用主要体现在三个方面:确定芯片检测目标芯片设计实验数据管理与分析,()基因芯片研究与应用中所要解决的信息学问题,在基因芯片信息学方面要解决以下几个关键的问题:第一是芯片设计问题第二是可靠性分析问题 第三是数据挖掘问题,第二节 基因芯片设计,、基因芯片设计的一般性原则基因芯片设计主要包括两个方面:(1)探针的设计指如何选择芯片上的探针(2)探针在芯片上的布局指如何将探针排布在芯片上。,确定芯片所要检测的目标对象查询生物分子数据库取得相应的DNA序列数据 序列对比分析找出特征序列,作为芯片设计的参照序列。数据库搜索得到关于序列突变的信息及其它信息。,在进行探针设计和布局时必须考虑以下几个方面:(1)互补性(2)敏感性和特异性(3)容错性(4)可靠性(5)可控性(6)可读性,、DNA变异检测型芯片与基因表达型芯片的设计,对于DNA序列变异分析,最基本的要求是能够检测出发生变异的位置,进一步的要求是能够发现发生了什么样的变化。从杂交的单碱基错配辨别能力来看,当错配出现在探针中心时,辨别能力强,而当错配出现在探针两端时,辨别能力非常弱。所以,在设计检测DNA序列变异的探针时,检测变化点应该对应于探针的中心,以得到最大的分辨率。,、cDNA芯片与寡核苷酸芯片的设计,cDNA芯片设计的关键在于数据库的建立和数据库信息的利用以及各种文库的建立。cDNA芯片制备方法一般采用点样法,多用于基因表达的监控和分析。寡核苷酸芯片制备一般采用在片合成方法。优化是寡核苷酸芯片设计的一个重要环节,包括探针的优化和整个芯片设计结果的优化。,、寡核苷酸探针的优化设计,、基因芯片布局,杂 交 模 式,探 针 布 局 图,Target T C C G T T A G C T G A C T G C,AGCT,TG变异,、基因芯片布局,基于Tm值梯度场的布局方法,凸点均匀分布布局方法,(a)(b)凸点均匀分布优化结果示意(a)优化前;(b)优化后。,、基因芯片优化,高密度寡核苷酸芯片设计的结果是形成芯片合成方案和步骤,产生制作掩膜板的CAD文件。高密度基因芯片制备的一个关键是掩膜板技术,利用掩膜板进行定位并控制探针的在片合成,从而得到很高的探针密度。但是制作掩膜板的代价较高,为了尽可能地提高基因芯片制备效率,需要对设计好的基因芯片进行优化,以减少制备芯片所需要的掩膜板个数,同时也减少芯片探针循环合成次数,这对于基因芯片应用有着重要的意义。,第三节 基于芯片的序列分析,、测定未知序列 早期基于芯片杂交的序列分析实验中,芯片上的探针是长度为k(一般为8)的所有寡核苷酸的组合。这是一种完备的探针集合,根据互补关系,通过各个探针的杂交结果确定DNA靶序列中存在的所有k长度片段,形成靶序列的k长度片段谱,然后根据这些片段重构靶序列。,、直接检测目标序列,在同一块芯片上设计多组探针,每一组探针分别检测一条目标序列,探针的长度在20到30之间。一般要求同一组探针之间相互独立,尽可能不重叠或少重叠,以提高探针的敏感性和特异性。,、DNA序列突变检测分析,有两种方法可以进行已知突变点的分析:一种方法是对于目标序列上已知的突变点,以该点为中心,从目标序列选取一个片段,作为设计探针的参考序列。根据参考序列,分别设计四个高度特异的探针,这四个探针除中心位置外均相同并与参考序列互补 另一种方法是对于目标序列上已知的突变点,分别设计四组探针,其中每一组探针分别检测一种核苷酸替换。同一组中的各个探针长度相同,相互之间交叠,并且每个探针均覆盖对应的突变点。,、基因型和多态性分析,在同一物种不同种群和个体之间,有着多种不同的基因型,这往往与个体的不同性状和多种遗传性疾病有着密切的关系。通过对大量具有不同性状的个体的基因型进行比较,就可以得出基因与性状的关系。,为了进行SNPs研究,发现目标序列上可能出现的变化,最直接的方法就是根据已知的目标序列设计一系列寡核苷酸探针,其中每一个探针用于检测目标序列特定位置上的核苷酸是否发生变化,探察位置位于探针的中心。这种方法又称等长等覆盖移位法,第二种方法为单核苷酸分析法。针对目标序列每个位置上所有可能出现的变化设计相应的探针。,第四节 基于芯片的基因功能分析,、基因表达分析基因表达是根据基因的DNA模板进行mRNA和蛋白质合成的过程,各种基因的表达存在差异,一种组织中基因表达水平的差异可达1万倍。功能基因研究的一种重要的方法就是采用高通量基因表达检测技术,全面分析基因的表达水平,了解基因的功能。,、高密度基因表达芯片,、基因表达图谱,基于芯片的表达监控实验产生大量的数据,在这些数据背后隐藏着丰富的基因相互作用、基因功能信息,需要通过细致的数据分析揭示这些信息,得到有益的结果 这种根据基因芯片获得的新的表达图谱有别于以前的物理图和功能图,它能够更为直接地揭示基因组中各基因相互关系。,、寻找基因功能,DeRisi等应用酵母cDNA基因芯片研究在有丝分裂和孢子状态下基因转录和表达水平的差异。Affymetrix公司制备的酵母基因表达型芯片,包括酵母基因组开放读码框中的260 000个25mer探针阵列。Wodicka 等采用这种基因芯片对不同生活状态下酵母细胞的基因表达进行了研究。,第五节 基因芯片检测结果的分析,、荧光检测图像处理基因芯片与样本杂交以后,用图像扫描仪器捕获芯片上的荧光图像。在计算机中,一幅图像由二维象素点所组成,通常用一个8-bit的整数存贮象素点的灰度值,取值范围为0,255,其中0代表“黑”,255代表“白”。,一个理想的基因芯片图像具有以下几个性质:(1)芯片单元的形状和尺寸相同;(2)每个单元的中心位于象素点上;(3)无灰尘等引起的噪声信号;(4)最小和均匀的图像背景强度。,图象预处理,网格定位,背景滤除,荧光信号提取,归一化处理,网格定位结果,背景滤除,荧光信号提取,、检测结果分析,如果芯片检测的目的是测定样本序列,则需要根据芯片上每个探针的杂交结果判断样本中是否含有对应的互补序列片段,并利用生物信息学中的片段组装算法连接各个片段,形成更长的目标序列。,如果芯片检测的目的是进行序列变异分析,则要根据全匹配探针以及错配探针在基因芯片对应位置上的荧光信号强度,给出序列变化的位点,并指明发生什么变化。,如果芯片检测的目的是进行基因表达分析,则需要给出芯片上各个基因的表达图谱,定量描述基因的表达水平,进一步的分析还包括根据基因表达模式进行聚类,寻找基因之间的相关性,发现协同工作的基因,、检测结果可靠性分析,可靠性分析可以从两个方面进行:一是根据实验统计误差(如探针合成的错误率、全匹配探针与错配探针的误识率等),计算出基因芯片最终实验结果的可靠性。二是对基因芯片与样本序列杂交过程进行分子动力学研究,建立芯片杂交过程的计算机仿真实验模型,以便在制作芯片之前分析所设计芯片的性能,预测芯片实验结果的可靠性。,、数据分析,基因芯片数据分析包括实验数据管理、数据质量控制、数据处理等进一步将基因芯片实验数据与公共数据库中的信息相关联,利用数据挖掘方法进行分析处理,揭示各种数据之间的关系,发现新的生物学知识。,第六节 基因芯片信息的管理和利用,、芯片信息管理目前已出现一些芯片信息管理数据库,这些数据库主要收集、管理表达型基因芯片的实验数据。与基因芯片相关的信息包括芯片功能的描述、芯片的描述、实验对象的描述、实验结果和分析结果的描述。,以基因表达型芯片为例,数据库至少含有下列信息:(1)数据来源(2)杂交目标序列(3)目标对象(4)mRNA转录的数量(5)统计的显著性,、数据集成和交叉索引,基因组信息是相互关联的,合理地解释实验检测数据依赖于将实验数据与其它相关数据库的集成。对于基因表达数据,通过用户定义的或缺省的标准进行数据链接,经分析可以得到关于基因调控的概貌。,谢谢!,