生物信息学第六章核酸序列分析.ppt
《生物信息学第六章核酸序列分析.ppt》由会员分享,可在线阅读,更多相关《生物信息学第六章核酸序列分析.ppt(15页珍藏版)》请在三一办公上搜索。
1、第六章,核酸序列分析,DNA 序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起。基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际 EST 数据库(dbEST)和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因
2、,新 SNPs 以及各种功能位点,如剪接与可变剪接位点等。到 1998 年底在人类的约 10 万个基因中有 3 万多个已被发现,尚有约 7 万个未被发现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。EST 序列(Expressed Sequence Tags)到 1999 年 12 月已搜集了约 200 万条,它大约覆盖了人类基因的 90,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同时 1998 年国际上又开展了以 EST 为主发现新 SNPs 的研究。因此利用 EST 数据库发现新基因、新 SNPs 以及各种功能位点是近几年的重要研究方向。虽然对
3、约占人类基因组 95 的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取得重要成果的源泉。在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。6.1 基因组序列分析工具1.Wisconsi
4、n 软件包(GCG)Genetics Computer Group 公司开发的 Wisconsin 软件包,是一组综合性的序列分析程序,使用公用的核酸和蛋白质数据库。SeqLab 是其图形用户界面(GUI),通过它可以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab 也可以被扩展使其可以包括其它公用或非公用的程序和数据库。Wisconsin 软件包由 120 多个独立的程序组成,每个程序进行一项单一的分析任务。包括所有程序的完整目录以及详细的描述可以在 Wisconsin 软件包的程序使用文档中找到。GCG 支持
5、两种核酸数据库(GenBank 数据库,简化版的 EMBL 核酸序列数据库)和三种蛋白质数据库(PIR,SWISS-PROT,SP-TrEMBL)。这些数据库既有 GCG 格式的(供大多数 Wisconsin 软,件包程序使用),也有 BLAST 格式的(供 BLAST 数据库搜索程序使用)。同时还提供了用于LookUp 程序以及数据库参考搜索的索引。,关于 GCG,Wisconsin 软件包,支持的平台以及硬件需求的一般性信息可以在 GCG 的主页以及 Wisconsin 软件包的用户手册中找到。GCG 主页提供了更新信息以及 Wisconsin 软件包程序的完整列表。,SeqLab 中可以
6、使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。SeqLab可以解决的序列分析问题:,(1)在两条 mRNA 中寻找开放阅读框架,翻译并对比 RNA 与蛋白质序列,对两条相关的 mRNA 进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行,核酸与氨基酸序列间的两两对比。,把序列加入 SeqLab Editor 中,从 Functions 菜单中选中 Map 选项运行 Map 程序。Map输出文件包含了限制性酶切图和 6
7、 种可能的翻译框架的 ORF 的显示。这些 ORF 的起始和终止位置可进行标记并选为 SeqLab Editor 中序列显示的范围,然后可用 Edit 菜单的 Translate操作进行翻译。翻译结果自动出现在 SeqLab Editor 中。,两条相关的核酸或蛋白质序列可用 Gap 程序或 BestFit 程序进行对比。Gap 程序寻找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit 程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。,(2)通过参考搜索寻找数据库中的相关条目并进行对比,研究一个特征序列家族成员的用户可能希
8、望寻找这个家族中的其它成员并建立它们的,多序列对比。,从 Functions 菜单中选取 LookUp 程序。LookUp 在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表。在参考部分的 Definiton,Author,Keyword 和 Organism 域中搜索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达式。例如,在 SWISS-PROT 条目的 Description 域搜索“lactate&dehydrogenase&h&chain”将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H c
9、hain)条目。这个输出文件可以从 Output Manager 窗口中加以显示,然后与用户的序列一起添加到SeqLab Editor 中。,要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从 Functions菜单中运行 PileUp 程序。由 PileUp 产生的多序列文件也列在 Output Manager 窗口中并可以直接添加到 SeqLab Editor 中。推荐采用这一步的原因在于数据库条目的特征表格(Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附加给用户序列。,(3)用查询序
10、列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树,克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。,往 SeqLab Editor 中添加一个查询序列并从 Functions 菜单中选取 FASTA 程序。FASTA程序在数据库中搜索与查询序列相似的序列。输出文件可从 Output Manager 窗口中加以显示并直接添加到 SeqLab Editor 中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显
11、示在 SeqLabEditor 中。不要的条目可以从 SeqLab Editor 中一起被删除。,从 Functions 菜单中选中 PileUp 程序创建这些序列的多序列对比。输出可从 OutputManager 窗口中加以显示并添加到 SeqLab Editor 中更新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。,从 Functions 菜单中选取 PaupSearch 程序,程序提供了一个 PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony)中树搜索方式的 GCG 接口
12、。PaupDisplay程序为 PAUP 中的树操作,鉴定以及显示方式提供了一个 GCG 接口。,(4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列,克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序列。一旦 contig 拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。,Fragment Assmbly System 的程序可用于拼接交叠序列片段。GelStart 程序创建一个项目。GelEnter 程序把序列片段复制到项目中。GelMerge 程序寻找片段之间的交
13、叠并把它们拼接成 contig。GelAssemble 程序是一个编辑器,可用于编辑这些连续的部分并解决片段之间的冲突问题。所有这些程序都可以从 Functions 菜单中选取。一旦拼接完成,最终构成此contig 的连续序列可以被保存为一个序列文件并添加到 SeqLab Editor 中。,使用 Map、Frames、TestCode 或 Codon Preference 程序可预测序列中的编码区(所有这些程序可以从 Functions 菜单中选中)。使用 Edit 菜单的 Select Range 功能选择这些程序预测的区域并使用 Edit 菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻
14、译区域也可以作为核酸共有序列的特征被加入。,选取蛋白质序列然后选择 Functions 菜单中 BLAST。BLAST 程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从 OutputManager 窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入 SeqLabEditor 或 Main List 窗口中,并允许对找到的序列进行进一步分析。,(5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式,辨识了一组相关序列的用户可能希望对其
15、进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。,选取待对比的序列,从 Functions 菜单中选取 PileUp 程序创建多序列对比,PileUp 程序的输出文件可从 Output Manager 窗口中加以显示并添加到 SeqLab Editor 中。用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行 PileUp 即可。从 PileUp Options 窗口中选取realign a portion of an existi
16、ngalignment(重新对比一个已存在的对比结果的一部分),这可能有利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果的重新对比的区域。,用 Edit 菜单中 Consensus 操作计算对比结果的共有序列。如果保守模式可被辨识,从Functions 菜单中选取 FindPatterns 选项。从共有序列中剪切下此特征序列模式并把它粘贴到 FindPatterns 模式选择器中,并在数据库中搜索包含这一模式的序列。,此外,运行 Motif 程序可在共有序列中搜索已知的蛋白质模式。Motif 在蛋白质序列中搜索在 PROSITE,蛋白质位点和
17、模式的 PROSITE 字典中已知的蛋白质模式。如果辨识出一个Motif,则给所有序列增加一个特征,并标出它的位置。图 4.9 显示了一个蛋白质序列的匹配、一个共有序列以及 Motif 搜索的结果。,(6)使用 Profile 进行相似性搜索并对比相关序列,序列分析的一个新的扩展领域是 Profile 技术。一个 profile 是一个位置特定的评分矩阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有序列中只包含每个位置的保守残基的信息。Profile 做好后可用于搜索数据库、数据库划分或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序
18、列与一个对比结果进行对比。,使用 ProfileMake 程序可创建一个序列对比结果的 profile。使用 ProfileSearch 程序可用 profile 对数据库进行搜索,ProfileSegment 程序可以显示搜索结果。使用 ProfileGap程序可将一个序列与 profile 进行对比。ProfileMake,ProfileSearch,ProfileSegments以及 ProfileGap 程序都可以从 Functions 菜单中启动。,GCG 的主页,2.ACEDB,ACEDB 是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的基因组计划。该软件是免
19、费的,并且可运行在 Unix 和 Macintosh OS 系统下,Windows 版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的 DNA 等。可用于专用的数据分析以及许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用 ACEDB。对于资源有限的计划,这往往是决定使用 ACEDB 的关键因素。,3其它工具,不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完,善之中,具体细节可访问这些测序中心的
20、网站了解。,6.2 人类和鼠类公共物理图谱数据库的使用,1 物理图谱的类型,物理图谱有许多结构和形式。限制性图谱(restriction map),用于对小区域、如 kb量级做精细结构制图,细胞遗传学图(cytogenetic map),用于对以 10 4 kb 为长度量级的区域制图。最常用的两种类型是 STS 含量图(STS content map)和放射性杂交图(radiationhybrid map),它们的分辨区域都大于 1Mb,并且有能使用简易 PCR 中的定位标记物的优点。,在 STS 含量图中,STS 标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克隆基因库反应,如酵母人
21、工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个或多个 STS 被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不是 100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据 STS含量图已经建立起一系列重叠群,如含有 STS 的重叠簇克隆。这样一张图的分辨率和覆盖度由一些因子决定,如 STS 的密度、克隆群体的大小、以及克隆文库的深度。通常 STS 含量图以长 1Mb 的插入 YAC 库为基础,分辨率为几百个 bp。如果使用插入部分较小的克隆载体,图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的 STS。虽然一
22、般有可能从 STS 含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精确测得。尽管如此,STS 含量图还是有与 克隆原相关 的优点,并且可将其用于更进一步的研究,如次级克隆或 DNA 测序。到目前为止,STS 含量图制图简单而使用最多的来源是巴黎的 CEPH(centre d Etudes du Polymorphisme Humain)中的 YAC 库。它是一个 10覆盖率的文库,平均插入长度为1Mb。,放射性杂交图(对片段 DNA 的断点作图。在此技术中,一个人体细胞系被致死性的 gamma射线照射,染色体 DNA 分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几
23、代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一套杂合组,供接下来的制图实验用了。,如果要在一个放射性杂交组中对一个 STS 作图,那就要将每种杂交组细胞系中的 DNA进行 STS 的 PCR 操作。细胞系中如果含有该 STS 的染色体片段,那么就能得到一个正的 PCR信号。在基因组中相邻很近的 STS 有相似的固位模式(retention pattern),因为放射性引起的断点落在它们中间的几率很小。相邻较远的 STS 固位模式相似性降低,相邻很远的STS 的固位模式将会截然不同。
24、与基因图谱所用方法类似,算法类的软件也能推出 STS 在放射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受的辐射量。一般对基因组大小作图的细胞系分辨率为1M。,除 STS 含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与STS 含量图不同的技术来决定克隆体的接近程度。例如,CEPH YAC 图谱法综合利用指纹法(fingerprinting)、间Alu 产物杂交法(inter-Al
25、u product hybridization)和 STS含量图法来制作一张重叠的 YAC 克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组(可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的 bin?中。FISH 图谱使用一个荧光信号来探测克隆体的间期 DNA 扩散时的杂交情况,从而以细胞遗传学图中一条带的位置定出克隆体的位置。,研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那些从已转化成 STS 并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量 EST 的工程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 第六 核酸 序列 分析
链接地址:https://www.31ppt.com/p-6316344.html