欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    生物信息学第六章核酸序列分析.ppt

    • 资源ID:6316344       资源大小:287.32KB        全文页数:15页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学第六章核酸序列分析.ppt

    第六章,核酸序列分析,DNA 序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起。基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际 EST 数据库(dbEST)和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新 SNPs 以及各种功能位点,如剪接与可变剪接位点等。到 1998 年底在人类的约 10 万个基因中有 3 万多个已被发现,尚有约 7 万个未被发现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。EST 序列(Expressed Sequence Tags)到 1999 年 12 月已搜集了约 200 万条,它大约覆盖了人类基因的 90,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同时 1998 年国际上又开展了以 EST 为主发现新 SNPs 的研究。因此利用 EST 数据库发现新基因、新 SNPs 以及各种功能位点是近几年的重要研究方向。虽然对约占人类基因组 95 的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取得重要成果的源泉。在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。6.1 基因组序列分析工具1.Wisconsin 软件包(GCG)Genetics Computer Group 公司开发的 Wisconsin 软件包,是一组综合性的序列分析程序,使用公用的核酸和蛋白质数据库。SeqLab 是其图形用户界面(GUI),通过它可以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab 也可以被扩展使其可以包括其它公用或非公用的程序和数据库。Wisconsin 软件包由 120 多个独立的程序组成,每个程序进行一项单一的分析任务。包括所有程序的完整目录以及详细的描述可以在 Wisconsin 软件包的程序使用文档中找到。GCG 支持两种核酸数据库(GenBank 数据库,简化版的 EMBL 核酸序列数据库)和三种蛋白质数据库(PIR,SWISS-PROT,SP-TrEMBL)。这些数据库既有 GCG 格式的(供大多数 Wisconsin 软,件包程序使用),也有 BLAST 格式的(供 BLAST 数据库搜索程序使用)。同时还提供了用于LookUp 程序以及数据库参考搜索的索引。,关于 GCG,Wisconsin 软件包,支持的平台以及硬件需求的一般性信息可以在 GCG 的主页以及 Wisconsin 软件包的用户手册中找到。GCG 主页提供了更新信息以及 Wisconsin 软件包程序的完整列表。,SeqLab 中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。SeqLab可以解决的序列分析问题:,(1)在两条 mRNA 中寻找开放阅读框架,翻译并对比 RNA 与蛋白质序列,对两条相关的 mRNA 进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行,核酸与氨基酸序列间的两两对比。,把序列加入 SeqLab Editor 中,从 Functions 菜单中选中 Map 选项运行 Map 程序。Map输出文件包含了限制性酶切图和 6 种可能的翻译框架的 ORF 的显示。这些 ORF 的起始和终止位置可进行标记并选为 SeqLab Editor 中序列显示的范围,然后可用 Edit 菜单的 Translate操作进行翻译。翻译结果自动出现在 SeqLab Editor 中。,两条相关的核酸或蛋白质序列可用 Gap 程序或 BestFit 程序进行对比。Gap 程序寻找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit 程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。,(2)通过参考搜索寻找数据库中的相关条目并进行对比,研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的,多序列对比。,从 Functions 菜单中选取 LookUp 程序。LookUp 在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表。在参考部分的 Definiton,Author,Keyword 和 Organism 域中搜索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达式。例如,在 SWISS-PROT 条目的 Description 域搜索“lactate&dehydrogenase&h&chain”将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条目。这个输出文件可以从 Output Manager 窗口中加以显示,然后与用户的序列一起添加到SeqLab Editor 中。,要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从 Functions菜单中运行 PileUp 程序。由 PileUp 产生的多序列文件也列在 Output Manager 窗口中并可以直接添加到 SeqLab Editor 中。推荐采用这一步的原因在于数据库条目的特征表格(Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附加给用户序列。,(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树,克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。,往 SeqLab Editor 中添加一个查询序列并从 Functions 菜单中选取 FASTA 程序。FASTA程序在数据库中搜索与查询序列相似的序列。输出文件可从 Output Manager 窗口中加以显示并直接添加到 SeqLab Editor 中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在 SeqLabEditor 中。不要的条目可以从 SeqLab Editor 中一起被删除。,从 Functions 菜单中选中 PileUp 程序创建这些序列的多序列对比。输出可从 OutputManager 窗口中加以显示并添加到 SeqLab Editor 中更新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。,从 Functions 菜单中选取 PaupSearch 程序,程序提供了一个 PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony)中树搜索方式的 GCG 接口。PaupDisplay程序为 PAUP 中的树操作,鉴定以及显示方式提供了一个 GCG 接口。,(4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列,克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序列。一旦 contig 拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。,Fragment Assmbly System 的程序可用于拼接交叠序列片段。GelStart 程序创建一个项目。GelEnter 程序把序列片段复制到项目中。GelMerge 程序寻找片段之间的交叠并把它们拼接成 contig。GelAssemble 程序是一个编辑器,可用于编辑这些连续的部分并解决片段之间的冲突问题。所有这些程序都可以从 Functions 菜单中选取。一旦拼接完成,最终构成此contig 的连续序列可以被保存为一个序列文件并添加到 SeqLab Editor 中。,使用 Map、Frames、TestCode 或 Codon Preference 程序可预测序列中的编码区(所有这些程序可以从 Functions 菜单中选中)。使用 Edit 菜单的 Select Range 功能选择这些程序预测的区域并使用 Edit 菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作为核酸共有序列的特征被加入。,选取蛋白质序列然后选择 Functions 菜单中 BLAST。BLAST 程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从 OutputManager 窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入 SeqLabEditor 或 Main List 窗口中,并允许对找到的序列进行进一步分析。,(5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式,辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。,选取待对比的序列,从 Functions 菜单中选取 PileUp 程序创建多序列对比,PileUp 程序的输出文件可从 Output Manager 窗口中加以显示并添加到 SeqLab Editor 中。用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行 PileUp 即可。从 PileUp Options 窗口中选取realign a portion of an existingalignment(重新对比一个已存在的对比结果的一部分),这可能有利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果的重新对比的区域。,用 Edit 菜单中 Consensus 操作计算对比结果的共有序列。如果保守模式可被辨识,从Functions 菜单中选取 FindPatterns 选项。从共有序列中剪切下此特征序列模式并把它粘贴到 FindPatterns 模式选择器中,并在数据库中搜索包含这一模式的序列。,此外,运行 Motif 程序可在共有序列中搜索已知的蛋白质模式。Motif 在蛋白质序列中搜索在 PROSITE,蛋白质位点和模式的 PROSITE 字典中已知的蛋白质模式。如果辨识出一个Motif,则给所有序列增加一个特征,并标出它的位置。图 4.9 显示了一个蛋白质序列的匹配、一个共有序列以及 Motif 搜索的结果。,(6)使用 Profile 进行相似性搜索并对比相关序列,序列分析的一个新的扩展领域是 Profile 技术。一个 profile 是一个位置特定的评分矩阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有序列中只包含每个位置的保守残基的信息。Profile 做好后可用于搜索数据库、数据库划分或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列与一个对比结果进行对比。,使用 ProfileMake 程序可创建一个序列对比结果的 profile。使用 ProfileSearch 程序可用 profile 对数据库进行搜索,ProfileSegment 程序可以显示搜索结果。使用 ProfileGap程序可将一个序列与 profile 进行对比。ProfileMake,ProfileSearch,ProfileSegments以及 ProfileGap 程序都可以从 Functions 菜单中启动。,GCG 的主页,2.ACEDB,ACEDB 是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的基因组计划。该软件是免费的,并且可运行在 Unix 和 Macintosh OS 系统下,Windows 版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的 DNA 等。可用于专用的数据分析以及许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用 ACEDB。对于资源有限的计划,这往往是决定使用 ACEDB 的关键因素。,3其它工具,不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完,善之中,具体细节可访问这些测序中心的网站了解。,6.2 人类和鼠类公共物理图谱数据库的使用,1 物理图谱的类型,物理图谱有许多结构和形式。限制性图谱(restriction map),用于对小区域、如 kb量级做精细结构制图,细胞遗传学图(cytogenetic map),用于对以 10 4 kb 为长度量级的区域制图。最常用的两种类型是 STS 含量图(STS content map)和放射性杂交图(radiationhybrid map),它们的分辨区域都大于 1Mb,并且有能使用简易 PCR 中的定位标记物的优点。,在 STS 含量图中,STS 标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个或多个 STS 被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不是 100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据 STS含量图已经建立起一系列重叠群,如含有 STS 的重叠簇克隆。这样一张图的分辨率和覆盖度由一些因子决定,如 STS 的密度、克隆群体的大小、以及克隆文库的深度。通常 STS 含量图以长 1Mb 的插入 YAC 库为基础,分辨率为几百个 bp。如果使用插入部分较小的克隆载体,图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的 STS。虽然一般有可能从 STS 含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精确测得。尽管如此,STS 含量图还是有与 克隆原相关 的优点,并且可将其用于更进一步的研究,如次级克隆或 DNA 测序。到目前为止,STS 含量图制图简单而使用最多的来源是巴黎的 CEPH(centre d Etudes du Polymorphisme Humain)中的 YAC 库。它是一个 10覆盖率的文库,平均插入长度为1Mb。,放射性杂交图(对片段 DNA 的断点作图。在此技术中,一个人体细胞系被致死性的 gamma射线照射,染色体 DNA 分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一套杂合组,供接下来的制图实验用了。,如果要在一个放射性杂交组中对一个 STS 作图,那就要将每种杂交组细胞系中的 DNA进行 STS 的 PCR 操作。细胞系中如果含有该 STS 的染色体片段,那么就能得到一个正的 PCR信号。在基因组中相邻很近的 STS 有相似的固位模式(retention pattern),因为放射性引起的断点落在它们中间的几率很小。相邻较远的 STS 固位模式相似性降低,相邻很远的STS 的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出 STS 在放射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受的辐射量。一般对基因组大小作图的细胞系分辨率为1M。,除 STS 含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与STS 含量图不同的技术来决定克隆体的接近程度。例如,CEPH YAC 图谱法综合利用指纹法(fingerprinting)、间Alu 产物杂交法(inter-Alu product hybridization)和 STS含量图法来制作一张重叠的 YAC 克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组(可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的 bin?中。FISH 图谱使用一个荧光信号来探测克隆体的间期 DNA 扩散时的杂交情况,从而以细胞遗传学图中一条带的位置定出克隆体的位置。,研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那些从已转化成 STS 并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量 EST 的工程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后,这些转录序列图谱就能明显加快对目标基因的研究速度。,YAC 库可用于 STS 的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于 DNA 测序。去年高分辨率、可用于测序的质粒和 BAC 图谱则发展很快。因为它们所需的克隆工艺水平很低。除了几个特例,如染色体 19 的 Lawrence Livemore 实验室质粒图外,其它图谱都还只处在初级阶段。,2.大型公用数据库中的基因组图谱,人类基因组物理图谱信息的主要来源是由 NCBI 和 GDB 提供的大型公用数据库。这些数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较。在一定程度下,这些数据库还能进行图谱的综合及分析。,(1)NCBI Entrez 的染色体图谱,Entrez 的基因组部分是最容易获得物理图谱信息的来源之一。此服务由 NCBI 所提供。Entrez 试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA 和蛋白序列信息、以及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简单,Entrez 可作为搜索图谱的一个起始点。,除人类基因组,Entrez 还提供关于鼠类、果蝇、C.elegans、酵母以及一些原生动物的图谱。尽管可比较的(同线性)图仍不可获得,但它代表了现在最大和最完整的一套多生物体的图谱信息。,(2)GDB 的浏览染色体图谱,另一种常见的人类物理图谱数据的来源是 GDB。尽管 GDB 是基于当时基因图谱的重要性才构建起来的,但是最近几年来,GDB 也已经进行了扩建重组,现在同样可以算是物理图谱数据的仓库。不象 NCBI,GDB 只限于人类图谱数据。它不含序列数据,也没有其它种类生物的信息。同 NCBI 一样,GDB 可以由 WWW 上得到。GDB 提供了一种全功能的对其数据库的查询式界面。,(3)来自个体来源的基因组图谱,尽管一级数据库,如 Entrez 和 GDB 是已发表的图谱的重要来源,但是它们还没有能替代原始数据的东西。有能力制作自己的物理图谱的实验室一般都有自己的网址,连向它们的图谱数据库。通过从这一渠道直接获取资料,我们可以看到制图实验室所使用的图的形式、下载原始数据、并且了解实验室制图时的协议。另外,一些图在出现于 Entrez 和 GDB 前经常被丢掉。Entrez 和 GDB 数据库选择的表达方式,对那些希望将新的标记物定位于已知物理图谱上的研究者来说,只提供了最小的帮助。,基因组的基因图谱,基因图谱是制作许多物理图谱时工作的基本骨架,也是许多制图项目的起点。有两种基因组范围的基因图谱可供选择。Genethon 图含 5264 个多样性微卫星重复片断,间隔1.6cM。完整的数据库文件,以及图谱的 PostScript 方式图形表示,在 Genethon 的 FTP站点上均可获得,这些图通过 GDB 也可以获得。,第二大基因图谱由人类连锁合作中心(Cooperative Human Linkage Center)制造,CHLC图由 10775 个标记物组成,大多数为微卫星重复片断,间隔 3.7cM。,人类基因组的转录物图,在 1996 年 10 月,Horno sapiens 的一个全基因组转录物图由一个国际合作的研究实验室发表于 Science 上。这个图由15000 个不同的表达序列组成,由放射性杂交法定位,与 Genethon 基因图谱衍生的框架相近。通过对酵母人工染色体作 STS 含量法又增添了 1000个表达序列。在这张图中,大约 1/5 的标记物有已知的或是假定的功能,而余下的代表了未知功能的表达序列。制成图的序列一般由 UniGeneset 衍生而来,它是一个由 NCBI 管理的公用重复 ESTs 数据库。,转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不同,表达序列被放在由 Genethon 基因图谱衍生的框架上。结果,该图的最大分辨率为2cM。很多情况下,可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息,特别是 the Whitehead Institute 和 Stanford University 的。,浏览 NCBI 转录物图,转录物图可在两个网址上得到。数据的“亲本”站点为 NCBI。在那儿可以找到含有全基因组转录物图的 Science 文章的全文,以及彩色的图象,但一般都只有装饰性的墙面图案。另外,也有搜索页可以让浏览者对特别感兴趣的基因进行查询,或是通过对功能未知,但其读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。,NCBI 网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但是通过 Mapview 微程序就可以得到其图形显示。从 GDB 的首页,沿着 What s New 的链接,可找到全基因组转录物图(到本书出版时链接形式可能已有所不同)。同样,可以认为转录物图也是 Entrez 网将要制作的一部分。,White head Institute 提供的人类物理图谱,The Whitehead Intitute/MIT Center for Genome Research 是两张基因组范围物理图谱的最初来源。其中一张是 STS 含量图,内含指定为 YAC 的 10000 多个标记物,以及一张含12000 个左右标记物的放射性杂交图。Whitehead 所用的 G4 杂交板(Genebridge 4 radiationhybrid panel)分辨率为1Mbp,而以 YAC 为基础作的图分辨率大约为 200kbp。这些图已经和 Genethon 基因图相结合,产生了一张合图,在平均 150kb 范围内有 20000 个 STSs。Whitehead 图上大约有一半的标记物是表达序列,它们在人类转录物图上也会出现。,WI(Whitehead Institute)图可通过网络从 Whitehead Center for Genome Research的主页上得到。沿着“人类物理图项目”(Human Physical Mapping Project)的链接就可以得到感兴趣的图,这些图可通过几种方法浏览。选择一系列 pop-up 菜单可以产生所选染色体的图,选择选项按钮可以综合放射性杂交图、STS 含量图和基因图。与 Entrez 一样,这些图不是固定不变的。点击一个 STS 或是重叠群,会弹出关于该图素详细信息的页面。图形式图谱在网址上可按 GIF 或 Macintosh 最初模式(PICT)下载。Whitehead 网址上还提供了对图谱数据库进行查询的搜索页。这些搜索数据的链接可按名称、GenBank 通道号、STS型号、染色体分配进行搜索。另外,Whitehead 网页也可根据功能关键字搜索制图转录序列,并提供与 NCBI 中的主转录物图的链接。,Whitehead 也为那些希望建立他们自己的 STS 的研究者提供服务,并将之放在一个或多,个图上,这些服务包括:,一个在线的引物选择程序,引物 3,将一个 STS 放在 STS/YAC 含量图上的服务,将一个 STS 放在放射性杂交图上的服务,Whitehead 图远未完善,对合图进行监督性测试就能显示出在基因图、放射性杂交图和STS/YAC 图上的 STSs 位置间存在矛盾。这些矛盾表现在合图上仍存在交叉线。解释这些图的一个关键点在于理解这些图在可靠性与分辨率水平不一。基因图骨架在数十兆时能可靠地连接标记物,但在低于约 2 兆时就无法准确解决两个 STS 的顺序问题了。放射性杂交图能够测知约 10Mb 的连接,有效分辨率达1Mb(更小的间隔也能排序,但是不可靠性逐步增加)。STS/YAC 图可以测知两个相互间隔 1Mb 的 STS 的连接,估计分辨力达 100300kb。理解图谱时头脑中应有这些尺度上的差异。一般在 1Mb 的范围以下,STS/YAC 图是说明顺序的图谱中最可靠的一种。,在 STS 含量图中,由于 STS 和 YAC 的不等分布,可靠性也会有地域差异。在 YAC 密集的区域(每一个 STS 有 5 个或更多的 YAC),在排序信息的重要性上,图谱结果是相对更可靠的。在低密度区,图谱结果中就会有几种同时可能替代的 STS 顺序,并会附上数据。假定的错误的反面情况,如图 12.8 中,表示为图中的空白框。这一点也会严重降低图谱的准确性。最后,因为在所有 YAC 库中都存在嵌合现象的问题,双键(例如,一对 STS 同时与 2 个或更多 YAC 连接)比单键(STS 只由 1 个 YAC 连接)更能可靠说明相邻关系。尽管只有在基因图或放射性杂交图中存在支持性数据时,图上才能构建单键信息,但单由两个 STS 相连形成的连接仍保留怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内。,下面的部分介绍如何在 Whitehead 图上,通过 Whitehead 网址安置新的 STS。从 STS 设,计和针对 Whitehead 和放射性杂交图进行制图开始。,设计一个 STS,置于 Whitehead 上,设计一个 STS 需要一个高质量的 DNA 序列,至少长达所需的 PCR 产物。为得到最好的结果,这些序列应不含重复元素和载体序列,并且质量相对高些。任何支持一个 WWW 浏览器的计算机系统都可以使用该程序,支持 TCP/IP 的网络连接也是必须的。,首先,将浏览器连到 Whitehead Genome Center 的主页。寻找并点击指向 WWW PrimerPicking 的链接。接着出现一页,在其上方有一个很大的输入框。剪切原始序列并粘贴到该处,只用粘贴原始序列,不需用名称或其它标记词。这些碱基可以小写或大写,而白色空格可以忽略。,现在,向下滚动窗口,将 PCR 的条件调至需要值。那些关于盐浓度、温度和产物大小范围等的默认值均是 WI 所设定的。如果有必要的改变需输入时,按标有 Pick Primers 键返回一套引物处进行特定设定。这些引物现在在对感兴趣的序列的审查实验中用得上。通过放大基因组 DNA 中的一条特定带,可以对这些引物的能力进行经验性鉴定。引物的失败主要与引物扫描区域中的重复元素有关。相反,通过进行 BLAST 或 FASTA 搜索,再选择引物对,来对输入序列中的重复序列进行筛选则是比较明智的,如果 STS 成功地放大了一条特定带,它就可以与 Whitehead STS/TAC 含量图或放射性杂交图相联系,被制成图。,与 Whitehead STS/YAC 含量图联系对 STS 制图一旦被制出后,一个 STS 就可以通过对 CEPTmega-YAC 库的扫描确定在 STS/YAC 含量图上的位置。而对含有超过 30000 个克隆,其中又有 1200 个排列、板块和柱池(row、plate 和 column pool)的 YAC 库进行搜索,实在是一件头疼的任务。可喜的是,几个生物技术公司已经提供了 CEPH YAC 的复本和(或)筛选系统,包括 Research Genetics Corporation。Whitehead 图就是仅从 YAC 库的后一部分构建起来的。这意味着库模块中位于 709972 的范围仍需筛选。STS 接着就可以用以下步骤放在图上了。,使浏览器连向 Whitehead 的主页,并点击标有 Human Physical Mapping Project 的链接以跳到该组织的物理制图页。从这儿,再找到 并选择“Search for a YAC to itsaddress”,接着出现一页,内有一系列 pop-up 菜单,能用于输入单个 YAC 的地址、或一个输入单个 YAC 名称的主题栏、或一个能粘贴一列 YAC 地址的大型区域。后者适用于将多个YAC 用于研究的时候。在这个地方输入 YAC 列表,再使用“plate_row_column”形式,这里是用“_”号分离板块、排和列这三维(如 709_A_1),也可输入多个 YAC 地址,用空格或carriage 回车隔开。搜索过程输入格式并不固定,它也可识别多个 YAC 模式(包括 709_a_1和 709a1)。,当 YAC 表完成后,按 Search 键,得到一个表,列有各个 YAC,其重叠群位置和染色体分配,以及附近 STS 的位置。这些 STS 位于放射性杂交图和(或)基因图上。,要理解该搜索结果,应该知道 CEPH 库中相当数量(4050)的克隆都是嵌合体,这意味着单个 YAC 可能存在于位于基因组不同部分的重叠群中。由于这个原因,需要找到多个,YAC 来证明单个 STS 分配到了某一特定重叠群中,或是从其它方法来证明(比如 FISH,体细胞杂交制图,放射性杂交图制图数据)。,每张图对应输入的一个 YAC 地址,每个表包括已知 YAC 中的 STS 表,以及 STS 制图信息。对于每个 STS,染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外,STS所属的已命名的重叠群也列成表,这些表中大多数元素是超文字链接,选择合适的链接可以获得关于一个 STS 或一个重叠群更多的信息。由于历史原因,许多 STS 有两个重叠群。双链接重叠群(例如由成对 YAC 共有的重叠群)短一些,在构图的起始阶段中是可创造的更可靠的重叠群,它们可以被放心地忽略。单个重叠群长一些,在不同方式下也应承认其合理性。,Whitehead 放射性杂交图,STS 也能被置于 Whitehead 放射性杂交图中,这比 STS/YAC 含量图的问题简单很多,因为在放射性杂交图上搜索一个 STS 只用 93 次 PCR,而不是 1000 次。Whitehead 放射性杂交图使用 Genebridge 4 radiation hybrid panel。与 CEPH YAC 库一样,这些细胞谱系的 DNA也可以从一些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果,PCR必须在与制作 Whitehead 图的相同条件下进行,并应在复制时进行。复制 PCR 间出现的不同结果说明应继续重复或以未知物对待。,首先,将杂交模板筛选结果重定为“rhv”格式,看上去如下:,sts_name1,sts_name2,每个数字代表每个放射性杂交细胞系的 PCR 结果:0 说明 PCR 结果为负(无反应产物),1 说明为正,2 说明为“未知”或“未完成”。载体上数字的顺序是很重要的,必须与 G4rhp中的正式顺序相对应。为找到该顺序,可沿(Whitehead 物理图页上)标有“How theradiation hybrid maps were constructed”(如何构建放射性杂交图)的链接,再按下标有“G40”的链接。该顺序与它们由 Research Genetics 运输时包装的 DNA 顺序相同,所以它一般还不是结果。要增加可读性,可在载体内加入空格,用一个或多个空格、或 Tab 键就可以将 STS 名称与扫描数据分离开了。,从 Whitehead 物理图页上,按下标有“Place your own STSs on the genome frameworkmap”(将你自己的 STS 放入基因组框架图中)的链接,再输入提示的合适的 Email 地址,并将 PCR 值粘贴至位于该页上的大型主题框。输入正确的 Email 地址很重要,否则制图结果将有可能被误解。,默认时,制图数据会以正文形式返回。为产生放在 Whitehead 图上的 STS 的图形,选择一个标有 Mac PICT(针对 Macintosh 系统)或 GIF(针对 Windows 和 Uinx 系统)的选项按钮。,当设置完成时,按下“提交”键。当数据已被转交或正在制图时,你会得到一个证明,在一小时内结果将会通过 Email 回执给你。,对于大量的筛选数据,如果用剪切和粘贴来向服务器提交这些文件就不太方便了。这时可以将数据以纯文本形式存在用户盘上,然后用 RH 制图页中的浏览键来定义并提交此文件给服务器,同样,Email 地址也要手工输入。,对于98的提交的标记物,Whitehead 放射性杂交图制图服务器都会找到特定的位置。如果安置成功,软件将会给一回执,包括该标记物的染色体分布和在染色体连接群中的位置、对标记物的表格式说明、和在 Whitehead 放射性杂交图上两侧标记物的存在时其数据情况。按要求将会得到一张 Macintosh 图或 GIF 格式图。这些图由 Whitehead 框架图组成,所提交 STS 的位置以红色标明。,如果发现标记物连接的染色体多于一个或是根本就没有连接,制图过程也可能失败。在前一种情况中,可以重新提交并设置高优势对数值,这样服务器将会认为其连接一个染色体,在后一种情况中,你可以试着利用放射性杂交图页上的一个 pop-up 菜单将限制性降低。如果一个标记物确实连向多个染色体,那么有可能用 STS 探测出重复序列。,Stanford University 放射性杂交图,Stanford Human Genome Center 已经用 G3 制图板发展了一张基因组放射性杂交图。由于比 G4 板所用放射量更高,G3 板的分辨率更高,但是代价是在探测长距离连接时限制很大。Stanford 图一般在平均 375kb 的范围内存在8000 个 STS,这些标记物中,3700 个左右是表达序列,存在于 NCBI 转录物图中。同以往一样,在基因组很多部分中,Stanford 图中的表达序列比“全包容”NCBI 图中的准确性更高。,Stanford 提供一个放射性杂交图制图服务器。如同 Whitehead 服务,这个服务器允许对从 Research Genetics 和其它业主处得到的 G3 板进行 STS 扫描。输入数据,服务器将会尝试将 STS 与 Stanford 图相连,并用 Email 返回结果。因为 G3 板不能探测长距离连接,在无其它图谱信息时,Stanford 服务器只能将 75的 STS 定位在一条染色体上。但是如果要在可选区域内提供标记物的染色体分布。

    注意事项

    本文(生物信息学第六章核酸序列分析.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开