蛋白质组海量质谱数据的解析及其在人类基因组注释中.doc
-
资源ID:4228869
资源大小:447.50KB
全文页数:36页
- 资源格式: DOC
下载积分:16金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
蛋白质组海量质谱数据的解析及其在人类基因组注释中.doc
项目名称:蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用首席科学家:刘斯奇 中国科学院北京基因组研究所起止年限:2010年1月-2014年8月依托部门:中国科学院一、研究内容关键科学问题本项目将以我国蛋白质组学界产生的海量MS/MS质谱数据为基本分析材料,重点放在解析这些数据中的新的蛋白质编码基因和蛋白质组定量信息。我们将运用计算化学、工程方法学、生物信息学、质谱学和生物分析化学等研究手段深入探讨如何准确地将MS/MS质谱数据转化为相对应的肽段信息,如何利用这些肽段补充和修订基因组的蛋白质编码基因,如何发掘这些肽段所赋予的定量信息,并建立兼有定性和定量信息的新型蛋白质表达谱。简言之,本项目拟解决的关键科学问题是,如何发掘高精度MS/MS质谱鉴定的肽段中所蕴含的大量生物学信息。主要研究内容1. 海量质谱数据的深度解析技术研究从高精度MS/MS数据出发,通过新一代蛋白质数据库搜索引擎技术、De Novo技术、基因组数据库搜索技术三个途径来实现海量质谱数据的深度解析,具体研究:· 通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程;· 研究新一代蛋白质鉴定搜索引擎,提高鉴定可信度、灵敏度和速度;· 综合利用实验、仪器和计算手段发展肽序列De Novo分析技术;· 利用基因组数据库搜索进一步提高质谱数据解析率。2高精度MS/MS数据对基因组蛋白质编码基因的补充和修订采用De Novo方法独立演绎所测定肽段的氨基酸顺序,进一步反转肽段信息至基因组,试图补充和修订基因组的蛋白质编码基因,具体研究:· 构建综合性蛋白质序列数据库;· 建立基于肽段信息注释基因组的方法流程;· 利用MS/MS所鉴定的肽段补充和修订基因组蛋白质编码基因。3 基于高精度质谱数据的蛋白质表达谱定量计算方法的研究及应用以鉴定的肽段频率为基础,发展兼顾准确度与规模化的非标记定量蛋白质学方法,同时开发以多肽质谱数据为基础的蛋白质编码基因的可视化标识技术,实现蛋白质表达谱的定量化,具体研究:· 蛋白质表达谱定量算法研究;· 蛋白质组表达谱定量分析及可视化研究;· 建立以基因为中心的定量蛋白质数据库及分析平台。4 基于质谱数据的预测结论的实验验证研究运用质谱学、生物化学、分子生物学和免疫学等手段系统验证基于MS/MS数据所分析的生物信息学结论,同时为生物信息学的理论模型提供严格设计和控制的实验数据,具体研究:· 建立先进的MRM技术平台实现对蛋白质定性和定量的高通量验证,发现和验证新的蛋白编码基因,并提供相应的定量蛋白质组信息;· 利用先进的质谱技术平台获取高精度MS/MS数据服务于质谱谱图的深度解析;· 建立通用技术平台从核酸和蛋白质水平上验证通过MS/MS所鉴定的新基因;· 建立通用技术平台从不同技术角度上验证定量蛋白质组。二、预期目标1总体目标本项目研究的总体目标是,发掘MS/MS数据中的肽段信息,开拓生物信息学在质谱数据分析中的研究领域,促进高精度质谱数据在基因组学和蛋白质组学的应用。本项目将通过高精度MS/MS数据和De Novo方法获取一系列与基因组注释基因不相匹配的肽段,并利用这些信息补充和修订基因组蛋白质编码基因;将采用肽段频率为定量蛋白质组计算的基本数据,通过蛋白质定量参数、数学模型和可视化标示等技术来建立定量蛋白质表达谱,并阐明其生物学意义。通过本项目的执行,我们将显著提高MS/MS数据的利用率,具体回答若干相关的生物学问题,拓展生物信息学应用于蛋白质组学的思路和方法。因此,本项目将促进我国在蛋白质组学、基因组学和生物信息学交叉领域的研究。2五年目标1)发展一套针对高精度MS/MS数据的分析策略以及相应的数据库和计算方法;2)显著提高海量MS/MS数据的利用率,深入揭示高精度质谱数据所蕴含的物理化学和生物学意义;3)提升我国在质谱信号解析和蛋白质组生物信息学研究方面的水平。4)在国际主流杂志发表论文30篇左右,并争取Nature及其它国际知名科学期刊发表10篇论文。申请发明专利510项。5)造就一支生物信息学和蛋白质组领域中的高水平的科研队伍,培养一批博士研究生(10-15人),硕士研究生(20-25人),博士后研究人员(510人)。三、研究方案1. 总体学术思路在蛋白质组学诞生的短短几年内,这个学科已经取得了重大进展:蛋白质表达谱的建立,修饰蛋白质的测定,和蛋白质相互作用的分析等。但是,作为一门年轻的学科,蛋白质组的分析技术还远未成熟。其中一个主要的原因是人们在蛋白质鉴定和定量分析上仍遭遇较大的技术困难。近年来,高精度质谱仪的出现给蛋白质组学发展创造了一个新的发展契机。如何深入解析高精度MS/MS数据所蕴含的丰富的生物学信息,是摆在蛋白质组生物信息学面前的重要课题。本项目立足于我国蛋白质组学界已产生的海量MS/MS数据,运用一系列的计算化学和生物信息学的方法,试图发展一套针对高精度MS/MS数据的分析策略以及相应的数据库和计算方法;并以此为基础集中解决两个在基因组学和蛋白质组学亟需解决的问题,即利用肽段信息补充和修订基因组蛋白质编码基因和以肽段频率为基础计算定量蛋白质表达谱。本研究项目需要生物信息学、蛋白质组学和基因组学各交叉学科团队的通力合作,而她产生的科研成果又将施惠于各个研究领域。2. 技术途径本项目的技术途径包括海量MS/MS数据的产生、生物信息软件的设计和应用、以及实验验证等3个层面的多种途径。1) 海量MS/MS数据的产生技术:LTQ、Orbitrap、 FTMS质谱在蛋白质组测定中的应用,多维高效液相层析,高效蛋白质提取技术平台,SDS-PAGE/LC 串联分析技术,多重蛋白质酶消化技术等。 2) 生物信息软件的设计和应用技术:样品处理和仪器操作流程控制,MS/MS谱图的计算机识别,蛋白质搜索引擎,De Novo分析软件,各种数据库的构建技术等。3) 实验验证技术:MRM技术,稳定同位素标记定量技术,化学修饰辅助蛋白质末端序列测定技术, ELISA,Western blot,基因克隆,重组蛋白质制备技术,单克隆抗体制备,Real-Time PCR,5-RACE等。本项目研究已具备了较好的技术平台支撑,承担单位拥有2个国家重点实验室,3个部级重点实验室,项目所需的绝大部分实验仪器和实验手段均已具备,各承担单位间有着长期的良好合作关系和基础。本项目具有丰富的前期工作积累与相关研究成果及多学科背景的研究队伍,已经建立起成熟的研究手段和方法,有能力完成所计划的研究任务。3. 创新性和特色本项目的创新之处集中表现在:一整套针对于高精度MS/MS数据的分析策略以及相应的数据库和计算方法;利用MS/MS和De Novo技术补充或修订基因组蛋白质编码基因;建立兼有定性和定量数据的蛋白质表达谱;和Gene-centric方法标示组织或细胞蛋白质表达谱。本项目的特色在于:问题明确、方法新颖、课题间环环相扣。我们立足于建立高精度串连质谱数据解析的分析策略、数据库和算法,着眼于这些研究成果在具体生物学问题上的应用,结论于实验科学对理论分析结果的严格验证。同时,我们将最大程度地发挥“集体效应”优势,整合我国在生物信息学、蛋白质学和基因组学优秀团队,根据各团队的专长来展开相关研究。4. 取得重大突破的可行性分析本项目瞄准了当前蛋白质组学研究的热点和重点,试图揭示高精度MS/MS数据所蕴含的丰富的生物学信号。在项目执行过程中,我们有信心在MS/MS数据的有效利用率、肽段信息对基因组蛋白质编码基因的补充和修订、质谱谱图在定量蛋白质组中应用、定量蛋白质组的图形标示技术等方面取得突破。我们的信心植根于:1) 本项目计划解决的几个问题在国际间仍然悬而未决,我们和其他的竞争者正处在同一起跑线上;2)参与本项目的各个团队在相关的领域处在先进水平,某些课题已取得了进展;3)在我国政府的支持下,在过去几年中我国蛋白质学界已积累了海量的MS/MS数据,无论在数据的质量还是数量上,我国的MS/MS数据库领先于其他国家;4)参与的团队与国际优秀的蛋白质组学家形成了较好的合作关系,尤其在MS/MS数据的共同开发上已取得重大进展。同时,项目首席科学家和课题组长在科研项目的组织和协调方面具有丰富的经验,均承担完成多项国内或国外的重要科研项目。本项目计划是基于研究团队的研究基础和前期工作而提出的,在本项目的申报过程中,项目专家组及研究骨干多次研讨,围绕本研究计划拟解决的重大科技问题,制定了合理可行的研究方案和技术路线。相信通过学科交叉、集成多种研究方法,我们研究团队完全有可能在本领域取得突破性进展。5. 课题设置课题设置思路本项目拟在高精度MS/MS数据基础上,采用各种数据分析手段,从基因组蛋白质编码基因和蛋白质组定量两个生物学问题着手,深入地了解和认识MS/MS数据所蕴含的肽段信息的生物学意义,为蛋白质组的功能性研究提供新的方法和思路。本项目将设置四个课题,分别为,1)海量质谱数据的深度解析技术研究;2)高精度MS/MS数据对基因组蛋白质编码基因的补充和修订;3)基于高精度MS/MS质谱数据的蛋白质表达谱定量计算方法的研究及应用;4)基于质谱数据的预测结论的实验验证研究。建立质谱数据的统计数学模型分析有赖于实验数据的精度和重现性。目前的质谱数据广泛存在两个基本问题,一是缺乏不同的质谱仪所产生的质谱图谱的共享标准,二是谱图解读和肽段判断的标准没有达到共识。因此,我们把质谱数据分析的标准化放在本项目头等重要的位置。在深度解析MS/MS数据的基础上,我们设定两个课题组具体研究如何发掘MS/MS信号所蕴含的生物信息,即补充和修订基因组蛋白质编码基因及定量表达蛋白质组。前者注重于剖析MS/MS数据,通过De Novo方法直接分析与数据库搜索获得MS/MS所含有的肽段序列信息,然后建立MS/MS对应的肽段数据库,并以此数据库为基点开展基因组的相关研究;后者则集中于研究MS/MS所产生的肽段频率与蛋白质丰度之间的相关性,试图建立基于非标记性肽段频率的蛋白质定量判据,并应用于估算蛋白质定量表达谱,同时还要开发具备定性和定量信息的蛋白质表达谱的可视化标示方法。本项目聚焦于如何运用生物信息学方法处理高精度MS/MS数据,抽象和演绎出蛋白质组相关的生物学信息。与传统的生物信息学研究项目不同的是,我们还充分意识到,生物信息学的理论分析离不开对蛋白质或肽段化学性质的知识水平和实验数据的支持,为此设定了第四课题组,专职与生物信息课题相配合,对理论预测的结果进行实验验证,同时也通过方法学的探索为生物信息理论分析提供具有针对性的实验数据,特别是高精度的MS/MS数据。课题的关联本项目的四个课题中,一个课题注重MS/MS数据的标准化分析,为蛋白质生物信息学研究提供可靠的肽段信息和计算工具;两个课题集中于肽段信息在具体生物学问题中应用研究;另一个课题则从实验技术层面上对生物信息学的预测结果进行系统的验证,并为理论分析提供和补充相应的实验数据。本项目的各个课题之间既存在学术逻辑上必然联系,又有研究内容上的互为补充,还有研究成果的相互验证。这样如图一所示,四个课题之间形成了较为完整的研究关联网络,在不同的层次和角度上共同发掘高精度MS/MS数据在蛋白质组学中的应用以及它们的生物学意义。图一:课题设置及各子课题之间的相关性课题1. 海量质谱数据的深度解析技术研究课题背景海量质谱数据的解析是蛋白质组研究的基础,而自动化的数据分析软件是海量质谱数据解析的基本工具。蛋白质组过去十年的研究历程,主要依靠蛋白质鉴定两大商业软件Mascot和SEQUEST来实现海量质谱数据的基本解析,其最大的问题在于:仅仅有10%左右的质谱数据可以得到肽鉴定结果,其余数据无法解析,因而其中所蕴涵的信息无法利用。造成这种局面的原因是多方面的。首先,对于分子生物学的规律,比如基因水平上的基因预测、基因突变、可变剪接及蛋白质水平上的氨基酸突变、翻译后修饰等,目前还没有完整、准确的认识。其次,对于包括样品制备和质谱仪操作在内的质谱数据生成过程的设计和规范化控制缺乏系统的研究,加上质谱仪的分辨率和准确度不足,造成原始数据质量不高。再次,数据分析方法和软件发展滞后,表现在两大商业软件核心鉴定算法多年来没有大的改进,鉴定可信度评价方法没有达到共识和规范化,鉴定灵敏度研究长期缺乏关注,而鉴定速度不够高则直接限制了对于海量质谱数据的全面探索性分析,比如非特异酶切、可变翻译后修饰的鉴定。近年来,质谱技术发展迅速,高精度质谱仪(如FTMS、Orbitrap),配以基于电子的离子裂解新方式(如电子捕获裂解ECD、电子转运裂解ETD),已经开始在国内外和本项目申请单位安装和应用,因此质谱数据质量近期将会大大提高。同时,由于认识到基于数据库搜索的质谱数据解析与蛋白质鉴定本质上是一种特殊的信息检索,而信息检索领域的搜索引擎技术经过了十多年的成功发展,因此,海量质谱数据的专用搜索引擎设计可以从中获得充分的借鉴,数据分析的速度和质量有望大大提高。本项目申请单位在过去几年中参加过人类肝脏蛋白质组表达谱的完整实验和数据分析,对于海量质谱数据的解析积累了比较丰富的一手经验,而独立自主开发蛋白质鉴定软件系统pFind则为进一步设计新的搜索引擎奠定了基础。这都为深度解析海量质谱数据提供了希望。深度解析海量质谱数据,首先要在严格对照实验的条件下认识质谱数据的规律,特别是质谱数据有多大比例可以解析,有多大比例可以得到可信的肽鉴定结果,在这个基础上设计新一代搜索引擎并确立合理的解析率指标。新一代搜索引擎的设计,立足于在现有蛋白质数据库的基础上充分解析质谱数据,从而把现有蛋白质数据库中没有包含的新肽段的鉴定限定在未鉴定的质谱数据上,这是对基因组注释最可能有意义的地方。新肽段的鉴定分为两种途径,一是不依赖蛋白质数据库,直接从串联质谱图中提取肽段完整序列或者序列片段,即所谓的De Novo技术;二是将搜索数据库的范围从蛋白质组扩展到基因组,获得更多的肽段序列来达到鉴定更多质谱数据的目的。通过新一代蛋白质数据库搜索引擎技术、De Novo技术、基因组数据库搜索技术三个途径来实现海量质谱数据的深度解析,提高解析率,并进一步利用控制实验来验证。研究目标本课题的研究目标是发展海量MS/MS数据的深度解析技术,显著提高数据解析率。具体分为四点:一) 通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程;二)研究新一代蛋白质鉴定搜索引擎,提高鉴定可信度、灵敏度和速度;三)综合利用实验、仪器和计算手段发展肽序列De Novo分析技术;四)利用基因组数据库搜索进一步提高质谱数据解析率。研究内容一)通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程MS/MS质谱数据的鉴定成功率约为5%-15%,无鉴定结果的MS/MS质谱数据中可能蕴含着许多蛋白质或肽段信息,如基因组数据库中不存在的新蛋白质或蛋白质剪切体,或可能存在的错误的注释信息等。所以,确定无鉴定结果的MS/MS质谱数据的产生原因并发掘其隐含信息极其必要和迫切。此外,在蛋白质表达谱中所普遍采用的Shotgun路线中,蛋白质鉴定覆盖率往往很低,其原因也需要探索。计划以高纯度标准蛋白质为样本,在优化和规范化实验操作流程的基础上,获取蛋白酶切肽段MS/MS数据,明确每一张串联质谱图归属,分析图谱鉴定或未鉴定原因。合成若干类,每类若干条具有代表性理化性质肽段,分析其单独质谱行为和在复杂体系中的质谱行为和鉴定成功率,找出未鉴定原因,为发展新的数据分析算法/软件和检索工具提供依据。同时研究实验设计、样品处理和仪器操作流程对于质谱数据质量及其解析的影响,在此基础上优化和规范实验操作流程。更具体地,计划选取高纯度标注蛋白质若干种作为初步研究分析对象。其中蛋白选取将主要考虑蛋白分子量、酶切肽段理化性质等因素。采用Shotgun策略,首先分别对单个蛋白进行质谱数据采集,并将全部串联图谱进行多搜索引擎检索和手工平行分析,以确定全部图谱的身份和发现方法及其比例。目前考虑到可能的原因包括:非肽段信号、未知修饰、碎片信息过差、非规则酶切肽段、混合碎片、非数据库包含序列、检索算法问题、未知因素等。在整合产生这些结果原因的基础上初步设计相应检索分析软件。之后将标准蛋白混合,用于检验分析效果,并进行调整。进一步选取简单模式生物标本,如E.Coli、Yeast等,采用软件自动分析结合手工分析,完成全部串联图谱身份分析,并再次调整分析策略和软件。二)研究新一代蛋白质鉴定搜索引擎, 提高鉴定可信度、灵敏度和速度基于蛋白质序列库搜索的蛋白质鉴定软件,本质上是一个信息检索系统,其核心是搜索引擎。现有的蛋白质鉴定搜索引擎,在质谱数据分析上面临着很多挑战和困难,比如质谱图解析率低、鉴定结果可信度低、数据库搜索速度慢,等。除了由于我们对肽段离子碎裂和串联质谱图生成机制的认识有限之外,很重要的原因在于,目前广泛应用的蛋白质鉴定搜索引擎没有及时集成新方法和新技术,从预处理到打分排序和可信度评价都普遍存在缺陷,比如没有深入挖掘肽-谱匹配的特征,没有利用机器学习和搜索引擎的新技术。为此,我们将开展如下方面的研究。1) 提高蛋白质鉴定搜索引擎的可信度通过对数据进行深入的分析,考察随机匹配产生的原因,在此基础上提取特征,对随机匹配的搜库结果进行分类处理,建立理论性比较强的模型;整合搜索引擎提供的多个匹配打分参数,建立适当的数学模型,为每个非冗余鉴定肽段赋予一个适当的判别分值,实现肽段水平的可信度控制;利用随机数据库搜索等对单个搜索引擎和数据集肽段可信度控制结果,构建合适的算法模型,实现对不同搜索引擎、不同数据集数据的整合;考虑基于图谱计数的半定量、蛋白质序列长度、数据库大小、蛋白质的酶切肽段和鉴定肽段等信息构建基于超几何分布的蛋白质鉴定可信度评估概率模型。2) 提高蛋白质鉴定搜索引擎的灵敏度融合多种信息源,提取和筛选有效的肽谱匹配特征,基于机器学习技术,将肽打分函数构造问题,转化为排序学习或者分类问题,通过迭代搜索或者迭代打分,动态地、自适应地更新肽打分函数,从而使之能够更好地适应不同特点的质谱数据,在保证足够可信度的条件下,显著提高肽鉴定的灵敏度和谱图的解析率。对串联质谱数据进行聚类研究,揭示谱图间的相互关系,建立谱图数据的内部结构。通过限制性谱图聚类识别冗余谱图,生成代表谱,改善谱图的质量,提高谱图解析的精度。通过非限制性聚类识别相关谱图,发现含有修饰、氨基酸突变的谱图、以及由非特异酶切肽段产生的谱图,以进一步提高谱图解析率。3) 提高蛋白质鉴定搜索引擎的速度采用高效的数据索引技术及与之相配合的高效搜索流程设计,以加速候选肽查询的过程。优化肽谱匹配打分算法的实现,使之适应多种翻译后修饰以及非限定修饰、非特异性酶切等带来的候选肽规模膨胀问题。采用以序列标签手段为主,对数据库候选肽进行过滤的方式,突破传统的搜索引擎框架。通过实际典型数据的运行时间测量,确定搜索引擎流程模块的运行热点,研究任务级并行的静态和动态负载均衡算法,在此基础上进一步研究算法级负载均衡算法,将鉴定流程中的热点模块分配到多个节点进行运算,以进一步提高蛋白质搜索引擎的速度,实现12个量级的加速。三)综合利用实验、仪器和计算手段发展肽序列De Novo测序技术蛋白质鉴定从头测序算法的主要思想是只利用串联质谱中的谱峰信息推断肽段序列。De Novo方法不依赖于蛋白质数据库,在数据库信息不完整的情况下De Novo比数据库搜索具有一定的优势。然而,De Novo算法的应用范围有比较大的局限性,它可以处理的数据通常为CID碎裂方式下的高质量谱图,而且,De Novo方法的谱图鉴定率相对比较低,通常情况下,对于质量比较好的MS/MS谱图,利用从头测序算法仅可以得到约30%的正确鉴定结果。随着质谱仪精度的逐渐提高,利用高精度谱图的一系列优势,提高鉴定序列的准确性,越来越受到人们的关注。另外,利用同一肽段不同碎裂方式等方法产生的多张谱图的内在联系进行从头测序的方法也逐渐成为蛋白质鉴定问题中的研究热点。利用特殊化学修饰,如磺酸化修饰等,可以为De Novo提供更丰富的技术路线。为此,本课题将与课题4密切合作开展如下方面的研究。1) 利用高精度MS/MS数据进行De Novo测序利用课题4提供的LTQ-Orbitrap高精度质谱数据,可以更有效地进行从头测序。首先,高度精确的母离子及碎片离子质量使得不同氨基酸残基的区分度更好,提高了氨基酸残基识别的可靠性;利用离子峰同位素模式的差异,可以进一步区分质量相似的氨基酸,如谷氨酸与赖氨酸等。其次,低精度质谱仪下不同离子类型的碎片质量可能重叠的现象,在高精度情况下可能性大大降低,从而可以进一步提高从头测序算法的精度。此外,利用高精度的有效离子峰,可以计算出离子的理论氨基酸组成,从而更有效地过滤候选肽序列。2) 利用谱图相关性信息进行De Novo测序CID与EXD(如电子捕获裂解ECD、电子转运裂解ETD等)是蛋白质或多肽在质谱仪中的不同碎裂方式,通常EXD碎裂方式可以更好地保存完整的修饰信息,而且碎裂谱峰有较好的连续性,与CID的特性形成很好的互补。利用课题4提供的同一肽段的CID/ETD碎裂形成的谱图,我们可以利用不同谱图间的谱峰信息相互验证,区分有效峰与噪音峰,进而将不同碎裂方式下的谱峰进行聚合,可以提高谱图的信噪比;通过不同碎裂方式下相关离子的质量差值,可以识别谱峰所属的离子类型;结合基于谱峰图的从头测序方法,不仅可以提高鉴定肽段的置信度,而且可以鉴定到单一碎裂方式下难以鉴定到的肽段。 3) 利用化学修饰方法辅助De Novo测序近年来很多研究都通过各种化学小分子修饰策略来辅助肽段的裂解与质谱测序。例如,通过磺酸化修饰在肽段上引入磺酸基,不仅可以提高肽段的碎裂效率,还可以抑制其它离子的产生,得到以y系列离子为主的MS/MS数据;利用嘧啶化合物修饰多肽羧基可以有效增强修饰谱谱峰的信号强度。因此,利用课题4提供的高清晰串联质谱数据,基于谱峰图的方法进行从头测序,不仅可以更准确地挑选有效峰,而且减少了单个谱峰匹配多种可能离子类型的风险,从而提高从头测序算法的精度。四)利用基因组数据库搜索进一步提高质谱数据解析率基于蛋白质数据库搜索的质谱数据解析与蛋白质鉴定方法的成败,强烈依赖蛋白质数据库是否完整,如果不存在相应的条目,即使是质量很好的谱图,也无法得到鉴定。因此,在常规鉴定方法的基础上扩大搜索范围,对更全面的EST或基因组数据库进行搜索,就成为提高质谱鉴定率的另一种有效方法。目前存在各种不同的基因组学相关的数据库:原始基因组数据,信息最全面,但数据量巨大,没有可变剪接信息,所以目前一般只进行原核生物的直接搜索;表达序列标签EST(Expressed Sequence Tag)库,是指从不同组织来源的cDNA片段序列积累得到的数据库,可确定是转录水平的数据,且基本覆盖整个基因组;可变剪接数据库,通过选取有可变剪接注释的肽序列,进行搜索、序列比对、筛选和分类构建而成,可以看作基因组数据库和蛋白质数据库的桥梁。针对不同层次的数据库,可以对质谱数据进行多步骤、多策略的迭代搜索:先对常规蛋白质数据库进行搜索鉴定;没有得到解释的质谱数据再利用EST库和可变剪接数据库进行搜索;对于仍然无法解释的质谱,采用直接搜索六个开放阅读框翻译的氨基酸序列的方法进行鉴定;或通过谱图解析得到肽片段信息,再对基因进行序列比对。最终鉴定出常规方法无法解释的谱图数据。基因库搜索面临的主要挑战包括:如何构建面向多层次海量基因数据库的数据结构?如何加快鉴定速度,应对剧烈膨胀的数据库搜索量?如何有效估计和控制谱图解析的错误率?为此本课题将与课题2密切合作开展如下方面的研究。1)构建多层次的、相互关联的、海量的基因组-蛋白质组数据库基因组数据非常庞大复杂,如何有效设计数据结构予以存储和表达,是非常关键的问题。本项目的课题2将构建一个基于基因组序列的,比当前公共蛋白质数据库包含序列种类更多、数量更大的蛋白质数据库;而我们将通过设计索引数据格式和读取接口,解决海量规模数据库的存储和快速检索问题。借鉴现有成熟的蛋白质和肽数据索引技术方案,设计合理的数据结构,便于系统内数据的读取、存储、压缩、表达,查询和关联。2)提高蛋白质鉴定引擎的搜索速度基因组或EST数据库相对于传统的蛋白质数据库,规模扩大了不止一个数量级,面临着搜索速度上的挑战。除了利用各种常规思路对搜素引擎进行加速外,重点利用基因和蛋白质数据之间的关联关系,将常规蛋白数据库搜索或者DeNovo测序鉴定出的肽段/蛋白质映射到对应的核酸序列上,然后枚举出该基因区域经过突变、可变剪接、翻译等种种变化得到的所有可能的氨基酸序列,对没有得到鉴定结果的谱图进行二次搜索,既可能提高谱图解析率,同时又可以大大减小基因组数据库产生的候选肽规模,从而加速鉴定。3)研究搜索结果可靠性问题,有效估计和控制谱图解析的错误率。数据库规模的扩大,不仅仅带来速度问题:基因组数据或EST数据库远大于蛋白质数据库,同时含有一定的测序误差,发生随机匹配的概率更大;并且因为预测错误的开放阅读框和低质量的EST序列,以及串联质谱数据本身带有的噪音和复杂性,将导致更多错误的随机匹配。因此需要深入分析传统方式下随机误匹配产生的原因,构建模型提取特征,进一步建立完善的估计检验算法。课题承担单位:中国科学院计算技术研究所课题参加单位:复旦大学课题负责人: 贺思敏科研骨干:孙瑞祥、赵屹、张扬经费比例:23%课题2. 高精度MS/MS数据对基因组蛋白质编码基因的补充和修订课题背景:基因组DNA序列的测定标志着人类在探索生命之谜的征程中迈出了关键一步。 但是,解读基因组中所富含的遗传秘密和生物功能信息的研究工作还刚刚开始。根据2007年在PNAS上发表的研究表明,人类基因组中的蛋白质编码基因数量可能会少于24,500;而Broad研究所的研究指出,人类基因数据库如Ensembl、RefSeq和Vega包括了许多任意出现的而非蛋白质编码区域的开放阅读框,实际上人类基因组中的蛋白质编码基因数目可能只有20,500左右。2007年康奈尔大学的研究人员发表在Genome Research的研究工作,通过利用超级计算机比较人类、小鼠、大鼠和鸡的基因组部分,发现了300个之前没有确定的人类基因,还确定了几百个已知基因的范围。这意味着,有许多基因会在目前的生物分析方法下被漏掉。传统的基因注释方法对广泛表达基因的发现非常有效,却会遗漏只在特定器官表达或在胚胎发育早期表达的基因。传统上,开放阅读框(open reading frame,ORF)的一些原则正在受到大量实验数据的挑战,尤其是对于内含子的可变剪切丰富的真核生物基因组而言,基因组的注释的缺陷尤其明显。例如,即使是研究较透彻的模式生物果蝇,大概30%的转录本都没有被注释。通过比对人的EST和基因组,产生了约62000个不相重叠的聚类,但大多数都不包含ORF的5端区域,提示了仅依靠测序cDNA来完整注释动物基因组是不切实际的。普遍使用的基因预测软件GENSCAN 在对小鼠和人的ORF预测上正确率仅为15%和10%;在哺乳动物基因预测方面表现最好的CONTRAST算法,对人的ORF预测也只有58%的正确率。 近年来,高精度质谱仪(FT、Orbit-Trap)的发展以及肽段解析技术的进步为基因组的蛋白质编码注释开辟了新的研究方向。采用MS/MS数据注释基因组有其独到的技术优势。首先,肽段反映的是基因最终表达的产物,它比RNA分子更为直接地传递了基因的编码信息。其次,大规模MS/MS数据库的建立,使得传统的一个基因一个cDNA一次测序的观念受到冲击,利用De Novo技术分析MS/MS数据库,可能极大地丰富肽段信息。 蛋白质组基因组学是近几年诞生的一门用蛋白质组信息解构基因组的新兴学科。MS/MS质谱实验辅助基因组注释已经在多种物种中(原核生物,酵母,植物和人等)使用,涉及到基因组注释的多个研究内容,如:确认预测基因、发现新基因、判断假基因、证实可变剪切等。此外,串联质谱数据还和基因预测算法整合,提高了基因预测准确率。然而必须认识到,蛋白质组基因组学领域还存在很多技术上的挑战,目前研究还大多局限于低等生物,结果局限在对基因组注释的补充与修订,离全基因组水平基因注释还相距很远。据估计约40-60%的人类基因存在可变剪切,但Tanner等从一千八百万张MS/MS质谱里只找到了40多个可变剪切。造成这样结果的原因主要有:1)质谱鉴定肽段的过程一般利用数据库搜索法,只有数据库中存在的蛋白质才可能被预测到;2)肽段和蛋白质的鉴定有一定的假阳性,错误率随着数据库的增大而增大;3)只有10%20%的质谱能匹配到肽段,绝大多数的质谱都没有被解读。课题1已就这些问题提出了一系列解决方案,着重解决公共蛋白质数据库局限性问题以及肽段鉴定算法覆盖率和重复率低的问题。本课题将密切与课题1合作,利用课题1剖析MS/MS数据的研究成果,通过De Novo方法直接分析和改善数据库搜索效率以获得尽可能多的肽段序列信息,然后建立MS/MS数据所对应的肽段数据库,基于此数据库进一步开展补充和修订基因组蛋白质编码基因的研究工作。研究目标一) 构建综合性蛋白质序列数据库;二) 建立基于肽段信息注释基因组的方法流程;三) 利用MS/MS所鉴定的肽段补充和修订基因组蛋白质编码基因。研究内容一)蛋白质序列数据库的构建为适应蛋白质数据库搜索鉴定,构建一个基于基因组序列的,比当前公共蛋白质数据库包含序列种类更多、数量更大的蛋白质数据库,能使我们更有效地利用高通量蛋白质组学质谱数据。在这个方面,我们和课题1既有密切合作,又有各自专攻方向。课题1通过设计索引数据格式和读取接口,提高蛋白质鉴定引擎的搜索速度,有效估计和控制谱图解析的错误率以解决海量规模数据库的存储和快速检索问题,而本课题组则从如下几个方面提供构建综合数据库的策略:1) 整合现有的蛋白质公共数据库当前蛋白质序列公共数据库,如NCBI蛋白质数据库,Uniprot蛋白质数据库,以及EMBL-EBI的IPI蛋白质数据库等囊括了绝大多数已知蛋白质的序列信息。整理这些数据库中的人类蛋白质数据,包括不同库间数据进行相互补充和验证、通过Blast方法去除冗余蛋白质、统一蛋白质编号、使用FASTA格式存储包含对应基因组定位信息在内的蛋白质序列信息,从而构建一个含有绝大多数已知人类蛋白质序列的数据集合。2) 使用“六位移码翻译”方法得到全基因组ORF数据集使用“六位移码翻译”方法从基因序列中寻找潜在的ORF,能最大范围地覆盖所有基因可能的转录本。从NCBI基因组数据库,Ensembl基因组数据库和UCSC基因组数据库搜集到完整的基因组序列信息。潜在的ORF起始位点开始于每一个染色体的第一个碱基,每翻译到终止密码子时即为ORF的终止位点。下一个ORF的起始位点定为上一个ORF终止位点的下一个碱基。基因组中不明确的碱基使用随机方式以一种碱基代替。这种方法应用于基因组DNA双链的各三个阅读框,即“六位移码翻译”。每一个ORF均标示出基因组的坐标与方向,便于将肽段信息匹配到基因组上。从每一个染色体得到的氨基酸序列以FASTA格式保存。3) 构建可变剪切数据库可变剪切是单个基因编码众多蛋白质亚型的重要机制。通过多种方法构建可变剪切数据库对于验证已有的及发现新的可变剪切方式、发现新ORF与新基因具有重要意义。我们整合已有的(如Ensembl 数据库)和预测软件(如“AUGUSTUS”)预测的外显子与内含子信息,构建含有基因多种可变剪切模型的数据库。具体步骤包括:1)将基因(正链)的同一个转录本内的已知与预测的外显子按5'至3'顺序排列后,依次按顺序选取外显子序列拼合组成所有可能的剪切方式;2)对于每一种拼接结果,截取拼接点左右各90个碱基序列(如果外显子碱基数少于90,则取其全部序列,截取过程中保留拼接点位置信息),从该序列5'端每次移动一个碱基共移动三次分别按通用密码子翻译成含有近60个氨基酸的肽段序列;3)去除不连续的无意义的蛋白质序列;4)位于反链上的基因将其转录本反转成相应的正链碱基序列后按照前三个步骤构建可变剪切序列。为了应对MS/MS搜索后续的结果评估,上述三个数据库还会与一个将靶序列打乱(shuffle)生成的“诱饵”(decoy)库相结合,生成最终用于搜索的大型数据库。任何一个在靶序列库和诱饵序列库中同时出现的8氨基酸以上的序列都会被重新打乱(re-shuffled),以保证靶序列与诱饵序列之间的重合度最小,方便后续鉴定结果假阳性率(false-discovery rate, FDR)的估算。二)建立基于肽段信息注释基因组的方法流程通过De Novo方法直接分析和改善数据库搜索效率,我们将尽可能从高精度MS/MS数据获得丰富的肽段序列,并建立MS/MS对应的肽段数据库。以此数据库为基点可通过与对应的蛋白质信息联配(alignment)至基因组上,将这些肽段延伸成开放阅读框(ORF),最终生成一个“蛋白质组基因组学图谱”(proteogenomic map)。这些基于肽段序列的基因组注释方法学将主要包括下列七个方面:1) 鉴定已知蛋白质的诊断(diagnostic)肽段结合完全匹配文本搜索和本地序列联配方法(如Perl编写的正则表达式),可鉴定出映射到已知编码区域的基因内诊断肽段。由这种方法无法鉴定的肽段,运用TBLASTN(使用PAM30矩阵)对它们亲本(parent)基因的蛋白质产物进行联配,只考虑100%匹配的鉴定结果。2) 分类已知基因内的新诊断肽段将不能联配于任意已知蛋白质的基因内诊断肽段联配到从UCSC基因组网站上获得的人类ESTs库,MEGABLAST使用步长12。新肽段完全包含在已注释外显子之内定义为IE(intronic exon),肽段与已注释外显子部分重叠分类为OE(overlapping exon),而完全未处于已注释外显子中的肽段定义为NE (non-overlapping exon)。3) 定义新编码区域对诊断肽段NE和OE编码区域两侧延伸1000碱基对由BLASTN联配到ESTs,只接受匹配重叠于肽段编码区域且E值小于1e-6的结果。新编码区域的相应基因位置来自于从重叠ESTs生成的最长邻近联配窗。4) 鉴定蛋白质结构域(domain)分类为OE的诊断肽段以BLASTP联配到他们的亲本基因。可能包含新肽段的相应蛋白质随后被计算确定。每个蛋白质序列使用UNIPROT和PROSITE搜索其蛋白质结构域。从数据库中挑出重叠到新肽段区域的蛋白质结构域。包括新OE肽段序列的理论蛋白质亦基于如上所述的BLASTP相应产物生成。这些理论蛋白质也由PROSITE分析,并与原始蛋白质相比较,以额外氨基酸残基的存在确定引入蛋白质结构域的变化。5) 校正开放阅读框在当前基因模型之外发现的新肽段中,当有些新肽段位于已知的基因座(gene locus)时,这些与基因座的编码区域重合的肽段将位于一个新阅读框内。为了(至少在一定程度上)证实这些被错误预测的基因的存在,我们用几个特征筛选这些新肽段:位于已知阅读框外的新肽段要多次出现,超出阅读框外的氨基酸个数至少为3,与已知数据库中的序列没有冲突。6) 分析基因的可变剪切可采用两种策略,筛选跨越基因组上剪切位点边界的肽段,对已知的基因可变剪切模式进行注释或发现基因的新剪切方式:1)利用整合的现有的蛋白质公共数据库与使用“六位移码翻译”方法得到全基因组ORF数据集,将高通量质谱鉴定到的肽段