蛋白质组海量质谱数据的解析及其在人类基因组注释中.doc
《蛋白质组海量质谱数据的解析及其在人类基因组注释中.doc》由会员分享,可在线阅读,更多相关《蛋白质组海量质谱数据的解析及其在人类基因组注释中.doc(36页珍藏版)》请在三一办公上搜索。
1、项目名称:蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用首席科学家:刘斯奇 中国科学院北京基因组研究所起止年限:2010年1月-2014年8月依托部门:中国科学院一、研究内容关键科学问题本项目将以我国蛋白质组学界产生的海量MS/MS质谱数据为基本分析材料,重点放在解析这些数据中的新的蛋白质编码基因和蛋白质组定量信息。我们将运用计算化学、工程方法学、生物信息学、质谱学和生物分析化学等研究手段深入探讨如何准确地将MS/MS质谱数据转化为相对应的肽段信息,如何利用这些肽段补充和修订基因组的蛋白质编码基因,如何发掘这些肽段所赋予的定量信息,并建立兼有定性和定量信息的新型蛋白质表达谱。简言之,本
2、项目拟解决的关键科学问题是,如何发掘高精度MS/MS质谱鉴定的肽段中所蕴含的大量生物学信息。主要研究内容1. 海量质谱数据的深度解析技术研究从高精度MS/MS数据出发,通过新一代蛋白质数据库搜索引擎技术、De Novo技术、基因组数据库搜索技术三个途径来实现海量质谱数据的深度解析,具体研究: 通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程; 研究新一代蛋白质鉴定搜索引擎,提高鉴定可信度、灵敏度和速度; 综合利用实验、仪器和计算手段发展肽序列De Novo分析技术; 利用基因组数据库搜索进一步提高质谱数据解析率。2高精度MS/MS数据对基因组蛋白质编码基因的补充和修订采用De N
3、ovo方法独立演绎所测定肽段的氨基酸顺序,进一步反转肽段信息至基因组,试图补充和修订基因组的蛋白质编码基因,具体研究: 构建综合性蛋白质序列数据库; 建立基于肽段信息注释基因组的方法流程; 利用MS/MS所鉴定的肽段补充和修订基因组蛋白质编码基因。3 基于高精度质谱数据的蛋白质表达谱定量计算方法的研究及应用以鉴定的肽段频率为基础,发展兼顾准确度与规模化的非标记定量蛋白质学方法,同时开发以多肽质谱数据为基础的蛋白质编码基因的可视化标识技术,实现蛋白质表达谱的定量化,具体研究: 蛋白质表达谱定量算法研究; 蛋白质组表达谱定量分析及可视化研究; 建立以基因为中心的定量蛋白质数据库及分析平台。4 基于
4、质谱数据的预测结论的实验验证研究运用质谱学、生物化学、分子生物学和免疫学等手段系统验证基于MS/MS数据所分析的生物信息学结论,同时为生物信息学的理论模型提供严格设计和控制的实验数据,具体研究: 建立先进的MRM技术平台实现对蛋白质定性和定量的高通量验证,发现和验证新的蛋白编码基因,并提供相应的定量蛋白质组信息; 利用先进的质谱技术平台获取高精度MS/MS数据服务于质谱谱图的深度解析; 建立通用技术平台从核酸和蛋白质水平上验证通过MS/MS所鉴定的新基因; 建立通用技术平台从不同技术角度上验证定量蛋白质组。二、预期目标1总体目标本项目研究的总体目标是,发掘MS/MS数据中的肽段信息,开拓生物信
5、息学在质谱数据分析中的研究领域,促进高精度质谱数据在基因组学和蛋白质组学的应用。本项目将通过高精度MS/MS数据和De Novo方法获取一系列与基因组注释基因不相匹配的肽段,并利用这些信息补充和修订基因组蛋白质编码基因;将采用肽段频率为定量蛋白质组计算的基本数据,通过蛋白质定量参数、数学模型和可视化标示等技术来建立定量蛋白质表达谱,并阐明其生物学意义。通过本项目的执行,我们将显著提高MS/MS数据的利用率,具体回答若干相关的生物学问题,拓展生物信息学应用于蛋白质组学的思路和方法。因此,本项目将促进我国在蛋白质组学、基因组学和生物信息学交叉领域的研究。2五年目标1)发展一套针对高精度MS/MS数
6、据的分析策略以及相应的数据库和计算方法;2)显著提高海量MS/MS数据的利用率,深入揭示高精度质谱数据所蕴含的物理化学和生物学意义;3)提升我国在质谱信号解析和蛋白质组生物信息学研究方面的水平。4)在国际主流杂志发表论文30篇左右,并争取Nature及其它国际知名科学期刊发表10篇论文。申请发明专利510项。5)造就一支生物信息学和蛋白质组领域中的高水平的科研队伍,培养一批博士研究生(10-15人),硕士研究生(20-25人),博士后研究人员(510人)。三、研究方案1. 总体学术思路在蛋白质组学诞生的短短几年内,这个学科已经取得了重大进展:蛋白质表达谱的建立,修饰蛋白质的测定,和蛋白质相互作
7、用的分析等。但是,作为一门年轻的学科,蛋白质组的分析技术还远未成熟。其中一个主要的原因是人们在蛋白质鉴定和定量分析上仍遭遇较大的技术困难。近年来,高精度质谱仪的出现给蛋白质组学发展创造了一个新的发展契机。如何深入解析高精度MS/MS数据所蕴含的丰富的生物学信息,是摆在蛋白质组生物信息学面前的重要课题。本项目立足于我国蛋白质组学界已产生的海量MS/MS数据,运用一系列的计算化学和生物信息学的方法,试图发展一套针对高精度MS/MS数据的分析策略以及相应的数据库和计算方法;并以此为基础集中解决两个在基因组学和蛋白质组学亟需解决的问题,即利用肽段信息补充和修订基因组蛋白质编码基因和以肽段频率为基础计算
8、定量蛋白质表达谱。本研究项目需要生物信息学、蛋白质组学和基因组学各交叉学科团队的通力合作,而她产生的科研成果又将施惠于各个研究领域。2. 技术途径本项目的技术途径包括海量MS/MS数据的产生、生物信息软件的设计和应用、以及实验验证等3个层面的多种途径。1) 海量MS/MS数据的产生技术:LTQ、Orbitrap、 FTMS质谱在蛋白质组测定中的应用,多维高效液相层析,高效蛋白质提取技术平台,SDS-PAGE/LC 串联分析技术,多重蛋白质酶消化技术等。 2) 生物信息软件的设计和应用技术:样品处理和仪器操作流程控制,MS/MS谱图的计算机识别,蛋白质搜索引擎,De Novo分析软件,各种数据库
9、的构建技术等。3) 实验验证技术:MRM技术,稳定同位素标记定量技术,化学修饰辅助蛋白质末端序列测定技术, ELISA,Western blot,基因克隆,重组蛋白质制备技术,单克隆抗体制备,Real-Time PCR,5-RACE等。本项目研究已具备了较好的技术平台支撑,承担单位拥有2个国家重点实验室,3个部级重点实验室,项目所需的绝大部分实验仪器和实验手段均已具备,各承担单位间有着长期的良好合作关系和基础。本项目具有丰富的前期工作积累与相关研究成果及多学科背景的研究队伍,已经建立起成熟的研究手段和方法,有能力完成所计划的研究任务。3. 创新性和特色本项目的创新之处集中表现在:一整套针对于高
10、精度MS/MS数据的分析策略以及相应的数据库和计算方法;利用MS/MS和De Novo技术补充或修订基因组蛋白质编码基因;建立兼有定性和定量数据的蛋白质表达谱;和Gene-centric方法标示组织或细胞蛋白质表达谱。本项目的特色在于:问题明确、方法新颖、课题间环环相扣。我们立足于建立高精度串连质谱数据解析的分析策略、数据库和算法,着眼于这些研究成果在具体生物学问题上的应用,结论于实验科学对理论分析结果的严格验证。同时,我们将最大程度地发挥“集体效应”优势,整合我国在生物信息学、蛋白质学和基因组学优秀团队,根据各团队的专长来展开相关研究。4. 取得重大突破的可行性分析本项目瞄准了当前蛋白质组学
11、研究的热点和重点,试图揭示高精度MS/MS数据所蕴含的丰富的生物学信号。在项目执行过程中,我们有信心在MS/MS数据的有效利用率、肽段信息对基因组蛋白质编码基因的补充和修订、质谱谱图在定量蛋白质组中应用、定量蛋白质组的图形标示技术等方面取得突破。我们的信心植根于:1) 本项目计划解决的几个问题在国际间仍然悬而未决,我们和其他的竞争者正处在同一起跑线上;2)参与本项目的各个团队在相关的领域处在先进水平,某些课题已取得了进展;3)在我国政府的支持下,在过去几年中我国蛋白质学界已积累了海量的MS/MS数据,无论在数据的质量还是数量上,我国的MS/MS数据库领先于其他国家;4)参与的团队与国际优秀的蛋
12、白质组学家形成了较好的合作关系,尤其在MS/MS数据的共同开发上已取得重大进展。同时,项目首席科学家和课题组长在科研项目的组织和协调方面具有丰富的经验,均承担完成多项国内或国外的重要科研项目。本项目计划是基于研究团队的研究基础和前期工作而提出的,在本项目的申报过程中,项目专家组及研究骨干多次研讨,围绕本研究计划拟解决的重大科技问题,制定了合理可行的研究方案和技术路线。相信通过学科交叉、集成多种研究方法,我们研究团队完全有可能在本领域取得突破性进展。5. 课题设置课题设置思路本项目拟在高精度MS/MS数据基础上,采用各种数据分析手段,从基因组蛋白质编码基因和蛋白质组定量两个生物学问题着手,深入地
13、了解和认识MS/MS数据所蕴含的肽段信息的生物学意义,为蛋白质组的功能性研究提供新的方法和思路。本项目将设置四个课题,分别为,1)海量质谱数据的深度解析技术研究;2)高精度MS/MS数据对基因组蛋白质编码基因的补充和修订;3)基于高精度MS/MS质谱数据的蛋白质表达谱定量计算方法的研究及应用;4)基于质谱数据的预测结论的实验验证研究。建立质谱数据的统计数学模型分析有赖于实验数据的精度和重现性。目前的质谱数据广泛存在两个基本问题,一是缺乏不同的质谱仪所产生的质谱图谱的共享标准,二是谱图解读和肽段判断的标准没有达到共识。因此,我们把质谱数据分析的标准化放在本项目头等重要的位置。在深度解析MS/MS
14、数据的基础上,我们设定两个课题组具体研究如何发掘MS/MS信号所蕴含的生物信息,即补充和修订基因组蛋白质编码基因及定量表达蛋白质组。前者注重于剖析MS/MS数据,通过De Novo方法直接分析与数据库搜索获得MS/MS所含有的肽段序列信息,然后建立MS/MS对应的肽段数据库,并以此数据库为基点开展基因组的相关研究;后者则集中于研究MS/MS所产生的肽段频率与蛋白质丰度之间的相关性,试图建立基于非标记性肽段频率的蛋白质定量判据,并应用于估算蛋白质定量表达谱,同时还要开发具备定性和定量信息的蛋白质表达谱的可视化标示方法。本项目聚焦于如何运用生物信息学方法处理高精度MS/MS数据,抽象和演绎出蛋白质
15、组相关的生物学信息。与传统的生物信息学研究项目不同的是,我们还充分意识到,生物信息学的理论分析离不开对蛋白质或肽段化学性质的知识水平和实验数据的支持,为此设定了第四课题组,专职与生物信息课题相配合,对理论预测的结果进行实验验证,同时也通过方法学的探索为生物信息理论分析提供具有针对性的实验数据,特别是高精度的MS/MS数据。课题的关联本项目的四个课题中,一个课题注重MS/MS数据的标准化分析,为蛋白质生物信息学研究提供可靠的肽段信息和计算工具;两个课题集中于肽段信息在具体生物学问题中应用研究;另一个课题则从实验技术层面上对生物信息学的预测结果进行系统的验证,并为理论分析提供和补充相应的实验数据。
16、本项目的各个课题之间既存在学术逻辑上必然联系,又有研究内容上的互为补充,还有研究成果的相互验证。这样如图一所示,四个课题之间形成了较为完整的研究关联网络,在不同的层次和角度上共同发掘高精度MS/MS数据在蛋白质组学中的应用以及它们的生物学意义。图一:课题设置及各子课题之间的相关性课题1. 海量质谱数据的深度解析技术研究课题背景海量质谱数据的解析是蛋白质组研究的基础,而自动化的数据分析软件是海量质谱数据解析的基本工具。蛋白质组过去十年的研究历程,主要依靠蛋白质鉴定两大商业软件Mascot和SEQUEST来实现海量质谱数据的基本解析,其最大的问题在于:仅仅有10%左右的质谱数据可以得到肽鉴定结果,
17、其余数据无法解析,因而其中所蕴涵的信息无法利用。造成这种局面的原因是多方面的。首先,对于分子生物学的规律,比如基因水平上的基因预测、基因突变、可变剪接及蛋白质水平上的氨基酸突变、翻译后修饰等,目前还没有完整、准确的认识。其次,对于包括样品制备和质谱仪操作在内的质谱数据生成过程的设计和规范化控制缺乏系统的研究,加上质谱仪的分辨率和准确度不足,造成原始数据质量不高。再次,数据分析方法和软件发展滞后,表现在两大商业软件核心鉴定算法多年来没有大的改进,鉴定可信度评价方法没有达到共识和规范化,鉴定灵敏度研究长期缺乏关注,而鉴定速度不够高则直接限制了对于海量质谱数据的全面探索性分析,比如非特异酶切、可变翻
18、译后修饰的鉴定。近年来,质谱技术发展迅速,高精度质谱仪(如FTMS、Orbitrap),配以基于电子的离子裂解新方式(如电子捕获裂解ECD、电子转运裂解ETD),已经开始在国内外和本项目申请单位安装和应用,因此质谱数据质量近期将会大大提高。同时,由于认识到基于数据库搜索的质谱数据解析与蛋白质鉴定本质上是一种特殊的信息检索,而信息检索领域的搜索引擎技术经过了十多年的成功发展,因此,海量质谱数据的专用搜索引擎设计可以从中获得充分的借鉴,数据分析的速度和质量有望大大提高。本项目申请单位在过去几年中参加过人类肝脏蛋白质组表达谱的完整实验和数据分析,对于海量质谱数据的解析积累了比较丰富的一手经验,而独立
19、自主开发蛋白质鉴定软件系统pFind则为进一步设计新的搜索引擎奠定了基础。这都为深度解析海量质谱数据提供了希望。深度解析海量质谱数据,首先要在严格对照实验的条件下认识质谱数据的规律,特别是质谱数据有多大比例可以解析,有多大比例可以得到可信的肽鉴定结果,在这个基础上设计新一代搜索引擎并确立合理的解析率指标。新一代搜索引擎的设计,立足于在现有蛋白质数据库的基础上充分解析质谱数据,从而把现有蛋白质数据库中没有包含的新肽段的鉴定限定在未鉴定的质谱数据上,这是对基因组注释最可能有意义的地方。新肽段的鉴定分为两种途径,一是不依赖蛋白质数据库,直接从串联质谱图中提取肽段完整序列或者序列片段,即所谓的De N
20、ovo技术;二是将搜索数据库的范围从蛋白质组扩展到基因组,获得更多的肽段序列来达到鉴定更多质谱数据的目的。通过新一代蛋白质数据库搜索引擎技术、De Novo技术、基因组数据库搜索技术三个途径来实现海量质谱数据的深度解析,提高解析率,并进一步利用控制实验来验证。研究目标本课题的研究目标是发展海量MS/MS数据的深度解析技术,显著提高数据解析率。具体分为四点:一) 通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程;二)研究新一代蛋白质鉴定搜索引擎,提高鉴定可信度、灵敏度和速度;三)综合利用实验、仪器和计算手段发展肽序列De Novo分析技术;四)利用基因组数据库搜索进一步提高质谱数据
21、解析率。研究内容一)通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程MS/MS质谱数据的鉴定成功率约为5%-15%,无鉴定结果的MS/MS质谱数据中可能蕴含着许多蛋白质或肽段信息,如基因组数据库中不存在的新蛋白质或蛋白质剪切体,或可能存在的错误的注释信息等。所以,确定无鉴定结果的MS/MS质谱数据的产生原因并发掘其隐含信息极其必要和迫切。此外,在蛋白质表达谱中所普遍采用的Shotgun路线中,蛋白质鉴定覆盖率往往很低,其原因也需要探索。计划以高纯度标准蛋白质为样本,在优化和规范化实验操作流程的基础上,获取蛋白酶切肽段MS/MS数据,明确每一张串联质谱图归属,分析图谱鉴定或未鉴定原
22、因。合成若干类,每类若干条具有代表性理化性质肽段,分析其单独质谱行为和在复杂体系中的质谱行为和鉴定成功率,找出未鉴定原因,为发展新的数据分析算法/软件和检索工具提供依据。同时研究实验设计、样品处理和仪器操作流程对于质谱数据质量及其解析的影响,在此基础上优化和规范实验操作流程。更具体地,计划选取高纯度标注蛋白质若干种作为初步研究分析对象。其中蛋白选取将主要考虑蛋白分子量、酶切肽段理化性质等因素。采用Shotgun策略,首先分别对单个蛋白进行质谱数据采集,并将全部串联图谱进行多搜索引擎检索和手工平行分析,以确定全部图谱的身份和发现方法及其比例。目前考虑到可能的原因包括:非肽段信号、未知修饰、碎片信
23、息过差、非规则酶切肽段、混合碎片、非数据库包含序列、检索算法问题、未知因素等。在整合产生这些结果原因的基础上初步设计相应检索分析软件。之后将标准蛋白混合,用于检验分析效果,并进行调整。进一步选取简单模式生物标本,如E.Coli、Yeast等,采用软件自动分析结合手工分析,完成全部串联图谱身份分析,并再次调整分析策略和软件。二)研究新一代蛋白质鉴定搜索引擎, 提高鉴定可信度、灵敏度和速度基于蛋白质序列库搜索的蛋白质鉴定软件,本质上是一个信息检索系统,其核心是搜索引擎。现有的蛋白质鉴定搜索引擎,在质谱数据分析上面临着很多挑战和困难,比如质谱图解析率低、鉴定结果可信度低、数据库搜索速度慢,等。除了由
24、于我们对肽段离子碎裂和串联质谱图生成机制的认识有限之外,很重要的原因在于,目前广泛应用的蛋白质鉴定搜索引擎没有及时集成新方法和新技术,从预处理到打分排序和可信度评价都普遍存在缺陷,比如没有深入挖掘肽-谱匹配的特征,没有利用机器学习和搜索引擎的新技术。为此,我们将开展如下方面的研究。1) 提高蛋白质鉴定搜索引擎的可信度通过对数据进行深入的分析,考察随机匹配产生的原因,在此基础上提取特征,对随机匹配的搜库结果进行分类处理,建立理论性比较强的模型;整合搜索引擎提供的多个匹配打分参数,建立适当的数学模型,为每个非冗余鉴定肽段赋予一个适当的判别分值,实现肽段水平的可信度控制;利用随机数据库搜索等对单个搜
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 海量 数据 解析 及其 人类基因组 注释
链接地址:https://www.31ppt.com/p-4228869.html