蛋白质组学研究中的生物信息学.ppt
第4讲:基于生物质谱数据的互联网数据库搜索,母昭德,硕士生学位课程:蛋白质组学,本讲所要介绍的内容提要,、生物信息学的一般情况、有关数据库的基础知识、由双向聚丙烯酰胺凝胶电泳鉴别的蛋白质数据库、目前利用生物质谱数据进行搜索时相关的主要数据库、搜索引擎-ExPASy、以生物质谱数据从互联网数据库进行搜索,、生物信息学的一般情况,生物信息学(Bioinformatics)是一门新兴的交叉学科,它包括了生物信息的获取、处理、存取、发布、分析、和解释等在内的所有方面。生物信息学综合运用生物学、数学、计算机科学的各种工具,来阐明和理解大量数据所包含的生物学意义。,生物信息学在蛋白质组学中的应用概况,生物信息学已经成为蛋白组学研究中必不可少的组成部分,其应用包括:编码的DNA序列的寻找与分析 蛋白质序列信息的获取 蛋白质鉴定和性质预测 蛋白质结构和功能预测蛋白质序列分析 数据的分析与整合,、有关数据库的基础知识,生物信息学数据库:是长期存放在计算机内,有组织的、可共享的、表明了一些事实性的信息的数据集合。数据库系统:是一个可实际运行的存储、维护和应用系统,是提供数据的软件系统,是存储介质、处理对象和管理系统的集合体。数据库是生物信息学的基础。,Alberto Labarga,Franck Valentin,Mikael Anderson,and Rodrigo Lopez.Web Services at the European Bioinformatics Institute.Nucleic Acids Res.,2007;35:W6W11,Nucleic Acids Research杂志在其每年的第一期中详细介绍最新版本的各种数据库。在2000年1月1日出版的28卷第一期115种通用和专用数据库,包括其详尽描述和访问网址。至2006年,生物信息学数据库总数已达858个。至2009年,生物信息学数据库总数已达1170个。Nucleic Acids Research杂志,所介绍的相关数据库及其主要分类,1 核酸序列数据库2.RNA 序列数据库3.蛋白质序列数据库4.结构数据库5.基因组数据库(非脊椎动物)6.代谢酶相关产物7.人类和其他脊椎动物基因组8.人类基因和疾病9.其他数据和其他基因表达数据库10.蛋白组资源11.其他分子生物学数据库12.细胞器官数据库13.植物数据库14.免疫学数据库,生物信息学的基本构架,染色体,基因组图谱,基因组数据库,核酸,DNA序列,核酸序列数据库,蛋白质序列,蛋白质序列数据库,蛋白质结构,蛋白质结构数据库,蛋白质,基因组作图,序列测定,结构测定,生物信息学数据库工具,生物信息学数据库工具,二次数据库;复合数据库,生物信息数据库的类别,以建库的方式而论,大致可分为四类:一级数据库(primary database)二级数据库(secondary database)专家库整合数据库,基于肽质量指纹谱(PMF)信息的数据库搜索,A set of peptide molecular weights from an enzyme digest of a protein,蛋白质,酶解,肽的混合物,PMF,Protein/DNA数据库,搜索引擎Search engine,数据库搜索结果,肽质量指纹图数据的检索,1503.6049701504.6035151505.6060801506.6353441548.6147291549.6358831550.628364,Import mass list into protein database search program,Set search parameters,Submit search and look for peptides matches in database,Mass list from spectrum,现行的PMF软件工具,重点介绍MS Fit,以相关的质谱实验数据从序列数据库中进行发掘的蛋白质组学工具。,MS Fit,可选的数据库,可选的物种,可选的质谱仪,可选的酶,翻译后修饰种类的选择,质谱数据输入框,MOWSE score:MOlecular Weight Search,Scoring based on peptide frequency distribution from the OWL non redundant Database%cov:total aa coverage%tic:fragments coverage,复习题,1、如何利用PMF数据从互联网进行数据库搜索?,