第八部分基因注释与功能分类.ppt
《第八部分基因注释与功能分类.ppt》由会员分享,可在线阅读,更多相关《第八部分基因注释与功能分类.ppt(41页珍藏版)》请在三一办公上搜索。
1、第八章 基因注释与功能分类,Gene Annotation And Functional Classification,第一节 引 言,背景 随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functional genomics)。任务 功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。意义 快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基
2、因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。,第二节 基因注释数据库,Gene Annotation Database,一、研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。,基因注释数据库产生的原因,二、在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。,一、基因本体(gene ontology,G
3、O)数据库,基因本体数据库是GO组织(Gene Ontology Consortium)在2000年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)。,GO数据库最初收录的基因信息来源于3个模式生物数据库:果蝇、酵母和小鼠,随后相继收录了更多数据,其中包括国际上主要的植物,动物和微生物基因组数据库。GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。,GO数据库收录的基因组数据列表,GO
4、注释体系特点,GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息。从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs),包含三个分支,即:生物学过程(biological process),分子功能(molecular function)和细胞组分(cellular component)。注释系统中每一个结点(node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“is a”或“part of”。,1.用关键词检索GO数据库检索GO数据库通常先进入AmiGO的首页。在GO数据库中,每条记录都有一个数据标识号GO:XXXX
5、XX和对应的术语。因此检索时需要知道待查基因的数字标识号或术语,将它们直接输入框中检索即可。如果检索的基因或蛋白质存在别名,可在检索框下勾选“gene or proteins”,并在检索框中输入别名检索;“exact match”表示是否完全匹配,可供选择。,一、使用GO数据库,这里以检索神经源性分化因子6(NEUROD6)为例。在检索框中输入“NEUROD6”并勾选“gene and proteins”和“exact match”,运行后所得基因产物检索结果如图所示。,举例,人民卫生出版社8年制及7年制临床医学等专业用生物信息学,此图显示了该基因产物的基本信息,包括类型、物种、别名来源和序列
6、,此图显示了该基因产物的术语关联(term associations)图,图中记录名称“Term”是GO记录的名字,“Ontology”是该基因产物的特性,如要查看其分子功能,可点击其中的一条记录“nervous system development”。,此图上部先对神经源性分化因子6的相关信息做简单描述,中间术语系谱(term lineage)成阶梯状分布,记录了GO数据库中全部分子功能所处的位置和关系。下方“External Reference”提供了与外部相关数据的链接。,点击上图右上方的可视化视图(graphical view)就更清晰地显示了分子功能记录之间构成的复杂网状结构,既有上
7、下隶属关系,也存在平行关系。,2.用序列检索GO数据库 对于未知基因名的序列,可以用序列直接检索GO 数据库。点击AmiGO首页上方的“BLAST”。界面风格类似于其他数据库BLAST搜索的网页,在检索框中铁如氨基酸或核酸序列,网页能自动识别并相应地做BLASTP或BLASTX和数据库中的序列比对。这里以检索RPIA基因的序列为例,如图所示。,1.简介 京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整
8、体网络进行研究。KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。此外,KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其他序列比较、图形比较和通路计算的工具。因此,KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。,二、京都基因与基因组百科全书,KEGG目前共包含了19个子数据库,它们被分类成系统信息、基因组信息和化学信息三个类别。,KEGG存储内容,基因组信息存储在GENES
9、数据库里,包括全部完整的基因组序列和部分测序的基因组序列,并伴有实时更新的基因相关功能的注释。KEGG中化学信息的6个数据库被称为KEGG LIGAND数据库,包含化学物质、酶分子、酶化反应等信息。KEGG BRITE数据库是一个包含多个生物学对象的基于功能进行等级划分的本体论数据库,它包括分子、细胞、物种、疾病、药物、以及它们之间的关系。一些小的通路模块被存储在MODULE数据库中,该数据库还存储了其他的一些相关功能的模块以及化合物信息。KEGG DRUG数据库存储了目前在日本所有非处方药和美国的大部分处方药品。KEGG DISEASE是一个存储疾病基因、通路、药物、以及疾病诊断标记等信息的
10、新型数据库。,KEGG通常被看作是生物系统的计算机表示,它囊括了生物系统中的各个对象与对象之间的关系。在分子层面、细胞层面、组织层面都可以对数据库进行检索。每个数据库中的检索条目按照一定规律被赋予一个检索号,也就是ID。表中列出了KEGG的13个核心数据库的检索号。,KEGG数据库的注释与检索,另外一种化学注释的方法是以小分子化学结构的生物学意义为特征来实现的。在KEGG数据库中,酶与酶之间的反应信息以及相关的化学结构信息分别存储在KEGG REACTION数据库和KEGG REPAIR数据库中。每个化合物的化学结构都被转化为RDM(atom type changes at R:reactio
11、n center D:diffevent atom M:matched atom)模式。,下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为例:首先进入KEGG首页,在首页顶端的输入框中输入类葡萄糖磷酸变位酶基因名称“PGM1”,KEGG数据库的注释与检索,点击搜索按钮“GO”进入查询结果页面,该页面会列出针对基因“PGM1”在KEGG数据库中的搜索结果,除人类外,包含“PGM1”基因的物种条目也会被列出。,其中排在第一位的是人类基因“PGM1”的相关信息,点击该条目进入到详细信息页面。该页面以表格的形式列出了该基因有关的详细信息,包括基因编号,基因的详细定义,所编码的酶的编号,基因所在通路,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 部分 基因 注释 功能 分类
链接地址:https://www.31ppt.com/p-5300362.html