生物信息数据库(一)ppt课件.ppt
《生物信息数据库(一)ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息数据库(一)ppt课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、第三章 生物信息数据库,1、模式生物2、数据库,human,Arabidopsis拟南芥,Thermotoga maritima,Escherichia coli大肠杆菌,Buchnerasp.APS,Rickettsia prowazekii,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burg
2、orferi,Borrelia burgorferi,Aquifex aeolicus,Neisseria meningitidis Z2491,Mycobacterium tuberculosis,第一节模式生物,人类基因组,模式生物基因组计划,人类基因组计划(Human Genome Project,HGP)1990年启动,2003年完成。由美、日、德、法、英、中六国参加。测出人类约 3,000,000,000 碱基对的序列(相当于每页3,000个字母,共需100万页印完)。中国承担其中的 1%。,Venter,Collins,人类基因组,模式生物基因组计划,模式生物基因组计划 酵母、线虫
3、、果蝇、细菌共约50多种已完成,水稻等70余种正在进行。目前总量已达60亿碱基对!,已经完成全序列测定的基因组,引自(Oct,2001)http:/www.ebi.ac.uk/genomes/,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs(base-pairs),104,108,105,106,107,1011,1010,109,The size of the humangenome is 3 X 109
4、bp;almost all of its complexityis in single-copy DNA.The human genome is thoughtto contain 30,000 to 40,000 genes.,bony fish,amphibians,Homo sapiens 智人,蛋白质编码基因数在2.7万至4万之间(但最新的估计在6.5万至7.5万之间),噬菌体(Bacteriophage)寄生于细菌内的病毒 如:大肠杆菌噬菌体(coliphages)遗传物质:单链/双链、环状/线状、DNA/RNA,模式生物(Model Organism),模式生物(Model Org
5、anism),病毒(Virus)不具有细胞形态结构,仅由核酸和蛋白质构成;如:人艾滋病毒HIV、SARS冠状病毒 体积小,10300nm;严格的专性细胞内寄生;对抗生素不敏感。,电子显微镜下的SARS冠状病毒,100nm,Escherichia coli大肠杆菌,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。,Escherichia coli O157:H7,Escherichia coli K12,模式生物(Model Organism),Saccharomyces cerevisiae酿酒酵母,真菌界的单细
6、胞真核生物,有16个染色体。它的全基因组已在1996年测定。,模式生物(Model Organism),秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。,细胞数目一定:成虫细胞数目只有959个,其中包括302个神经元;有6条染色体,全基因组于1998年测定,长9.7Mb,模式生物(Model Organism),Drosophila melanogaster果蝇,繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,模式生物(Model Organism),Arabidopsis thaliana拟南芥,个体生活周期只有6周的十字花科小草,是一种理想的
7、模式植物。,模式生物(Model Organism),模式生物(Model Organism),非洲瓜蟾(Xenopus lavias)1个受精卵在24小时内分裂到各种器官初具雏形的程度;,模式生物(Model Organism),斑马鱼(Danio rerio)体长3至4厘米热带鱼,因色彩鲜明的斑纹得名。生活周期约3个月,胚胎是透明的,所以生物学家很容易观察到药物对其体内器官的影响,是研究脊椎动物发育过程的良好对象。它具有自我修复破损视网膜的独特能力。,模式生物(Model Organism),小鼠(Mus musculus)基因组大小与人类相近,约30亿个核苷酸对,有19条染色体;,第二节
8、 数据库,一、引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,生物信息数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快 数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置,一个数据库记录(entry)一般由两部分组成:1.原始序列数据(sequence data)2.描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要
9、和有应用价值。,数据的完整性和注释工作量:1.序列数据广,序列注释不够完整 2.库数据面窄,序列注释全面,数据库的动态更新:1.不断增加 2.不断修正,分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二级数据库。基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一级数据库。,根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋
10、白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二级数据库。一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑;二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。,生物信息数据库 一级数据库数据库中的数据直
11、接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。,生物信息 学数据库 工具,生物信息数据库,染色体,核酸,蛋白质,基因组图谱,DNA序列,蛋白质序列,蛋白质结构,基因组数据库,核酸序列数据库,蛋白质序列数据库,蛋白质结构数据库,二级数据库 复合数据库,基因组作图,序列测定,结构测定,国际著名的生物信息中心,NCBI National Center for Biotechnology Information(US)EBI European Bioinformatics
12、Institute(EU)HGMP Human Genome Mapping Project Resource Centre(UK)ExPASy Expert of Protein Analysis System(Switzerland)CMBI the Centre for Molecular and Biomolecular Informatics(The Netherlands)ANGIS National Genome Information Service(Australia)NIG National Institute of Genetics(Japan)BIC National
13、Bioinformatics Centre(Singapore),二、一级数据库简介,1、核酸序列数据库,国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de(2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html(3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/,GenBank,DDBJ,EMBL,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合
14、性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从1979年开始建设,1982年正式运行;,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,EMBL数据库序列记录随时间增长,568,27,2
15、48,475,EMBL数据库序列总长随时间增长,3.41010,5.8105,EMBL2003年8月数据状况(Release 76)Division Entries Nucleotides 表达序列标签(ESTs)18,001,332 9,172,848,447 真菌(Fungi)81,533 124,814,006 基因组检测序列(GSSs)5,951,552 3,541,699,334 高通量cDNA(HTC)148,033 198,301,795 高通量基因组(HTG)69,070 11,827,270,957 人(Human)253,122 3,999,942,455 无脊椎动物(In
16、vertebrates)126,656 618,391,776 其它哺乳动物(Other Mammals)51,211 117,048,169 鼠(Mus musculus)79,168 1,331,593,999 细胞器(Organelles)217,902 180,804,604 专利(Patents)1,326,009 717,107,725 噬菌体(Bacteriophage)2,321 9,413,526 植物(Plants)214,323 700,212,325 原核生物(Prokaryotes)200,833 690,274,487 啮齿动物(Rodents)25,459 64,
17、607,453 序列标签位点(STSs)239,292 114,379,671 合成(Synthetic)9,196 16,869,561 未分类(Unclassified)1,860 2,167,222 病毒(Viruses)196,817 175,615,411 其它脊椎动物(Other Vertebrates)52,583 282,545,232 总计 27,248,475 33,885,908,155,2、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测序,部
18、分生物基因组计划网址 老鼠(Mouse)http:/www.informatics.jax.org/mgd.html 小鼠(Rat)http:/ratmap.gen.gu.se 狗(Dog)http:/mendel.berkeley.edu/dog.html 牛(Cow)http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪(Pig)http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊(Sheep)http:/dirk.invermay.cri.nz 鸡(Chicken)http:/www.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息 数据库 ppt 课件

链接地址:https://www.31ppt.com/p-2096012.html