生物学数据库及其检索ppt课件.ppt
《生物学数据库及其检索ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物学数据库及其检索ppt课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、第二章 生物学数据库及其检索,Half day on the web,half month in the lab.,saves you,-Alan Bleasby,第一节 生物数据库简介,什么是数据库数据库类型生物学数据库重要的生物信息站点,一、什么是数据库?,数据库(database)是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合。其存储形式有利于数据信息的检索与调用。图书馆用数据库保存书目和借阅情况;核酸序列数据库用来保存核酸序列和功能注释信息。,二、数据库的类型,到目前为止,生物学数据库使用了4种不同的数据库结构类型:平面文件、关系型数据库、面向对象数据库和基于Inte
2、rnet平台的XML。,三、生物学数据库,生物分子数据库:能够进行自动查询和修改的生物分子数据集。建立生物分子数据库动机,生物信息数据库的5个主要需求,时间性注释支撑数据 实验数据数据质量集成性 数据库间的交连,生物信息数据库的特征,数据库更新速度不断加快数据库使用频率增长更快数据库的复杂程度不断增加数据库网络化面向应用,生物信息数据库分类,一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。二级数据库:对原始生物分子数据进行整理、分类的结果,在一级数据库、实验数据和理论分析的基础上构建。,如何查找与研究相关的生物学资源,公共搜索引擎 重要的生物信息学门户站点(
3、NCBI、EBI等)核酸研究每年的数据库专辑/网络服务器专辑,NAR杂志,核酸研究(Nucleic Acids Research,NAR)(http:/nar.oxfordjournals.org/)杂志从1994年起,每年第一棋刊登生物学数据库专集;2000年起,出版核酸研究的牛津大学出版社设立了数据库目录网页,可以按字母或分类查找,并可链接到所需要的数据库。,NAR(Nucleic Acid Research)数据库分类:,核酸序列数据库(Nucleic Acid Sequence)基因表达数据库(Gene Expression)比较基因组学数据库(Comparative genomics
4、)基因识别与基因结构数据库(Gene Identification and Structure),遗传与物理图谱数据库(Genetic and physical maps)基因组数据库(Genomic Databases)分子相互作用数据库(Intermolecular interactions)代谢途径和细胞调节数据库(Metabolic Pathways and Cellular Regulation)突变数据库(Mutation Databases)病理数据库(Pathology),蛋白质数据库(Protein Databases)蛋白质模体数据库(Protein sequence Mo
5、tifs)蛋白质组数据库(Proteome Resources)RNA序列数据库(RNA Sequences)结构数据库(Structure),四、重要的生物信息站点,重庆邮电大学生物信息学专业网站上有各种链接(http:/,NCBI,NCBI(http:/www.ncbi.nlm.nih.gov),全称为National Center for Biotechnology Information,建立于1988年11月4日,下属于美国国立卫生研究院(National Institutes of Health,简称NIH)的国立医学图书馆(National Library of Medicine
6、,简称NLM)。中心的主要任务是创建公共可接入数据库,引导在计算生物学以及在基因组数据分析方面的软件开发,同时发布各类生物医学信息。NCBI的数据资源主要包括数据库、分析工具、数据提交及教育四个部分,每个部分的资源都有更为细致的分类,EBI,EBI(http:/www.ebi.ac.uk),全称是European Bioinformatics Institute,是隶属于欧洲分子生物学研究室(EMBL)的一个非盈利性的学术机构,专门从事生物信息学方面的研究与服务。EBI的主要任务包括为科研团体免费提供数据及生物信息学服务;从生物信息学的角度上为推动特定科研项目的发展做出努力,为各阶层的科研人员
7、提供高级生物信息学培训以及帮助向工业界发布最新技术等。EBI的网站在数据规模与承担的任务方面都与NCBI相当,其资源也分为数据库、工具、EBI研究小组、培训、帮助等几个部分,而全部资源及工具则显示在其Site Index页面(http:/www.ebi.ac.uk/Information/sitemap.html)中。,EMBnet,EMBnet(European Molecular Biology Network)建立于1988年,由多个位于欧洲及欧洲以外的成员国节点及专业节点组成。除了上面提到的欧洲生物信息学研究所EMBL-EBI,瑞士生物信息研究所SIB、澳大利亚国家基因组学信息服务(A
8、GRIS)以及中国北京大学的生物信息中心PKU-CBI都是EMBnet的成员。它们不仅为本国用户提供生物信息资源及生物计算服务,同时提供用户支持、培训以及进行相关的生物信息研究与开发。比如专业蛋白质分析系统ExPASy就是由SIB开发及维护,而通用蛋白质资源UniProt则由EMBL-EBI及SIB、PIR共同进行维护的。由于EMBnet的成员国节点及专业节点各自包含了大量的公共数据信息及自行开发的数据库及分析工具,因此可作为生物学数据资源的补充来源。相关信息可以从http:/www.embnet.org/en/members/National 和http:/www.embnet.org/en
9、/members/Specialist中查到。,2023/1/9,20,2014年启动的国际合作项目“蛋白组组计划”,由中国开发并维护的蛋白组组数据库iProX(http:/www.iprox.org or http:/),世界三大蛋白质组数据库之一。由重庆邮电大学生物信息学研究所开发,军事医学科学院、北京蛋白组研究中心、国家超级计算长沙中心和太仓生命信息研究所共同维护。,第二节 生物学数据库的内容与结构,数据数据存储基础平面文件格式序列格式XML格式关系型数据库,数据,中心法则,DNA双螺旋结构,James Watson,Francis Crick,Watson在开始研究DNA双螺旋时几乎完
10、全不懂有机化学与物理化学;Crick本来是个物理学家,对生物学也知之甚少。当他们发现DNA的结构时并不认为需要知道(更不用说记住)四个核苷酸碱基的化学结构。当Erwin Chargaff问他们在不知道DNA构成要素结构的情况下如何解决DNA结构问题时,他们问答说如果有需要的话总可以在书中查找到这个结构。N.C.Jones&P.A.Pevzner,An Introduction to Bioinformatics Algorithms,DNA结构:碱基/核苷,核糖核苷酸,A,ribonucleotide,脱氧核糖核苷酸,deoxyribonucleotide,双脱氧核糖核苷酸,dideoxyri
11、bonucleotide,DNA的结构,RNA的结构,氨基酸的结构,氨基酸的性质及分类,蛋白质,标准密码子,The DNA sequence of a gene encodes the amino acid sequence of a protein.,DNA代码的标识,氨基酸代码的标识符,数据存储基础,信息是存储在计算机临时或永久存储器中的一串字节。获取信息需要控制两个方面。第一是数据被编译为字节的方式,或者成为数据格式。第二是运用哪些程序能够编码(写)和解码(读)这些数据。目前最常用的格式类型:平面文件格式、XML和关系型数据库,平面文件格式Flat File,这种格式是将多个记录以特殊约
12、定的分隔符(比如“/”或“|”)进行区分,而每一个记录内的众多字段也是通过一些特定的分隔符(如“,”或“:”)加以区分。数据库文件就是由这些字段及内容所组成,并不包含什么隐藏的计算机指令。优点:通用性(跨平台);容易为perl程序进行解析和处理;专用的flat-file数据分析器可以用来将数据导入到数据管理系统。缺点:检索复杂,冗余字段较多,大容量数据库难以处理,Flatfile 格式(UniProt CYC_HUMAN 部分),Perl的正则表达式可用于解析Flatfile格式文件,my$newEntry=1;while()my($line)=$_;chomp($line);if($line
13、=/ID/)#matched ID line$newEntry=1;if($line=/ACs*(w+)/)#matched AC lineif($newEntry=1)#print only when at first lineprint Primary accession.$1;$newEntry=0;if($line=/SQs*w*s*(w*)/)#match SQ lineprint sequence length:.$1.n;#ignore other lines例程输出:perl example.pl uniprot.datPrimary accession Q4U9M9 sequ
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物学 数据库 及其 检索 ppt 课件

链接地址:https://www.31ppt.com/p-2096112.html