正式生物信息学ppt课件.ppt
生物信息学课件,吴晓龙,讲述内容,一、生物信息学和我的实验室 二、NCBI数据库,一、生物信息学和我的实验室,生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。,1、生物信息学介绍,具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。,主要研究方向,1、序列比对2、蛋白质结构比对和预测3、基因识别非编码区分析研究4、分子进化和比较基因组学6、遗传密码的起源7、基于结构的药物设计8、生物系统的建模和仿真,简单重复序列 简单重复序列(Simple Sequence Repeats,SSRs)也称微卫星序列(Microsatellites)或短串联重复序列(Short Tandem Repeats,STRs),是由1-6个碱基对组成的串联重复DNA片段。SSRs在真核和原核生物的基因组中分布广泛、数量丰富,并具有较高的突变频率。如:(A)n、(ACG)n、(ATCG)、(ACCCTT)n,2、我 的 实 验 室,简单重复序列与人类疾病,简单重复序列是广泛分布在人类基因组中的,尽管其中很多功能都不太清楚,但是既然存在总有它存在的意义。下面总结了一些人类基因组中由于SSR扩增或变异所引起的相关疾病,我们实验是近几年发的文章,NCBI数据库,1、国外的重要生物信息中心 2、NCBI介绍,1、国外重要生物信息中心,17,NCBI,美国国家生物技术信息中心(National Center for Biotechnology Information)前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(National Library of Medicine/NLM)管理着许多著名数据库,如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服务http:/www.ncbi.nlm.nih.gov,NCBI homepage,19,EBI,欧洲生物信息学研究所(European Bioinformatics Institute)1994年建于英国剑桥,前身是德国海德堡的欧洲分子生物学实验室的信息服务部门EBI接收了原来EMBL数据库的管理和维护是欧洲分子生物学网(EMBnet)的一个特别节点http:/www.ebi.ac.uk/(主页)http:/www2.ebi.ac.uk/(工具)http:/www3.ebi.ac.uk/(服务),20,EMBL homepage,21,NIG,日本国立遗传学研究所(National Institute of Genetics)创立于1949年7月1日,属文部省管辖信息服务始于1984年维护管理着DDBJ1987年1月发行DDBJ第一版http:/www.nig.ac.jp,22,DDBJ homepage,23,国际核苷酸序列数据库联盟,International Nucleotide Sequence Database Collaboration(INSDC)包括GenBank美 http:/www.ncbi.nlm.nih.gov/GenbankEMBL欧 http:/www.ebi.ac.uk/embl/DDBJ日 http:/www.ddbj.nig.ac.jp/每天这三个数据库作数据同步操作在任何一个数据库操作(查找、投递数据等)是等效的,24,TIGR,基因组研究所(The Institute for Genomic Research)是重要的测序中心1992年建立1995年参与完成首次全基因组测序(流感嗜血杆菌)拥有世界最大的cDNA数据库之一http:/www.tigr.org/,25,基因图谱数据库 RHdb(辐射杂交;人、鼠),GDB(人类),GeneMap(人类;NCBI)生物医学文献数据库 MEDLINE3800多种生物医学期刊(通过PubMed查询)SCI ISI提供的文献引用检索(收费)人类基因组相关数据库 GDB(人类基因组),OMIM(遗传,变异),HGVbase 瑞典(变异,双等位序列)其他模式生物的基因组数据库 DOGS(Database of Genome Sizes 丹麦 综合)线虫 ACeDB,Sanger 果蝇 FlyBase,Berkeley 小鼠 MGD,Japan 酵母 Stanford,MIPS 大肠杆菌 WISCDNA结构数据库 CUTG(Codon Usage Tabulated from GenBank,密码子使用频度表)日 EPD(Eukaryotic Promotor Database,真核生物启动子数据库)欧 TRANSFAC(真核生物基因表达调控因子的数据库)德 RepBase(重复序列),MicroSatellite(微卫星),COMPEL(复合元件),MPDB(分子探针),NDB(晶体),VectorDB(载体),EID(外显内含子),26,BioSino,www.biosino.org是中国自主开发的核酸序列公共数据库发表我国学者提供的核酸序列,并接受注册登记有CDNAP和DDIB两个产品http:/www.cdnap.org/http:/www.biosino.org/DIDWeb/index.html,NCBI介绍,NCBI,美国国家生物技术信息中心(National Center for Biotechnology Information)前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(National Library of Medicine/NLM)管理着许多著名数据库,如GenBank、Medline、dbSNP、OMIM等提供Entrez、BLAST等服务http:/www.ncbi.nlm.nih.gov,它的使命包括四项任务:,1.建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统。2.实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究。3.加速生物技术研究者和医药治疗人员对数据库和软件的使用。4.全世界范围内的生物技术信息收集的合作努力。,NCBI数据库介绍 Nucleotide 美国国立卫生研究院GenBank。Genome 即基因组数据库,提供了多种基因组、完全染色体、Contiged 序列图谱以及一体化基因物理图谱。Pubmed 文献数据库。Structures 即结构数据库或称分子模型数据库(MMDB),包含来自 X线晶体学和三维结构的实验数据。MMDB的数据从 PDB(Protein Data Bank)获得。Taxonomy 即生物学门类数据库,可以按生物学门类进行检索或 浏览其核苷酸序列、蛋白质序列、结构等。,31,Nucleotide and genome,Nucleotide 该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享。其中的核酸序列数据也通过与基因组序列数据库(GSDB)合作获取。,选择数据库,输入关键字,NCBI主页,进入Entrez检索,Entrez简介,Entrez是个全局的生物医学搜索引擎,他可以检索的数据库主要包括三类:(1)文献数据库:PubMed,PubMed Central,Journals,Books,OMIM,OMIA。(2)序列数据库:Nucleotide,Protein,Genome,Strcture,SNP。(3)其他数据库:Taxonomy,Gene,Probe,PopSet等,无对应结果,相关的结果,Entrez检索的结果,Entrez 功能强大,在于它的大多数记录可相互链接,既可在同一数据库内链接,也可在数据库之间进行链接。,Entrez browser来查询各种数据(集成搜索工具),基因组的相关的信息,查看详细结果,详细结果,序列部分,注释部分,下载格式选择,注释部分,基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊(Journal)、序列特征(Features)、基因(Gene)、蛋白质编码序列CDS(cDNA)、5非翻译区(5UTR)、3非翻译区3UTR)、mRNA的polyA位置(polyA_site)、信使RNA(mRNA)、外显子(exon)、内含子(intron)、原序列(Origin)。,常用序列格式:FASTA格式,1.定义:在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许序列前添加序列名及注释。通常核苷酸符号大小写均可,而氨基酸常用大写字母。2.特点:简单 使用最多 例子(单序列):,gi|9629267|ref|NC_001798.1|Human herpesvirus 2,complete genomeAGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGCCCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG.,多序列FASTA,sequence1,E.colictgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgccsequence2,B.subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgccsequence3,B.nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc,42,FASTA序列格式中的核苷酸表示法,43,FASTA序列格式中的氨基酸表示法,44,GenBank查询,已知收录号(accession number)的情况,选数据库,输入收录号,查询结果摘要,点击查看详细结果,45,向GenBank投递序列,GenBank提供多种工具投递序列,如BankIt(网上投递)适于少量的、注释简单的序列投递Sequin(本地投递;软件)适于大量的、复杂的序列投递可投递变异、种系发生、群体数据集图形界面操作选项多、功能强可向GenBank,EMBL,DDBJ中的任一数据库投递,PubMed,PubMed查找文献,选择PubMed文献数据库,PubMed主页,输入关键词,PubMed查询结果,所有结果,查看摘要,免费文章,增加筛选条件,显示单篇文章摘要,链接到原杂志,原文章所在杂志,PDF格式下载,下载页面,保存,53,关键词的选择,不是特殊情况,尽量使用名词原形,不使用复数、所有格等尽量使用专业用语,不使用the,of,and,research等常用词作为关键词为了减少遗漏,使用尽可能少而精的关键词,Blast,序列比对,序列比对(sequence alignment)也称联配、队排,是生物信息学中最常用和最经典的手段。通过序列比对,可以推测基因和蛋白质的进化演变规律,或者推测基因和蛋白质的结构和功能。对于两个序列之间的比对,称之为双序列比对或成对比对。对于多序列之间的比对,称之为多序列比对。主要有BLAST和Clustal X 两种工具。,Blast比对,BLAST比对是Basic Local Alignment Search Tool(基本局部比对搜索工具)的英文简称,是一种序列类似性检索工具。NCBI提供了网络版BIAST搜索线服务。还提供了BLAST搜索程序和下载链接。有5个子程序。,主要的blast程序,Blast结果给出的信息,Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因这些信息都可以应用到后续分析中。,从主页进入blast,点此进入blast主页,Blast主页,核酸序列比对,参数设置,输入需要比对的序列,数据库选择,程序选择,比对,或 选择fasta格式的文件,在此输入序列或序列登录号(AC),结果解读,结果有三部分组成:1.结果总览 2.序列比对结果的描述 3.各序列比对的详情,1.结果总览,红、粉、绿、蓝、黑五种颜色,红色同源性最高,排在最上面,其他依次降低,黑色最低。每一条线代表搜索匹配的一条序列;,2.比对结果描述,与目标序列同源性最高的结果在最上面,E值最低,score最大,点击序列号可以查看详细信息。点击score可以打开对应的比对详细信息。,转录产物序列,基因序列,匹配序列表,带有genbank的链接,点击可以进入相应的genbank序列,目标序列描述部分,匹配情况,分值,e值,Blast程序评价序列相似性的两个数据,Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。E value:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。,3、各序列比对详情,因申请者提交的要求不同,行列输出有不同的形式,系统默认的是配对行列输出,即查询序列与数据库中匹配的序列垂直对应。空位部分代表查询序列与检索匹配序列不一致。,双序列比对,Blast比对后,当在数据库中搜索到多个显著相似的序列时,目的序列是否与数据库中检索到的序列真正有关联,这时就需要进行双序列比对(pairwise alignment)。通过双序列比对分析,可以找出两序列之间的最大相似性匹配,进而判断两者是否具有同源性。,Blast主页,双序列比对,Thank you and questions,调课通知,第11周 周五 5、6节 调到 13周周五7、8节 6舍411第12周 周三1、2节 调到 13周 周三3、4节 6舍411,