第十章基因组学、蛋白质组学和生物信息学课件.pptx

资源ID：2111612 资源大小：2.85MB 全文页数：68页
资源格式： PPTX 下载积分：20金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要20金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

第十章基因组学、蛋白质组学和生物信息学课件.pptx

第十二章基因组学、蛋白质组学和生物信息学,一、基因组学二、蛋白质组学三、生物信息学,1,第十二章基因组学、蛋白质组学和生物信息学一、基因组学1,基因组学研究并解析生物体整个基因组的所有遗传信息。基因组（genome）是细胞或生物体的一套完整的单倍体遗传物质，是所有不同染色体上全部基因和基因间的DNA的总和。分为核基因组、核外基因组基因组学研究方法：SAGE、DNA chips等,2,基因组学研究并解析生物体整个基因组的所有遗传信息。2,人类基因组计划,3,人类基因组计划3,1940年代第一颗原子弹爆炸；1960年代人类首次登上月球；1990年代提出并基本完成的人类基因组计划（Human Genome Project，HGP）,DNA 双螺旋结构的发现者之一、美国国家卫生研究院（NIH）人类基因组研究所第一任所长J.D.Watson 1990年在Science上撰文指出，与人类登月计划相比，HGP的资金投入少，但它对人类生活的影响却可能更深远。1990年，美国发起，耗资30亿美元，历时15年，1999年，中国参与3号染色体上一小片段，占1。,20世纪人类科技发展史上的三大创举,4,1940年代第一颗原子弹爆炸；DNA 双螺旋,6,6,人类基因组计划的目标：（1）确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置，研究基因的产物及其功能。（2）了解转录和剪接调控元件的结构与位置，从整个基因组结构的宏观水平上理解基因转录与转录后调节。（3）从整体上了解染色体结构，包括各种重复序列以及非转录“框架序列”的大小和组织，了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。（4）研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看，似乎相距甚远，但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置，因此，有必要从三维空间的角度来研究真核基因的表达调控规律。,7,人类基因组计划的目标：7,（5）发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性，正常的重组提供了变异与进化的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育，因此，了解与人类DNA正常复制和重组有关的序列及其变化，将对研究人类基因组的遗传与进化提供重要的结构上的依据。（6）研究DNA突变、重排和染色体断裂等，了解疾病的分子机制，包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程，为这些疾病的诊断、预防和治疗提供理论依据。（7）确定人类基因组中转座子、逆转座子和病毒残余序列，研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响，可能指导人类有效地利用病毒载体进行基因治疗。（8）研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外，这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。,8,（5）发现与DNA复制、重组等有关的序列。DNA的忠实复制保,人类基因组研究内容包括遗传图（Genetic Map）绘制、物理图（Physical Map）构建、人类基因组的序列图测序、转录图（Expression Profiling）绘制和基因鉴定等方面的工作。通过多年来的发展，基因组学（genomics）作为一门专门学科，已应运而生。它涵盖以下几个方面：结构基因组学，着重遗传图、物理图、测序等研究；功能基因组学，在基因组水平上阐明DNA序列的功能；比较基因组学，包括对不同进化阶段生物基因组的比较研究，也包括不同人种、族群和群体基因组的比较研究。此外，工业基因组学、环境基因组学、药物基因组学、疾病基因组学等分支学科也在不断发展。,9,人类基因组研究内容包括遗传图（Genetic Map）,基因组的序列主要可被分为三类：（一）通过比较确知其生理功能的；（二）在数据库中有相匹配的蛋白质序列，但并不知道其功能的；（三）在现有数据库中找不到任何相匹配的蛋白质序列的新基因。由于生物在进化上是相互关联的，对一种生物的研究可以为其它生物提供有价值的信息。比较基因组学的威力就在于它能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。远缘基因组间的比较为认识生物学机制的普遍性，寻找研究复杂生理和病理过程所需的实验模型提供了理论依据，而近缘基因组间的比较则为认识基因结构与功能等细节提供了参数。因此，为充分理解人类基因组，必须对一系列近缘和远缘的模式生物进行基因组程度上的比较分析工作。,10,基因组的序列主要可被分为三类：10,功能基因组学研究研究方法：1、定点破坏结构基因（gene knock-out）2、基因组内定位表达目的基因（gene knock-in）的方法来研究新基因的3、获得全长cDNA的技术（RACE）4、功能克隆法：分离纯化蛋白，测序后设计探针从文库中筛选基因5、定位克隆法：先利用连锁分析定位基因，再根据物理图谱找出相关的BAC克隆，进一步查看此克隆序列，计算机分析，定位合适的候选基因6、酵母双杂交,11,功能基因组学研究 11,12,12,遗传图也称连锁图，是指基因或DNA标志在染色体上的相对位置与遗传距离，后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩（cM）来表示。遗传图的绘制是人类基因组研究的第一步，即以染色体上某一点为遗传标记，以与之相伴遗传的特征为对象，经连锁分析，将编码该特征的基因定位于染色体特定位置。cM值越大，两者之间距离越远。通过遗传图分析，我们可以大致了解各个基因或DNA片段之间的相对距离与方向，了解哪个基因更靠近着丝粒，哪个更靠近端粒等。遗传距离是通过遗传连锁分析获得的，研究中所使用的DNA标志越多，越密集，所得到的遗传连锁图的分辨率就越高。经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记，如红细胞ABO血型位点标记，白细胞HLA位点标记等。例如，在ABO血型基因中，位于9号染色体长臂3区4带（9q34）的基因IA，决定抗原A的存在，表现A型血性状。由于ABO血型的广泛存在，所以可用它作遗传标记。当在某一家庭中，观察到了指甲髌骨综合征与A型血相伴遗传时，科学家就认为，这种病的致病基因NP与IA基因相连锁，也位于9q34区段。进一步的观察发现，这个家庭的后代中，有1/10为A型血而无指甲髌骨综合征，这表明基因IA和NP发生了交换，交换率（重组率）为1/10。这时就可说，基因IA和NP相距较近，连锁图上的距离为10厘摩（重组率1即为1厘摩）。,遗传图的绘制,13,遗传图也称连锁图，是指基因或DNA标志在染色体上的相对位,如果只用已知定位的少数几个基因作遗传标记，由于遗传标记的数目太少，很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。第一代DNA遗传标记是RFLP（Restriction Fragment Length Polymorphism，限制性片段长度多态性）。DNA序列上的微小变化，甚至1个核苷酸的变化，也能引起限制性内切酶切点的丢失或产生，导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组，特别是进化中选择压力不是很大的非编码序列之中，RFLP的出现频率远远超过了经典的蛋白质多态性。而且，只要选择得当，生物体内出现共显性RFLP及RAPD分子标记的频率较高。,14,如果只用已知定位的少数几个基因作遗传标记，由于遗传标,第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列，包括重复单位长度在5-20个核苷酸左右的小卫星DNA（minisatellite DNA），重复单位长度在2-6个核苷酸之间的微卫星DNA（microsatellite DNA），后者又称为简短串联重复（STR、SSR）。STR有两个最突出的优点，即作为遗传标记的“多态性”与“高频率”。STR的存在，为遗传图的绘制提供了大量可用的遗传标记。采用聚合酶链反应（PCR）技术，以STR两侧的基因作定点标记的完整连锁图，已于1996年绘成，相邻标记间的平均距离仅0.7厘摩。第三代DNA遗传标记，可能也是最好的遗传标记，是分散于基因组中的单个碱基的差异。这种差异包括单个碱基的缺失和插入，但更常见的是单个核苷酸的替换，即单核苷酸的多态性（SNP，single nucleotide polymorphism）。,15,第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列，,“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点，相当于把整个人类基因组划分为5000多个小区，并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。把多态性的疾病基因位点（该位点至少包括“正常”及“致病”两个等位基因）与上述遗传标记进行分析比较时，如果在家系中证实该基因与某个标记不连锁（重组率为50%），表明该基因不在这一标记附近；如果发现该基因与某个标记有一定程度的“连锁”（重组率小于50%但大于0），表明它可能位于这个标记附近；如果该基因与某标记间不发生重组（重组率等于0），我们就推测该标记与所研究的疾病基因可能非常接近。,16,“遗传图”的建立为人类疾病相关基因的分离克隆奠定,遗传图所表现的，是通过连锁分析确定的各基因间的相对位置；物理图则表现染色体上每个DNA片段的实际顺序。物理图是指以已知核苷酸序列的DNA片段（序列标签位点，sequence-tagged site，STS）为“路标”，以碱基对（bp，kb，Mb）作为基本测量单位（图距）的基因组图。现在的测序技术还不能对整个DNA分子进行序列测定，因此须先将它切成一个个大小不同的片段，然后将这些片段连起来，构成连续的序列。物理图的主要内容是建立相互重叠连接的“相连DNA片段群（contigs),物理图（Physical Map）,17,遗传图所表现的，是通过连锁分析确定的各基因间的相对位,这些大片段在进行DNA分子克隆时，也不能通过细菌质粒或噬菌体的运载而在大肠杆菌中进行克隆，因为它们太大，而必须用一种特殊的载体-酵母人工染色体（YAC，容量8002000kb），将片段导入酵母，在酵母细胞中克隆。YAC中的DNA大片段是靠序列标记位标（STS）来识别的。STS是基因组中一段200500bp的单拷贝序列，在染色体上有一定的位置，所以用STS作位标可将不同YAC克隆排列成邻接克隆群（contig）。其他载体还有BAC（细菌人工染色体，容量100300kb）、P1（噬菌体人工染色体）、粘粒（cosmid，容量45kb）、MAC等。现在，人类基因组24条染色体的YAC、BAC、P1邻接克隆群均已建立，精度约100碱基对的物理图也基本绘成，并已开始进行大规模测序。,18,这些大片段在进行DNA分子克隆时，也不能通过细菌质粒,19,19,人类基因组的序列图（Human Genome Sequence）基因组测序策略1、鸟枪法：将基因组随机打断，构建一系列随机亚克隆，然后每个克隆测序，最后根据序列的重叠区域组装成完整的基因组序列。优点：快、简单、成本低缺点：由于大量存在的重复序列，致使组装困难2、定位克隆法：首先构建物理图谱，再测序、组装优点：组装简单缺点：物理图谱制作费时,20,人类基因组的序列图（Human Genome Sequenc,生物的性状，包括疾病，都由蛋白质决定。所有蛋白质都是由mRNA（信使核糖核酸）编码的，而mRNA又由DNA转录而来。人类基因组中仅15的DNA是编码序列（基因）；成人各种组织中又只有约1的基因表达为蛋白质。所以，建立转录图，或从mRNA逆转录而来的cDNA图，是分离、定位和克隆基因的关键。这里，表达序列位标（EST）具有重要意义。EST是长约100300碱基对的cDNA片段，是表达基因的一部分。EST由于序列较短，很难定位，只有筛到较长的基因片段（超过1000碱基对），才能用荧光原位杂交（FISH）法在染色体上定位。EST可用工业化的程序生产，只要分离到某一发育阶段某一组织的mRNA，就可用逆转录法，从mRNA合成相应的cDNA片段，即EST。用它作探针，就可从基因组文库中筛到全长的基因序列。截止到1998年2月，已发现约92万条EST，转录图的制作有了良好的开端，但这已属后基因组计划的工作。,转录图（Expression Profiling）,21,生物的性状，包括疾病，都由蛋白质决定。所有蛋白质都是由m,蛋白质组学及其研究进展,22,蛋白质组学及其研究进展22,蛋白质组学的含义,蛋白质组(Proteome)一词最早由澳大利亚学者等于1994年提出,指的是由一个基因组geneome或一个细胞、组织表达的所有蛋白质功能蛋白质组学的提出及概念功能蛋白质组学是指研究在特定时间、特定环境和实验条件下细胞内表达的全部蛋白质。,23,蛋白质组学的含义蛋白质组(Proteome),蛋白质组学研究的内容,蛋白质表达模式(或蛋白质组组成)的研究蛋白质组组成的分析鉴定是蛋白质组学中的与基因组学相对应的主要内容。它要求对蛋白质组进行表征,即实现所有蛋白质的分离、鉴定及其图谱化。双向凝胶电泳(2-D)和质谱(Mass spectrometry)技术是当前分离鉴定蛋白质的两大支柱技术,蛋白质组功能模式(目前主要集中在蛋白质相互作用网络关系)的研究,24,蛋白质组学研究的内容蛋白质表达模式(或蛋白质组组成),蛋白质组学研究的手段,蛋白质组研究的核心用于分离的双向电泳(2-DE),蛋白质组研究的百科全书数据库(database),蛋白质组技术的支柱质谱鉴定技术(Identication),蛋白质组技术的规模高流通量筛选(HTS),25,蛋白质组学研究的手段蛋白质组研究的核心用于分离的双向电,蛋白质组研究的基本技术路线,蛋白质样品的制备,双向电泳,图像分析,转印至膜上的蛋白,凝胶中的蛋白,溶液中的蛋白,混合肽,蛋白质质量,N端测序,肽序列质谱数据,肽指纹图,数据搜索,新的或已知蛋白,蛋白转录后修饰的鉴定,26,蛋白质组研究的基本技术路线蛋白质样品的制备双向电泳图像分析转,原核及简单真核生物的蛋白质组研究流感嗜血杆菌的蛋白质组研究大肠杆菌的蛋白质组研究致病微生物的蛋白质组研究酿酒酵母的蛋白质组研究,多细胞真核生物的蛋白质组研究线虫的蛋白质组研究果蝇的蛋白质组研究人类的蛋白质组研究植物的蛋白质组研究,27,原核及简单真核生物的蛋白质组研究多细胞真核生物的蛋白质组研,生物信息学Bioinformatics,一、生物信息学的概述二、生物信息学研究内容三、生物信息学数据库四、生物信息学数据库工具与分析软件参考书：黄韧薛成等生物信息学网络资源与利用中山大学出版社赵国屏等生物信息学科学出版社,28,生物信息学Bioinformatics 一、生物,29,29,1、概述,生物信息学（Bioinformatics）是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析，进而达到揭示这些数据所蕴含的生物学意义的目的。两个推动力：HGP、生物医药工业,30,1、概述生物信息学（Bioinformatics）是生物学与,生物信息学的发展历程,生物信息学自诞生以来，经历了三个阶段：基因组前期的生物信息学：主要是序列分析、数据库的查询、计算机操作和PC的应用；基因组年代的生物信息学：主要是基因的寻找、数据与数据之间的比较、网络相互界面（Interface）；后基因组年代的生物信息学：主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析；而且进一步到基因和基因组的功能分析，即所谓的功能基因组学研究。,31,生物信息学的发展历程生物信息学自诞生以来，经历了三个,国外发展现状,欧美各国及日本相继成立了生物信息中心，如美国的国家生物技术信息中心（National Center for Biotechnology Informatics，NCBI）、欧洲生物信息学研究所(European Bioinformatic Institute，EBI)、日本信息生物学中心（Center for Information Biology，CIB）等。NCBI、EBI和CIB相互合作，共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据，使得三个数据库能同时获得最新数据。此外，他们每年召开两个年会讨论合作事宜。,32,国外发展现状欧美各国及日本相继成立了生物信息中心，如美国的国,国内的一些科研单位,33,国内的一些科研单位33,34,34,二、研究内容,生物信息的收集、存储和管理基因组序列信息的提取和分析序列的注释和比对：两个序列的比对：BLAST和FASTA；多序列比对：ClustW 序列的拼接基因区域的预测：外元、启动子、拼接位点基因的电子克隆；拼接EST序列非编码区分析和DNA语言的研究分子进化和比较基因组学功能基因组的相关信息分析生物大分子结构模拟和药物设计生物信息分析的技术和方法,35,二、研究内容生物信息的收集、存储和管理35,一级序列数据库：来自序列测定核酸：Genbank、EMBL、DDBJ 蛋白质：SWWISPROT、PIR生物大分子三维空间结构数据库：X晶体衍射和核磁共振、PDB、MMDB基因组数据库：来自基因组作图二级数据库：对一级数据库分析、整理、归纳、注释、构建具有特殊生物学意义和专门用途的数据库,三、生物信息学数据库,36,一级序列数据库：来自序列测定三、生物信息学数据库36,二级数据库,核酸：免疫遗传学数据库IMGT、转录因子数据库TransFac、真核启动子数据库EPD、单核苷酸多态性数据库dbSNP、克隆载体数据库Vector、密码子使用数据库CUTG、人鼠特有基因集UniGene蛋白质：蛋白质功能位点数据库Prosite、蛋白质功能位点序列片段数据库Prints、同源蛋白家族数据库Pfam和同源蛋白结构域数据库Blocks、免疫球蛋白数据库Kabat、酶类数据库ENZYME、蛋白激酶数据库PKinase、相互作用蛋白质数据库DIP、可别剪接数据库ASDB等,37,二级数据库核酸：免疫遗传学数据库IMGT、转录因子数据库Tr,核酸一级序列数据库,38,核酸一级序列数据库38,39,39,EMBL和GenBank核酸序列数据库中各子库名称EMBL GenBank 英文含义中文含义HUM PRI Primate 人类、灵长类MAM MAM Other mammalian 其它哺乳动物ROD ROD Rodent 啮齿类动物VRT VRT Other vertebrate 其它脊椎动物INV INV Invertebrate 无脊椎动物PLN PLN Plant,fungi,algi 植物、真菌、藻类 FUN PLN Fungal 真菌、藻类PRO BCT Prokaryotes,bacterial 细菌、原核生物VRL VRL Viral 病毒PHG PHG Bacteriophage 噬菌体ORG Organelles 细胞器SYN SYN Synthetic 合成产物UNC UNA Unclassified/Unannotated 未分类/未注释EST EST Expressed Sequence Tags 表达序列标记PAT PAT Patent 专利序列STS STS Sequence Tagged Sites 序列标记位点GSS GSS Genome Survey Sequences 基因组测序序列HTG HTG High Throughput Genomic Sequences 高通量基因组序列*EMBL将真菌单独分类，而GenBank将真菌和藻类归在植物中。,40,EMBL和GenBank核酸序列数据库中各子库名称40,41,41,42,42,43,43,蛋白质序列数据库,蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIR NCBI、JIPID、MIPS 部分完善较大较大较慢Swiss Prot EBI、SIB 完善小不大较慢NRl-3D NCBI 完善小小较慢TrEMBL EBI、SIB 不完善大大快GenPep NCBI 不完善大大快NRDB EBI 一般小大较快OWL HGMP 一般小大较慢,44,蛋白质序列数据库蛋白质数据库种类和特点44,45,45,SWISS-PROT+TrEMBL：该数据库由瑞士日内瓦大学于1986年创建，目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics，简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,，简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外，也是国际上蛋白质组和蛋白质分子模型研究的中心，为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年，意为“Translation of EMBL”。该数据库采用SwissProt数据库格式，包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分，SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列，包括免疫球蛋白、T细胞受体、少于个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似，GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成，这两个数据库中的序列错误率较大，均有较大的冗余度。http:/us.expasy.org/sprot/,46,SWISS-PROT+TrEMBL：该数据库由瑞士日内瓦,47,47,48,48,NRL3D：该数据库的序列是从三维结构数据库PDB中提取出来。除了序列信息外，NRL-3D包括二级结构、活性位点、结合位点、修饰位点等与蛋白质结构直接有关的注释信息，对研究蛋白质结构功能关系和同源蛋白分子模型构建特别有用。,49,NRL3D：该数据库的序列是从三维结构数据库PDB中提取出,OWL:是一个非冗余的蛋白质序列数据库，现存于Leeds大学，是由Leeds大学和Warrington的Daresbury实验室合作开发的(Bleasby et al.,1994)。OWL数据库是由四个主要的一级序列数据库复合成的：包括SWISS-PROT，PIR1-4，GenBank（CDS 翻译）和NRL-3D。在合成OWL数据库的过程中，考虑到每个数据库所包含序列信息的情况，赋予它们不同的优先级，SWISS-PROT数据库具有最高的优先权。在对信息的处理上，删除了与某一序列相同序列的信息，也剔除了与某一序列相差单个氨基酸的序列的信息，因此，所得到的OWL数据库是一个紧凑的、高效的序列数据库。尽管如此，OWL数据库仍然有许多与NRDB相同的问题，即在该数据库中仍然有一些错误的序列和对GenBank中不正确序列的重翻译。由于OWL数据库的更新周期是6-8周，因此与其它数据库相比，OWL不是最新的数据库。,50,OWL:是一个非冗余的蛋白质序列数据库，现存于Leeds,MIPSX:是一个由Martinsried的Max-Planck研究所创建的合成数据库(Mewes et al.,1998)。MIPSX包含如下数据库的信息：PIR1-4、MIPS的一级数据库MIPSOwn、MIPS/PIR一级数据库PIRMOD、MIPS一级翻译数据库MIPSTrn、MIPS酵母数据库MIPSH、NRL-3D、SWISS-PROT、EMTransEMBL的自动翻译数据库、GBTrans翻译的GenBank数据库、Kabat 和 PseqIP。MIPSX数据库按照表3.2中所列的上述数据库的顺序赋予优先级，并将这些数据库中和数据库间的重复序列删除，只保留该序列的一个相关信息。另外，也将那些信息完全包含于其它序列中的序列删除。,51,MIPSX:是一个由Martinsried的Max-Plan,52,NRDBOWLMIPSXSP+TrEMBLPDBSWISS-,NRDB：NRDB(非冗余数据库)是由NCBI创建的。该数据库是由Genpept（来源于GenBank CDS自动翻译数据库）、PDB序列数据库、SWISS-PROT数据库、PIR数据库复合而成。因此该数据库是一个较完全的，包含最新信息的数据库。但是，严格地来说，这个数据库中包含有冗余的信息，但不包含相同的信息，即在该数据库中已将那些与某一序列相同的序列信息剔除。由于NRDB是通过简单的比较方法生成的，因此就会带来一些问题：例如，一些相同蛋白质的相关重复信息仍然保留在数据库中，在SWISS-PROT数据库中的一些错误序列仍然被引入NRDB数据库，以及众多序列与已存在的序列片段重复等。所以，尽管NRDB数据库被称作非冗余数据库，但其实是名不副实的。另外，NRDB数据库也被作为NCBI提供的BLAST服务的默认数据库。,53,NRDB：NRDB(非冗余数据库)是由NCBI创建的。该数据,生物大分子三维结构数据库,54,生物大分子三维结构数据库54,55,55,56,56,基因组数据库,人类基因组数据库GDB酵母基因组数据库（SGD）同源脊椎动物基因组数据库HOVERGEN拟南芥数据库（AtDB）在线人类孟德尔遗传信息数据库（OMIM）线虫数据库（ACEDB）,57,基因组数据库人类基因组数据库GDB57,其它数据库：,代谢数据库：KEGG、WIT、EcoCyc综合数据库：TDB基因表达数据库基于分类的二级数据库：SCOP、CATH、COGs,58,其它数据库：代谢数据库：KEGG、WIT、EcoCyc58,四、生物信息学数据库工具和分析软件,(一）、数据库网络检索工具：1、同源性搜索和序列比对工具：BLAST、FASTA、ClustalW2、检索工具：Entrez、SRS(二）、网络预测工具：(三）、分子生物学分析本地软件：1、DNA分析软件 2、RNA结构预测工具 3、蛋白分析软件4、质粒绘图软件 5、引物设计软件 6、序列综合分析软件 7、其它软件：文献管理软件、统计软件、格式转换软件、序列提交软件、代谢途径分析软件,59,四、生物信息学数据库工具和分析软件(一）、数据库网络检索工具,SRS:是Sequence Retrieval System的缩写，是目前分子生物学最重要的序列和其他数据检索工具之一。由欧洲分子生物学实验室开发，最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。通过输入关键词，你就可以对各类数据库关键词匹配查找，并输出相关信息例如，对蛋白质序列数据库SwissProt输入关键词insulin(胰岛素)，即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)。SRS是一个开放的数据库查询系统，即不同的SRS查询系统可以根据需要安装不同的数据库，目前共有300多个数据库安装在世界各地的SRS服务器上。SRS可以直接从LION公司的网页上查到这些数据库的名称，并知道它们分别安装在何处。国内北京大学生物信息中心、微生物所、上海生命科学院、中南大学等单位安装SRS系统。你可以打开网页http:/,60,SRS:是Sequence Retrieval System,BLAST(Basic Local Alignment Search Tool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。您只需提交您的序列，通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。BLAST结果中的得分是对一种对相似性的统计说明。BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。,61,BLAST(Basic Local Alignment S,62,62,63,63,64,64,65,65,66,66,67,67,树立质量法制观念、提高全员质量意识。23.1.1223.1.12Thursday,January 12,2023人生得意须尽欢，莫使金樽空对月。08:21:3408:21:3408:211/12/2023 8:21:34 AM安全象只弓，不拉它就松，要想保安全，常把弓弦绷。23.1.1208:21:3408:21Jan-2312-Jan-23加强交通建设管理，确保工程建设质量。08:21:3408:21:3408:21Thursday,January 12,2023安全在于心细，事故出在麻痹。23.1.1223.1.1208:21:3408:21:34January 12,2023踏实肯干，努力奋斗。2023年1月12日上午8时21分23.1.1223.1.12追求至善凭技术开拓市场，凭管理增创效益，凭服务树立形象。2023年1月12日星期四上午8时21分34秒08:21:3423.1.12严格把控质量关，让生产更加有保障。2023年1月上午8时21分23.1.1208:21January 12,2023作业标准记得牢，驾轻就熟除烦恼。2023年1月12日星期四8时21分34秒08:21:3412 January 2023好的事情马上就会到来，一切都是最好的安排。上午8时21分34秒上午8时21分08:21:3423.1.12一马当先，全员举绩，梅开二度，业绩保底。23.1.1223.1.1208:2108:21:3408:21:34Jan-23牢记安全之责，善谋安全之策，力务安全之实。2023年1月12日星期四8时21分34秒Thursday,January 12,2023相信相信得力量。23.1.122023年1月12日星期四8时21分34秒23.1.12,谢谢大家！,树立质量法制观念、提高全员质量意识。9月-229月-22Sa,

注意事项

本文（第十章基因组学、蛋白质组学和生物信息学课件.pptx）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。