第八章生物信息学资源检索ppt课件.ppt

上传人：牧羊曲112

文档编号：1359301

上传时间：2022-11-13

格式：PPT

页数：92

大小：672.50KB

《第八章生物信息学资源检索ppt课件.ppt》由会员分享，可在线阅读，更多相关《第八章生物信息学资源检索ppt课件.ppt（92页珍藏版）》请在三一办公上搜索。

1、第八章生物信息学资源检索,胡德华,2,目录,3,第一节生物信息学数据库概述,4,一、生物信息学数据库的类型,5,二、生物信息数据收集与存贮,（一）生物信息数据的收集,生物信息数据收集与存贮,（二）生物信息数据的存贮,6,（一）生物信息数据的收集,数据库与数据库合作,数据库与测序中心合作,数据库与期刊合作,建库的初期,7,（二）生物信息数据的存贮,1记录格式主要有：EMBL格式、GenBank格式,存贮格式,2序列格式又称Pearson格式,三、生物信息学数据库的查找,（一）通过搜索引擎查找（二）通过专门的生物信息学数据库目录查询从2000年开始，Nucleic Acids Resear

2、ch 设立了一个数据库目录（http:/www.oxfordjournals.org/nar/database/c/）。（三）通过生物信息学中心资源导航查询一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库，而且一般在网上提供资源导航。,9,第二节核酸序列数据库,10,（一）GenBank概述,一、GenBank,（二）GenBank检索,（一）GenBank概述,是由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性的公共核酸序列数据库，包括所有已知的核酸序列和蛋白质序列，以及与它们相关的文献和生物学注释。网址： http:/www.ncbi.nlm.nih.gov

3、/Genbank/index.html,12,国际核酸序列数据库协作体,（一）GenBank概述,GenBank的数据来源于约260000个物种，每月新增1700多个物种。大约12%的序列来自于人类，其中8%是人类的EST序列。每条GenBank数据记录包含对序列的简要描述、它的科学命名、物种分类名称、参考文献、序列特征表以及序列本身。序列特征表里包含对序列生物学特征注释，如编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分成若干个子库，如细菌类（BCT）、病毒类（VRL）、灵长类（PRI）、啮齿类（ROD）以及EST数据、基因组序列数据（GSS）、高通量基因组序列数据（HT

4、G）等19类，其中EST数据等又被分成若干子库。,（二）GenBank检索,Entrez是NCBI生物信息学数据库集成检索系统，可以检索以下生物信息学数据库。,例如，查找H1N1流感病毒（H1N1 Flu Virus）的核酸序列。其检索步骤是：,（1）进入Entrez主页（http:/www.ncbi.nlm.nih.gov/gquery/），在提问框输入H1N1 Flu Virus。,（2）点击“GO”，得到各个数据库的检索结果。,（3）点击“Nucleotide: Core subset of nucleotide sequence records”，得到GenBank核酸序列数据库中的4

5、801条记录简要格式（Summary）。,(4）点击记录的标题，即可获取该记录的详细信息。,20,（一）EMBL-Bank概述,二、 EMBL-Bank,（二）EMBL-Bank检索,（一）EMBL-Bank概述,EMBL-Bank(http:/www.ebi.ac.uk/embl/)是国际三大核酸序列数据库之一，创建于1982年。现由欧洲生物信息学研究所(EBI)管理和维护，主要收集欧洲产生的核酸序列数据。到2009年8月，EMBL-Bank（101版）的核酸序列达到163656234条，碱基数达到283748816763个。对于每条核酸序列，相关信息包括序列名称、序列、染色体定位、关键字、

6、来源生物体、参考文献、注释、序列中具有重要生物学意义的位点等。,（二）EMBL-Bank检索,获取EMBL-Bank的核酸序列数据主要是通过SRS（Sequence Retrieval System）序列检索系统由Lion Bioscience公司继续开发，而成为一个商业软件，科研单位只要与它签订协议即可获得该软件的免费使用权。 SRS是一个开放式的，可以根据需要安装不同的数据库。,SRS查询方法,通过EBI的SRS服务器（http:/srs.ebi.ac.uk）进入Quick Search界面。点击“Library Page”，即数据库选择页。选择好要检索的数据库后，SRS提供三种查询方式。

7、（1）Quick Search (快速查询) （2）Standard Query(标准查询) （3）Extended Query(扩展查询),（1）Quick Search(快速查询),（2）Standard Query(标准查询),（3）Extended Query(扩展查询),标准查询后的结果,CS116935的详细信息,29,（一）DDBJ概述,三、DDBJ,（二）DDBJ检索,（一）DDBJ概述,DDBJ (DNA Data Bank of Japan，日本核酸数据库，http:/www.ddbj.nig.ac.jp/index-e.html)创建于1986年，现由日本国家遗传学研究

8、所的生物信息中心（CIB/DDBJ）管理和维护。截止至2009年9月，DDBJ（79版）共收录108,593,519条序列, 106,684,379,504个碱基。DDBJ 主页除了提供SRS、ARSA、TXSearch 、BLAST等数据检索功能外，还提供SAKURA、MSS、Sequin数据提交工具和CLUSTAL W、FASTA、BLAST等数据分析工具。,（二）DDBJ检索,通过getentry、ARSA、SRS、TXSearch、BLAST、PSI-BLAST、FASTA、SSEARCH等检索工具可以获取DDBJ数据。前四种用于检索DDBJ数据库中的原始数据，其中getentry属于

9、存取号检索，SRS和ARSA属于关键词检索，TXSearch属于分类检索；后4种对用户提供的序列或片断作同源性分析。,32,第三节蛋白质数据库,33,一、蛋白质序列数据库,（三）TrEMBL,（四）GenPept,（二）SWISS-PROT,（一）PIR,（五）UniProt,（六）OWL,（一）PIR,创建于1984年。 1988年，美国NBRF、日本国际蛋白质信息数据库（Japan International Protein Information Database, JIPID）与德国的慕尼黑蛋白质序列信息中心（Munich Information Center for Protein

10、 Sequences, MIPS）合作成立国际蛋白质序列信息中心（PIR-International）。第75.03版的PIR数据库按照数据的性质和注释详略分成四个子库：PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证，注释最为详尽；PIR2中包含尚未确定的冗余序列；PIR3中的序列尚未加检验，也未加注释；PIR4包括其他渠道获得的序列，既未验证，也无注释。网址：http:/pir.georgetown.edu/,PIR主页,（二）SWISS-PROT,创建于1986年由瑞士生物信息学研究所（Swiss Institute of Bioinformatics，SIB）和欧洲生物

11、信息研究所（EBI）共同维护和管理。 1994年，SIB创建蛋白质专家分析系统(Expert Protein Analysis System，ExPASy) (http:/www.expasy.Ch)，除了开发、维护和管理SWISS-PROT数据库外，还提供蛋白质序列、结构、功能和蛋白质2D-PAGE图谱等蛋白质信息资源到2009年10月，SWISS-PROT（57.11版）收录了512994条序列，包含180531504个氨基酸。网址：http:/expasy.org/sprot/,（三）TrEMBL,创建于1996年，意即“Translation of EMBL”，是计算机翻译并注释的蛋白

12、质序列数据库，收录的序列是从EMBL中的cDNA序列翻译得到的。记录采用SWISS-PROT数据库格式。TrEMBL分为两个部分：SP-TrEMBL和REM-TrEMBL。SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号，但尚未通过人工审查，最终将收入SWISS-PROT。REM-TrEMBL包含其他剩余序列，主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等。 http:/www.ebi.ac.uk/trembl/,（四）GenPept,由GenBank中的cDNA序列翻译得到的蛋白质序列数据库。网址：ftp:/ncbi.nlm.nih.

13、gov/genbank/genpept/）,（五）UniProt,将PIR 、SWISS-PROT和TrEMBL3个蛋白质数据库统一起来组建而成，包含3个部分：（1）UniProt Knowledgebase（UniProtKB），这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库，记录经过人工筛选和注释；（2）UniRef （UniProt Non-redundant Reference）数据库，将密切相关的蛋白质序列组合到一条记录中，以便提高搜索速度；目前，根据序列相似程度形成3个子库，即UniRef100、UniRef90和UniRef50；（3）UniParc（UniProt Arch

14、ive），是UniProt存档库，收录所有蛋白质序列。用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP下载数据。网址：http:/www.uniprot.org/,UniProt主页,（六）OWL,1994年由英国里兹（Leeds）大学和Warrington的Daresbury国家实验室合作创建并维护的一个复合型数据库。数据来源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据库，去重后整合而成的非冗余蛋白质序列数据库。网址：http:/www.bioinf.manchester.ac.uk/dbbrowser/O

15、WL/index.php,OWL主页,小结：,SWISSPROT的序列经过严格审核，注释完善，但数量仍较少。PIR数据量较大，但包含未经验证的序列，注释也不完善。TrEMBL和GenPept的数据量最大，且随核酸序列数据库的更新而更新，但是由于TrEMBL和GenPept均是由核酸序列经过计算机程序翻译生成的，这两个数据库中的序列错误率较大，并存在较多的冗余序列。OWL中的序列虽具有较好的代表性，但采用某些标准取舍序列，导致某些数据不完整。UniProt中的序列具有较好的代表性，数据较完整。,44,二、蛋白质结构数据库,（三）DSSP,（四）HSSP,（二）MMDB,（一）PDB,（五）SCO

16、P,（六）CATH,（一）PDB,创建于1971年，是国际上最著名、最完整的蛋白质三维结构数据库。最先由美国Brookhaven国家实验室负责维护和管理，从1998年开始，由结构生物信息学合作研究协会(RCSB)负责管理。到2009年12月统计，PDB数据库已经收录了利用X线衍射、NMR、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质/核酸复合物等结构数据61808条，而且数据增长速度相当快。,PDB数据库以文本文件格式存放数据，每条记录即是一个独立的文件，包括物种来源、化合物名称、原子坐标、结构提交者以及有关文献等基本注释信息。此外，还包括分辨率、结构因子，温度系数、主链数目、配体分

17、子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。网址：http:/www.rcsb.org/pdb/home/home.do,PDB主页,（二）MMDB,MMDB是NCBI的分子模型数据库，收录了由晶体衍射和核磁共振实验研究得到的蛋白质三维结构。MMDB采用ASN.1记录格式，而不是采用PDB记录格式。MMDB结构与原始的PDB结构相比，增加了许多附加信息，如经程序验证的显性化学图像，一致的二级结构衍生定义，与MEDLINE相匹配的引用等。MMDB可利用Entrez进行文本查询。MMDB检索项包含PDB、MMDB的存取号，源自PDB注释记录的自由文本，作者名及其它书目检索项。VAS

18、T（矢量分析检索工具）用于检索三维结构的相似性。它舍弃了序列信息，而单纯依靠由二级结构衍生的三维矢量指标进行检索。Cn3D是一种新的三维结构浏览器，用于浏览MMDB数据记录。,(三) DSSP,DSSP是一个蛋白质二级结构数据库。目前，收录了59474条记录。DSSP对蛋白质二级结构划分得比较详细，共分7种二级结构，其编码含义如下：H代表螺旋，E代表折叠，G和I分别代表3-螺旋和螺旋，B代表孤立的桥，T 代表氢键转折，S代表弯曲。图8-8是一个具体的蛋白质二级结构实例，其上面一行代表蛋白质序列，下面一行是对于各个氨基酸残基所处二级结构的注释。网址：http:/swift.cmbi.ru.nl

19、/gv/dssp/）,（四）HSSP,HSSP是一个基于蛋白质同源的蛋白质结构。目前，收录了58774条记录。对于一个蛋白质，HSSP组合二级结构、三维结构数据和序列数据，其数据主要来源于PDB及其它蛋白质序列数据库，如SWISS-PROT。HSSP不仅是蛋白质家族序列比对数据库，同时该数据库隐含了二级结构和空间结构信息，覆盖了SWISS-PROT中27%的蛋白质。HSSP有助于分析蛋白质的保守区域，确定有意义的序列模式，研究蛋白质的进化关系，研究蛋白的折叠，也有助于蛋白质的分子设计。网址：http:/swift.cmbi.kun.nl/swift/hssp/,（五）SCOP,SCOP 是英

20、国医学研究委员会分子生物学实验室和蛋白质工程中心开发的，基于Web的蛋白质结构数据库分类、检索和分析系统。 SCOP按结构和进化关系对蛋白质分类，主要划分为全型、全型、以平行折叠为主的/型、以反平行折叠为主的+型等11类。然后，再将属于同一结构类型的蛋白质按照折叠(Fold)、超家族(Superfamily)、家族(Families)、蛋白质结构域（Protein Domains）、单个PDB蛋白质结构层次组织起来。网址：http:/scop.mrc-lmb.cam.ac.uk/scop/,SCOP 主页,（六）CATH,CATH是一个关于已知蛋白质结构域的分级分类数据库，由英国伦敦大学开

21、发和维护。CATH主要有四个层次：类(Class，C)、构架(Architecture，A)、拓扑(Topology，T)和同源超家族(Homology superfamily,H)。CATH的类与SCOP数据库类似，主要根据二级结构划分为、+、/等结构类型。构架层次描述结构域的形状，主要由其二级结构的取向决定。拓扑层描述的是折叠家族的水平。同源超家族层次则将对此具有同源性的蛋白质聚类在一起。网址：http:/www.cathdb.info/,CATH主页,55,三、蛋白质功能数据库,（三）STRING,（二）DIP,（一）BOND,（四）KEGG,（一）BOND,BOND是生物分子网络数据

22、库，创建于2005年，由Unleashed Informatics公司管理和维护。主要收录生物分子及其蛋白质序列、结构和相互作用等数据，其中生物分子包括蛋白质、DNA、RNA、配基、复合体、基因、光子（photon）等。BOND集成了多个重要数据库，如BIND（生物分子相互作用网络数据库)、SMID（小分子相互作用数据库）、Genbank、GO（基因本体）、OMIM、conserved domains（保守功能域）、交叉参考数据库、完整基因组等。网址：http:/,BOND主页,（二）DIP,DIP专门存放实验确定的蛋白质之间相互作用的数据，既包括经典实验手段确定的蛋白质相互作用，也包括高通量

23、实验手段确定的蛋白质相互作用数据。数据要经过人工审核和采用计算方法自动验证后加入数据库。数据的自动验证有3种指标，即EPR Index、PVM Score和DPV Score。在目前缺乏蛋白质相互作用数据金标准的现实情况下，DIP为采用计算的方法自动验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作。DIP还利用XML技术专门开发了一种用来存放和交换蛋白质相互作用数据的xin格式。网址： http:/dip.doe-mbi.ucla.edu/,DIP主页,（三）STRING,STRING不仅存贮实验确定的蛋白质相互作用数据，而且还存贮预测的蛋白质相互作用数据，并对各种预测方法的准确性给出了

24、相应的权重，对于采用经典实验方法研究蛋白质的功能、生物学意义具有非常重要的意义。数据来源有4种，一是高通量实验技术产生的蛋白质相互作用数据，二是由保守的共表达数据推导出的蛋白质功能联系，三是文献搜索得到的蛋白质相互作用数据，四是采用预测蛋白质相互作用的方法，根据基因组中基因的上下文关系（genomic context）预测得到的蛋白质相互作用数据。目前STRING数据库已经包括179个物种中的736429个蛋白，覆盖率相当高。网址：http:/string.embl.de/,STRING主页,（四）KEGG,京都基因和基因组百科全书(KEGG)是系统分析基因功能，联系基因组信息和功能信息的知

25、识库。基因组信息存贮在GENES数据库里，包括完整和部分测序的基因组序列；功能信息存贮在PATHWAY数据库里，包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期，还包括同系保守的子通路等信息；KEGG的另一个数据库是LIGAND，包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱，比较基因组图谱和操作表达图谱，以及其它序列比较、图形比较和通路计算的工具，可以免费获取。网址：http:/www.genome.jp/kegg/,KEGG主页,64,第四节基因组数据库,一、Entrez Gonomes,NCBI提供的，是世界上最大、最完整的多物种的基因

26、组资源。目前已收录5937个物种的8500多条记录，按生物体分成古细菌（Archaea）、细菌（Bacteria）、真核生物（Eukaryotae）、病毒（Viruses）、类病毒（Viroids）和质粒（Plasmids）六大类。提供了各种基因组图谱，包括完整的染色体、序列图谱、遗传图谱、物理图谱和连续子（contigs）图谱。可以通过Entrez进行关键词搜索，也可以通过Map Viewer进行浏览、检索及编辑。网址： http:/www.ncbi.nlm.nih.gov/sites/genome,Entrez Gonomes主页,（一）Map Viewer,Map Viewer是一种从

27、众多资源中汇集图谱和序列信息的图谱浏览器。它既允许用户浏览和检索某有机体完整基因组信息，又允许用户在序列水平，通过浏览单个染色体图谱或某染色体上的特定区域，探查完整基因组信息。对于每一个基因组，Map Viewer从4个层次揭示其信息：生物体主页（Home Page）基因组浏览（Genome View）图谱浏览（Map View）序列浏览（Sequence View）,（二）Map Viewer的使用,Map Viewer主页,检索结果,有关ARMS2更详细的信息,二、Ensembl,Ensembl是一个有关人类基因组及其他物种基因组的综合数据库。始建于1996年，由EMBL-EBI和

28、Sanger研究所共同开发。目前包括人类、小鼠、斑马鱼、马、猩猩等几十种生物基因组的注释分析。Ensembl主要根据已经测得的基因组序列，定位所有已知基因，并预测未知新基因，同时为这些基因提供功能、疾病相关特征等方面的注释信息。Ensembl基因组注释的核心部分是基因预测，这部分工作的好坏直接影响最终结果。网址：http:/www.ensembl.org/index.html,Ensembl主页,三、UCSC Genome Browser,UCSC Genome Browser是美国加利福尼亚大学Santa Cruz分校的Jim Kent等建立的人类基因组图谱三大门户网站之一。目前该数据库采

29、用NCBI拼接整合的人类基因组序列作为平台，提供了很多基因组中的定位数据，包括染色体区带、连续子和间隙、mRNA和表达序列标签(EST)、预测基因、单核苷酸多态（SNPs）、STS的遗传和放射杂交图谱、重复序列、鼠同源序列、斑马鱼（Tetraodon nigroviridis）同源序列等。大多数据与其他数据库链接，如RefSeq、LocusLink、PubMed、GeneLynx、GenCards、AceView等。网址：http:/genome.ucsc.edu/,UCSC Genome Browser主页,75,鼠基因组数据库,人类基因组数据库,线虫基因组数据库,四、其他基因组数据库,（一

30、）GDB,（二）MDB,（三）ACEDB,（一）GDB,GDB（人类基因组数据库）由美国John Hopkins大学于1990年建立，1998年年底移至加拿大多伦多儿童医院生物信息中心。GDB采用表格方式给出基因组结构数据，包括基因单位、PCR位点、细胞遗传标记、EST、连续子、重复片段等；并可显示基因组图谱，包括细胞遗传图、连锁图、放射杂交图、连续子图、转录图等，并给出等位基因等基因多态性数据库。网址：http:/www.gdb.org/,（二）MDB,MDB（鼠基因组数据库，）由Jackson实验室于1997年创建。收录遗传、物理、比较图谱数据、克隆/探针/PCR信息、基因的表型描述、突变

31、和老鼠种株的遗传记、哺乳类同源性确定、参考文献等。网址：http:/www.informatics.jax.org,（三）ACEDB,ACEDB（线虫基因组数据库，）是一种被广泛应用的管理和提供基因组数据的工具组，适用于许多动物和植物的基因组计划。ACEDB以丰富的图形界面提供信息，包括有具体显示的基因图谱、物理图谱、新陈代谢的途径和序列等。数据采用面向对象的形式进行组织，如相关的文献、基因、描述和克隆的DNA等。可用于专用的数据分析以及许多永久性数据的采集。网址：http:/www.acedb.org/,79,第五节疾病基因数据库,80,一、OMIM,OMIM概述,OMIM数据的存贮,OM

32、IM检索,OMIM在医学遗传学中的应用价值,（二）,（一）,（三）,（四）,（一）OMIM概述,“在线人类孟德尔遗传”（Online Mendelian Inheritance in Man，OMIM），是在美国John Hopkins大学医学院Victor AMcKusick教授编撰的人类孟德尔遗传一书的基础上发展起来的，内容包括所有已知的遗传病、遗传决定的性状及其基因，除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外等文本资料，还提供已知有关疾病相关基因的连锁关系、染色体定位、组成结构和功能、动物模型，并附有其相关的图片、研究历史和参考文献。,82,OMIM具有以下主要特点：,

33、及时性,准确性,全面性,实用性,它不仅是一个人类基因和遗传疾病的数据库，更重要的是一个不断更新的知识库，内容每天更新。,一旦遇到涉及某一新遗传性疾病的论文，要经过几位高级临床医师的严格审查、讨论，方可载入,从200多种杂志发表的论文和专著中积累资料，不仅包括单基因病，而且包括染色体病、多基因病、线粒体病资料。,使科研人员从浩瀚的文献中解脱出来，快速掌握某种疾病的遗传学知识。,（二）OMIM数据的存贮,OMIM每一条记录都有一个唯一的编号，即OMIM存贮号，对应一个基因或者是某种疾病。OMIM存贮号采用6位数字系统，如下表。,OMIM存贮号前通常带有一种符号。*号表示序列已知的基因；#号表示分

34、子基础已知的表型；+号表示序列和表型已知的基因；%号表示孟德尔表型或表型位点已证实但是分子基础未知；表明该记录已经删除或者赋予了新的OMIM存贮号。如果OMIM存贮号前不带符号，则表明该记录是一种尚未得以证实的孟德尔表型。,（三）OMIM检索,“0MIM”的Entrez检索检索方法与GenBank的Entrez检索相同(详见本章第二节)，可以用记录内检索字段中出现的任何词(包括基因符号、疾病名称、症状、染色体定位、著者等)。词与词间可以用字段名称加以限定，也可用逻辑运算符相连进行复合检索。2.“Search OMIM”检索是在Entrez检索的基础上，根据OMIM记录的字段特点，给出限制性检

35、索字段的复选，以及染色体位置选择和数据时间段的限定。,3. “Search Gene Map”(基因图谱检索) 是针对OMIM所描述的表达基因及疾病基因的细胞遗传学定位图(染色体定位)的检索。可以输入基因符号、疾病、染色体定位来检索(性染色体x、Y须大写)，如“CYP1”、“5”、“1pter”、“Xq”或“alzheimer”。4. “Search Morbid Map”(疾病图谱检索) 与基因图谱检索相同。,87,（四）OMIM在医学遗传学中的应用价值,1,2,3,4,利用OMIM statistics 了解最新的有关遗传病、性状及基因的信息。,利用OMIM数据库获得遗传病诊断、咨询及治疗

36、的资料。,利用OMIM数据库获取遗传病最新、最详细的研究资料。,利用OMIM的Gene map和Morbid Map获取疾病基因定位的详细资料。,二、GeneCards,GeneCards是一个收集并展示人类基因及其产物和相关疾病等综合信息的知识平台，由以色列的Weizmann研究所基因组研究中心和生物信息学中心共同开发。内容包括基因命名及描述（Aliases & Descriptions）、基因组定位（Genomic Location）、蛋白质特征（Protein Features）、蛋白质功能域及家族（Protein Domains & Families）、基因功能（Gene Functi

37、on）蛋白质通路和相互作用（Pathways & Interactions）、药物及成分相关信息（Associations with Drugs & Compounds）、转录本和剪接异构体（Transcripts and Splice isoforms）、基因表达相关信息（Expression-related information）、直系同源基因（Orthologs）、旁系同源基因与假基因（Paralogs & Pseudogenes）、单核苷酸多态性（SNPs）、疾病与突变（Disorders & Mutations）、医学新闻（Medical News）、出版物（Publication

38、s）等。,每个基因的信息来源于大约50个公共的和私人的数据库，如Ensembl、dbSNP、FlyBase、Genatlas、GenBank、GO、GeneAnnot、GeneLynx、GeneNote、GeneTests、HUGE、HUGO Gene Nomenclature Committee、OMIM、PubMed、Swiss-Prot、HGMD等。目前，GeneCards推出第3版，有55 546个基因信息，其中28139个已经被HUGO基因命名委员会审核通过。GeneCards在网上免费提供简单检索（Simple Search）、截词检索（Wild Card Search）、多词逻辑

39、组配检索（Multiword Search）和高级检索（Advanced Search）4种检索方式。网址：http:/www.genecards.org/,GeneCards主页,91,三、突变数据库,（二）HGVbaseG2P,（三）p53基因突变数据库,由EBI以及瑞典卡罗林研究所联合构建。数据来源于文献、其他数据库和本实验室的工作结果及直接提交。HGVbaseG2P主要收录了基因内的DNA多态和短小的插入、缺失突变。,列出了p53基因突变，p53基因是在人的各种癌症中突变频率最高的基因之一。这些点突变能引起氨基酸的改变，从而影响蛋白质的正常功能，从而揭示遗传因素和环境因素在癌症发生中的作用。,92,Thank You !,