dbSNP数据库.ppt
《dbSNP数据库.ppt》由会员分享,可在线阅读,更多相关《dbSNP数据库.ppt(39页珍藏版)》请在三一办公上搜索。
1、dbSNP数据库,SNP(Single Nucleotide Polymorphism)综述,有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。2001年二月,美、英等国宣布完成了人类基因体定序及分析初稿,这项划时代的创举将人类基因体科技带入新的境界,也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。人类基因译码初稿的完成,象征着人类基因体解读计划的第一阶段已告一段落。但接下来对于基因定序数据的检测与分析,以及运用这份
2、草图来寻找个体间基因序列差异性的任务,才刚刚开始。了解个体间基因序列差异性的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(Linkage Disequilibrium)进行复杂性遗传疾病(multiple genes diseases)的相关性研究上也扮演重要的角色。,SNP概念及其类型,SNP,念法为snIp,是Single Nucleotide Polymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(base pair)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,
3、它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每5001000个碱基对中就有1个,估计其总数可达300万个甚至更多。目前科学界已发现了约400万个SNPs。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。,DNA分子示意图,DNA变异类型,部分密码子:UAU酪氨酸,UCU丝氨酸,UAC酪氨酸,UUG 亮氨酸,UGC 半胱氨酸,UUU 苯丙氨酸,AUG 甲硫氨酸,编码连,基因示意图,基因的表
4、达过程,一一对应,一一对应,基因表达,一一对应,基因的表达,碱基的互补配对原则T-AA-UC-G保证了遗传信息准确无误地表达。,模板链(无义链),非模板链(有义链或编码连),密码子,密码子表,dbSNP简介,dbSNP:database of SNP(Wikipedia:The Single Nucleotide Polymorphism Database)单核苷酸多态性数据库dbSNP(http:/www3.ncbi.nlm.nih.gov/SNP/)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,它是关于单碱基替
5、换以及短插入、删除多态性的资源库。因为开发dbSNP 是为了补充和辅助 GenBank,所以它包含了来自任何生物体的核苷酸序列。dbSNP接收来自公共实验室和私人组织的提交。,dbSNP简介,每个提交至少包括以下10个主要数据元素:侧翼序列上下文DNA或cDNA、等位基因、方法、种群、样本大小、特定种群的等位基因频率、特定种群的基因型频率、特定种群的杂合度估计、个体基因型、验证信息。dbSNP最新版本公告:,可以通过不同的组件获取想要的信息,dbSNP的数据库结构,完整的数据以多种格式存于ftp站点:ftp:/ftp.ncbi.nih.gov/snp/数据库结构:自版本125起,dbSNP的设
6、计改为“中心和辐条”模型,其中dbSNP_main表格为车轮的中心,其存储着数据库的主要表格,而车轮的辐条是具体生物体的数据库,其包含着具体生物体的最新数据。dbSNP使用标准的SQL DDL(Data Definition Language)为表格和索引创建模式表(schema tables)、视图。FTP数据库目录(ftp:/ftp.ncbi.nih.gov/snp/database/)包含模式(schema)、数据、创建表格和索引的SQL语句。,dbSNP的数据库结构,shared_schema(ftp:/ftp.ncbi.nih.gov/snp/database/shared_sche
7、ma/)子目录包含dbSNP_main中表格的模式DDL(SQL Data Definition Language)。shared_data(ftp:/ftp.ncbi.nih.gov/snp/database/shared_data/)子目录包含所有生物体共享的dbSNP_main的数据。organism_schema(ftp:/ftp.ncbi.nih.gov/snp/database/organism_schema/)子目录包含每种生物体具体数据库的模式DDL的链接。主表格的表索引提供于位于shared_schema子目录中的dbSNP_main_index_constraint.sql
8、.gz和dbSNP_main_foreign_key.sql.gz文件。每种生物体具体数据库的表索引位于organism_schema子目录中的organism_taxID_constraint.sql.gz 和organism_taxID_index.sql.gz文件。包含表格和列描述的数据字典位于http:/www.ncbi.nlm.nih.gov/SNP/snp_db_list_table.cgi。SNP的模式实体联系图位于ftp:/ftp.ncbi.nih.gov/snp/database/b124/mssql/schema/erd_dbSNP.pdf。,创建dbSNP本地拷贝的资源需
9、求,软件需求:关系数据库软件,如Sybase,Microsoft SQL server,或 Oracle。NCBI的dbSNP运行于MSSQL server version 2000。数据加载工具:将dbSNP FTP站点数据加载到一个数据库需要批量数据加载工具,如伴随Sybase的bcp(bulk-copy)实用程序或MSSQL server的“bulkinsert”命令。解压ftp文件的winzip/gzip压缩软件。硬件需求:计算机平台/OS、磁盘空间(500GB)、内存(4G)、Internet连接。创建dbSNP本地拷贝的具体步骤见:http:/www.ncbi.nlm.nih.go
10、v/books/NBK21088/,dbSNP所用的数据库,dbSNP目录结构,dbSNP目录结构,dbSNP包含了包含了许多目录,其中最有用的是:organisms/、database/、specs/FTP的“organisms/”目录包含了一列有 SNP数据的生物体 目录,其按通用名 后接NCBI分类id号 来组织的。点击特定的生物体子目录即可访问其中的ftp报表文件。,dbSNP目录结构,比如你点击了human_9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1_bin/ASN1_flat/XML/VCF/chr_rpts/gene_report/Genome_repor
11、t/rs_fasta/ss_fasta/genotype_by_gene/genotype/haplotypes/database/misc/,其中包含具体生物体的表格、schema文件、共享schema文件、共享data文件。,dbSNP目录结构,/ASN1_bin:ASN.1 二进制格式的RefSNP文档综述(.bin)/ASN1_flat:从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)/XML:提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)/chr_rpts:包含特定染色体上的RefSNPs 的完整列表(.txt)/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- dbSNP 数据库
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4096210.html