《生物信息学软》PPT课件.ppt
生物信息学软件,华南农业大学动物科学学院刘吉平2004-04-26,内容概要,生物信息学软件的主要功能简介分析和处理实验数据和公共数据,加快研究进度,缩短科研时间提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验用计算机管理实验数据寻找、预测新基因及预测其结构、功能蛋白高级结构预测,软件在生物信息学研究中的地位和作用PCR引物及寡核苷酸设计软件核酸序列分析软件蛋白质序列分析软件序列比对软件,软件在生物信息学研究中的地位和作用,Bioinformatics,Computational Biology,算法是 core算法是 key算法是 soul,软件在生物信息学研究中的地位和作用,数学家:实际问题的抽象 算法研究,生物学家:实际问题的提出 软件应用,软件专家:算法的工具化 软件开发,各种序列:DNA,Protein,生物信息学处理软件平台,Blast,Genscan,Blocks,生物学家,计算生物学模型/算法,软件,并行软件:Blast,Phrap,SW,市场化,各种算法,串行,后基因组学数据,并行,生物信息学软件的分类,按功能分类:1、DNA序列分析软件 如:DNACLUB,Chromas1.562、蛋白质序列分析软件 如:ANTHEPROT3、RNA结构预测软件 如:RNAdraw4、引物设计软件 如:Oligo,Primer Premier5、基因芯片软件 如:Array Maker6、序列比对软件 如:Clustal X7、亲缘进化树软件 如:PHYLIP和PAUP,Treeview8、综合软件 如:GCG(Genetics Computer Group),生物信息学软件的分类,按使用方式分类:1、本地分析软件,如Lasergene,可在 Windows或MacIntosh微机运行,有单机版和网络版2、在线分析软件:内联网软件(Genemill,Geneworld,GeneThesaurus)和因特网软件(如BLAST以及CINEMA),按运行平台分类:1、UNIX+SGI工作站2、Windows或MacIntosh+PC,生物信息学软件的开发-P e r l应用,具有生物信息学特色的程序语言 P e r l,Perl语言的特点:1、对过程、档案和文字有很强的处理能力2、跨平台3、解释执行4、简单易学5、适用于网络程序开发,bioperl,生物信息学软件的开发-其他常用的生物信息学软件开发语言,Java 跨平台C+、C#代码执行效率高VB 简单易学,生物信息学软件的发展方向,高通量海量数据分析并行处理新算法的提出和应用网络共享解决方案,PCR技术的应用,PCR:,研究领域:基因克隆、测序、重组疾病诊断法医鉴定亲子鉴定古生物学研究,PCR引物及寡核苷酸设计-PCR原理,高温变性低温退火适温延伸,PCR引物及寡核苷酸设计-条件,一、估测可能形成的DNA双链的稳定性(基础),算法:邻近热力学25G(kcal/mol),例:ACGG 和其互补 TGCC 结合的G:G(ACGG)=G(AC)+G(CG)+G(GG)=-(1.3+3.6+3.1)=-8.0 kcal/mol,PCR引物及寡核苷酸设计-问题,二、引物可能出现的二级结构(基础)1、发夹结构(Hairpin)自身互补 2、自身二聚体(Dimer)两个同型引物互补3、交叉二聚体(Cross Dimer)两个异型引物间互补,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则1、引物3末端限制 3端防止连续三个C或G 3端防止互补(防止出现3端二聚体)2、引物互补限制尽量避免发夹结构、自身二聚体和交叉二聚体出现在不可避免时,按如下原则处理:防3端互补 其他区域|G|小 其他区域|G|大,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则3、引物长度 PCR产物长度 500bp 引物长度 16 18 bp PCR产物长度 5kb 引物长度 25bp PCR纪录:23bp长度引物 扩增出 40kb产物 引物长度 20bp 产物长度 1kb 应考虑使用引物设计软件!,有效长度:L=2(G+C)+(A+T)L38,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则4、引物的唯一性 防止错配发生错配(或称假引发)False Priming将导致产生非专一产物,错配,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则5、引物内部稳定性(Internal Stability)引物与模板应具有较高的结合能量,这样有利于引物与模板序列的整合,因此5端与中间段的G值应较高,而3端G值影响DNA聚合酶对模板DNA的解链,过高则不利于这一步骤。引物的G值最好呈正弦曲线形状,即5端和中间部分G值较高,而3端G值相对较低,且不要超过9(G值为负值,这里取绝对值),如此则有利于正确引发反应而可防止错误引发。,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则6、解链温度(Tm值)Tm值的几种算法:(1)Tm=4(G+C)+2(A+T)(2)Tm=4(G+C)+2(A+T)引物长度14 Tm=64.9+41,(G+C-16.4)-引物长度14 引物长度,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则6、解链温度(Tm值)(3)精确算法(邻近热力学),PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则7、退火温度(Ta OPT),PCR引物及寡核苷酸设计-引物设计软件,四、引物设计软件常用的引物设计软件Primer Premier 5 Oligo 6推荐使用 WONDERFUL生物信息学系统1700RMB,售价 US$885,售价 US$1200,PCR引物及寡核苷酸设计,寡核苷酸设计,用于基因芯片、Southern blot和Northern blot 等核酸分子杂交的探针设计是和引物设计并列的一个问题的两个方面常用的探针设计软件:Array Designer国产WONDERFUL生物信息学系统也具备该功能,核酸序列分析,基础概念,1、相位:任意DNA序列有6个相位,核酸序列简单分析http:/,核酸序列分析-基础概念,2、简并碱基的表示方法,核酸序列分析-基础概念,3、密码子表和密码子偏好性,核酸序列分析-限制酶切位点分析,EcoR I 识别片段 GAATTC(G AATT_C),G AATTC CTTAA G,Psp5 II 识别片段 RGGWCCY(RG GWC_CY),R=A or G W=A or T Y=C or T,核酸序列分析-限制酶切位点分析,线型序列:,环型序列:,核酸序列分析-限制酶切位点分析,限制酶数据库 REBASE网址:数据库中限制酶信息包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特性、酶的商业来源和参考文献,核酸序列分析-核酸基序位点分析,基序(motif 或称“模体”)具有特定功能意义的生物序列片段,如:原核生物 Pribnow框(10序列)TATAAT Sextama框(35序列)TTGACA真核生物 TATA框 TAT A CAAT框 GG CAATCT,AT,AT,CT,(TATAWAW),(GGYCAATCT),核酸序列分析-基因识别,1、ORF(开放阅读框)的识别,ORFOpen Reading Frame,在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的先决条件。,核酸序列分析-基因识别,1、ORF(开放阅读框)的识别,算法:a.起始密码子和终止密码子所夹区域 300bpb.选择跨度最大的c.六个阅读框都要进行扫描d.起始密码子可随物种不同而更改,核酸序列分析-基因识别,2、TestCode 测试编码,利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。,TestCode 0.95 编码序列0.74 TestCode 0.95 不能确定是否编码,核酸序列分析-基因识别,3、CpG岛 搜索,脊椎动物绝大多数基因的5端都存在CpG岛 CpG岛的判别方法:以每200个碱基为单位扫描DNA序列,如某个片段内胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。,核酸序列分析-核酸序列分析软件,常用的核酸序列分析软件:DNAsis(HITACHI)DNAmanDNAtoolsDNAstar密码子图表 密码子使用工具 CpG岛 DNA特征序列查找,DNA统计 ORF查找器 位置碱基频率 限制位点概要 碱基比例图 测试编码 翻译 sms/index.html,实践2:进入以下网站,初步学习分析Nosema bombycis在基因数据库里所有序列的DNA统计分析结果,DNA统计DNA统计返回输入序列的每种碱基与某些碱基组的个数与比例。,实践2:进入以下网站,初步学习分析Nosema bombycis在基因数据库里所有序列的DNA统计分析结果,蛋白质序列分析-基础概念,氨基酸残基的简并逻辑表示法-位置分隔符;允许此位置为括号内的任何一个残基;允许此位置为除了括号内所包括的任何一个残基;x 代表任何残基;x(3)代表任何3个氨基酸残基,,N-PT-GM-x(2)-ILVM,N-P-K-G-H-V,N-T-L-K-G-M,N-L-K-G-H-V,N-T-G-K-H-V,蛋白质序列分析-水解酶切点分析,CalpainLV YMR X,2,蛋白质序列分析-蛋白质基序位点分析,蛋白质motif:如蛋白质的磷酸化位点,糖基化位点等,GLYCO_HORMONE_ALPHA_1C-x-G-C-C-FY-S-R-A-FY-P-T-P,蛋白质motif数据库 PROSITEhttp:/www.expasy.org/prosite/,蛋白质序列分析-蛋白质特性分析,对20个氨基酸用物理化学的方法测定相关性质如:疏水性,蛋白质序列分析-蛋白质特性分析,“开窗”的概念,蛋白质序列分析-蛋白质特性分析,Window=1,Window=15,G P C R,蛋白质序列分析-蛋白质特性分析,蛋白质序列分析-蛋白质二级结构预测,GOR II 法预测结果,蛋白质序列分析蛋白质二级结构预测,五种蛋白质二级结构预测结果比较,蛋白质序列分析-蛋白质高级结构预测,蛋白质高级结构预测网址:http:/www.expasy.ch/swissmod/,蛋白质序列分析软件,专门用于蛋白质序列分析的软件较少大多集成在综合软件之中,Wonderful生物信息学系统的蛋白质序列分析功能:1、蛋白质特性分析2、蛋白质二级结构预测3、蛋白质水解酶切位点分析4、蛋白质基序位点分析,DNA、蛋白质序列同源分析及进化树构建,相似性与同源性,相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。可进行自身局部比较。如 Dot Plot(点阵序列比较)同源性指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。如 Alignment(同源性分析),推荐软件,相似性分析 Peptool Lite同源性分析Vector NTI 6-AlignXContig Express-DNA 序列片断拼接,序列联配(比对),Alignment 软件 CLUSTAL X,Vector NTI Suit 同源比较进化树,运行在UNIX平台的序列分析软件,GCG(Genetics Computer Group),中国生物信息学软件,1994 军科院 吴加金 GOLDKEY2000 基因探索者2001 WONDERFUL生物信息学系统2001 百奥引物设计2001 百奥计算机辅助疫苗设计,I think we can not get a Nobel prize by what we are doing,but the Nobel prize winners know what we are doing for.,Alan walking around the Genome Campus.Cambridge,5 Oct 2000,So,I will go to my death with smile.-Alan Bleasby,