生物信息学实验.ppt
《生物信息学实验.ppt》由会员分享,可在线阅读,更多相关《生物信息学实验.ppt(55页珍藏版)》请在三一办公上搜索。
1、2023/5/29,1,生物信息学实验,实验2 隐马尔科夫模型,上海交通大学生命科学技术学院生物信息学与生物统计学系,2023/5/29,2,生物学中常用的统计模型,Structured probability modelsMarkov modelsHidden markov modelsArtificial Neural Network(A.N.N),2023/5/29,3,Introduction,Hidden Markov Models(HMMs)最早是在上个世纪60年代末70年代初提出来的。进入80年代以后,逐渐被利用在各个领域。,2023/5/29,4,Introduction,Hi
2、dden Markov Models 作为一种强有力的统计学模型,主要被应用在一些连续行的或时间延续性的事件建模上语音识别系统。生物学中的DNA/protein序列的分析机器人的控制。文本文件的信息提取。,2023/5/29,5,HMM的优点,1,它的数学结构非常丰富,适用于各个领域的研究。2,在很多领域中,已经证明它的结果和实际符合的相当好。,2023/5/29,6,Probability Review,2023/5/29,7,独立事件概率,设想我们做一连串的实验,而每次实验所可能发生的结果定为 E1,E2,En,。(可能是有限也可能是无限)。每一个结果 Ek,如果给定一个出现的可能性 pk
3、(即概率),则某一特定样本之序列 Ej1 Ej2 Ejn出现的概率为 p(Ej1 Ej2 Ejn)=pj1 Pjn。,2023/5/29,8,马尔科夫链,一般及常用的统计中,彼此相互独立大概是最有用的一个观念。用简单的术语來说,互相独立就是彼此毫不相干,一点牵涉都沒有。但是实际生活中很多事件是相互关联的不是互相独立也就是相互关联的意思,但是要怎样相关呢?如何在相关中作一些简单的分类呢?马尔科夫链就是要描述在相关这个概念中最简单的一种。但即使如此,有关马可夫链的理论已经相当丰富了。在概率理论中,它几乎占了绝大的部分。,2023/5/29,9,马尔科夫链,在马尔科夫链中考虑最简单的相关性。在在这种
4、情况下,我们不能给任一个事件 Ej 一個概率 pj 但我们给一对事件(Ej,Ek)一個概率 pjk,这个时候 pjk 的解释是一种条件概率,就是假设在某次实验中 Ej 已经出现,而在下一次实验中 Ek 出现的概率。除了 pjk 之外,还需要知道第一次实验中 Ej 出現的機率 aj。有了这些资料后,一個样本序列 Ej0 Ej1 Ejn(也就是说第零次实验结果是Ej0,第一次一次是 Ej1第 n 次实验是 Ejn)的概率就很清楚的是 P(Ej0,Ej1,Ejn)=aj pj0j1 pj1j2 pjn-1jn。,2023/5/29,10,隐马尔科夫模型,但是在大多数情况下我们所观察到的值并不是序列本
5、身的元素。即观察值不等于状态值。故我们引入隐马尔科夫模型。,2023/5/29,11,定义,一个HMM 是一个五元组:(X,O,A,B,)其中:X=q1,.qN:状态的有限集合 O=v1,.,vM:观察值的有限集合 A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率 B=bik,bik=p(Ot=vk|Xt=qi):输出概率=i,i=p(X1=qi):初始状态分布,2023/5/29,12,假设,对于一个随机事件,有一个观察值序列:O1,.,OT该事件隐含着一个状态序列:X1,.,XT假设1:马尔可夫假设(状态构成一阶马尔可夫链)p(Xi|Xi-1X1)=p(Xi|Xi-1)假设2
6、:不动性假设(状态与具体时间无关)p(Xi+1|Xi)=p(Xj+1|Xj),对任意i,j成立假设3:输出独立性假设(输出仅与当前状态有关)p(O1,.,OT|X1,.,XT)=p(Ot|Xt),2023/5/29,13,马尔科夫链 Vs 隐马尔科夫模型,Markov chains have entirely observable states.However a“Hidden Markov Model”is a model of a Markov Source which admits an element each time slot depending upon the state.Th
7、e states are not directly observed,2023/5/29,14,Problems,令=A,B,为给定HMM的参数,令=O1,.,OT 为观察值序列,隐马尔可夫模型(HMM)的三个基本问题:评估问题:对于给定模型,求某个观察值序列的概率p(|);forward algorithm解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;viterbi algorithm学习问题:对于给定的一个观察值序列,调整参数,使得观察值出现的概率p(|)最大。Forward-backward algorithm,2023/5/29,15,Solutions,Evaluati
8、on problem:forward algorithm定义向前变量采用动态规划算法,复杂度O(N2T)Decoding problem:Viterbi algorithm采用动态规划算法,复杂度O(N2T)Learning problem:forward-backward algorithmEM算法的一个特例,带隐变量的最大似然估计,2023/5/29,16,Struct HMM,typedef struct/*number of states;Q=1,2,.,N*/int N;/*number of observation symbols;V=1,2,.,M*/int M;/*A1.N1.
9、N.aij is the transition prob of going from state i*at time t to state j at time t+1*/double*A;/*B1.N1.M.bjk is the probability of observing symbol k in state j*/double*B;/*pi1.N pii is the initial state distribution.*/double*pi;HMM;,2023/5/29,17,算法:向前算法(1),算法:向前算法(2),定义前向变量为HMM在时间t输出序列O1Ot,并且位于状态Si的
10、概率:,2023/5/29,19,算法:向前算法(3),迭代公式为:,结果为:,2023/5/29,20,Forward algorithm,算法:向后算法(1),2023/5/29,22,算法:Viterbi算法(1),The Viterbi algorithm is a dynamic programming algorithm that computes the most likely state transition path given an observed sequence of symbols.It is actually very similar to the forward
11、 algorithm。,2023/5/29,23,Viterbi algorithm,2023/5/29,24,Viterbi in c,/*1.Initialization*/for(i=1;i N;i+)delta1i=phmm-pii*(phmm-BiO1);psi1i=0;/*2.Recursion*/for(t=2;t N;j+)maxval=0.0;maxvalind=1;for(i=1;i N;i+)val=deltat-1i*(phmm-Aij);if(val maxval)maxval=val;maxvalind=i;deltatj=maxval*(phmm-BjOt);ps
12、itj=maxvalind;,2023/5/29,25,生物学中的数学模型,2023/5/29,26,马氏链,2023/5/29,27,马氏链,2023/5/29,28,马氏链,2023/5/29,29,隐马可夫模型,2023/5/29,30,隐马可夫模型,2023/5/29,31,隐马可夫模型 profile,2023/5/29,32,Related software,HMMERSAM(Sequence Alignment and Modeling System)HMMproA windows version for HMM The Division of Biomedical Inform
13、atics at Cincinnati Childrens Hospital Medical Center metaMEME:A motif based Hidden Markov Model,2023/5/29,33,HMMER,Profile hidden Markov models(profile HMMs)can be used to do sensitive database searching using statistical descriptions of a sequence familys consensus.HMMER is a freely distributable
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 实验

链接地址:https://www.31ppt.com/p-5016166.html