统计语言模型及数据平滑技术.ppt
《统计语言模型及数据平滑技术.ppt》由会员分享,可在线阅读,更多相关《统计语言模型及数据平滑技术.ppt(60页珍藏版)》请在三一办公上搜索。
1、统计语言模型,刘杰,2,主要内容,概述 数学建模一.统计语言模型概述二.现有的主要统计语言模型三.数据平滑方法,3,概述,我们为什么需要统计语言模型?统计语言模型出现的历史:1、从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的第13届国际计算语言学大会(Coling90)。2、1992年在蒙特利尔召开的第4届机器翻译的理论和方法国际会议(TMI-92)宣布大会的主题是:“机器翻译中的经验主义和理性主义方法”。公开承认,在传统的基于语言学和人工智能方法的自然语言处理技术以外,还有一种基于语料库和统计语言模型的新方法正在迅速崛起。,4,概述,
2、首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克(Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假(Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。,5,概述,历史上曾经先后出现过两个方法迥异的英语词性标注系统:TAGGIT系统拥有3000条上下文相关规则,而CLAWS系统6完全采用概率统计方法。两个系统各自完成了100万词次的英语语料
3、库的自动词性标注任务。评则结果表明,采用概率统计方法的CLAWS系统的标注精度达到96%,比TAGGIT系统提高了近20个百分点。,6,语言建模,从统计角度看,自然语言中的一个句子s可以 由任何词串构成。不过P(s)有大有小。如:s1=我刚吃过晚饭 s2=刚我过晚饭吃(并不要求语法是完备的,可对任意s给出概率)P(s1)P(s2)对于给定的句子s而言,通常P(s)是未知的。对于一个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。,7,语言建模,根据语言样本估计出的概率分布P就称为语言L的语言模 型。语言建模技术首先在语音识别研究中提出,后来陆续用 到OCR、手写体
4、识别、机器翻译、信息检索等领域。在语音识别中,如果识别结果有多个,则可以根据语言 模型计算每个识别结果的可能性,然后挑选一个可能性 较大的识别结果。汉语切分歧义消解?(借助语言模型),8,一、统计语言模型概述,设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2wi-1,便可以用条件概率P(wi|wi-2wi-1)来预测wi出现的概率。这就是统计语言模型的概念。,9,一、统计语言模型概述,“John read a _”给定一个句子中前面n-1个词,预测下面的词是哪个词。由于语言的规律性,句子中前面出现的词对后面可能出现的词有很强的预示作用。,10,一、现有的主要统计语言模型,对
5、于二元模型:,对于一个句子出现的概率可用下式估计(链式规则):,我们引进一个起始词,11,概率p(wi|wi-1)一般采用最大相似度估计的方法估计:,12,1、n-gram,为了便于计算,通常考虑的历史不能太长,一般只考虑前面n-1个词构成的历史。即:,13,1、n-gram,“the large green _.”“mountain”?“tree”?“Sue swallowed the large green _.”“pill”?“broccoli”?如果知道“Sue swallowed”会缩小可选择的下一个词的范围。如何选择n?,14,1、n-gram,n 较大时 提供了更多的语境信息,语
6、境更具区别性 但是,参数个数多、计算代价大、训练语料需要多、参数估计不可靠。n 较小时 语境信息少,不具区别性 但是,参数个数少、计算代价小、训练语料无需太多、参数估计可靠。,15,1、n-gram语言模型,一般来说,如果用变量s代表文本中一个任意的词序列,它由顺序排列的L个词组成,即s=w1w2.wL,则统计语言模型就是该词序列s在文本中出现的概率P(s)利用概率的乘积公式,P(s)可展开为:,不难看出,为了预测词wn的出现概率,必须知道它前面所 有词的出现概率。从计算上来看,这种方法太复杂了。,16,统计语言模型有点像天气预报中使用的概率方法,用来估计概率参数的大规模语料库好比是一个地区历
7、年积累起来的气象记录。而用三元模型来做天气预报,就好比是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百准确,但是我们大概不会因此就全盘否定这种实用的概率方法.,17,三元模型(或一般的N元模型)只利用了语言的表层信息(或知识),即符号(字、词、词性标记等)序列的同现信息。不能说它是十全十美的。在这一领域中,下一个研究目标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语言理解是了不起的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事实。问题是目前国内外还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此,对于世界各国的语言来说,当前的
8、主流技术仍是语料库方法和统计语言模型。,18,1、n-gram语言模型,计算量:设词表里共有V个不同的词,共有 个不同的N-1元组,对于每个分布,又必须估算V个参数,因此共需估算出 个参数。若V=10000,N=3,则必须计算出1012个参数。因此N不能取得太大,一般取2或3。,19,1、n-gram,unigram(n=1)p(wi)若语言中有20000个词,则需要估计20000个参数bigram(n=2)p(wi|wi-1)若语言中有20000个词,则需要估计200002个参数trigram(n=3)p(wi|wi-2wi-1)若语言中有20000个词,则需要估计200003个参数four
9、-gram(n=4)很少使用、不太现实(有时也称为digram或quadrigram),20,1、n-gram语言模型,二元、三元及n元模型的公式表示:tri-gram:如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型,bi-gram:假设当前词的出现概率仅与前一个词有关,句子的概率可以表示为,21,1.n-gram语言模型,式中c(.)表示一个特定词序列在整个语料库中出现的累计次数。,n-gram:一般来说,n元模型就是假设当前词的出现概率只同它前面的n-1个词有关。,重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元、二元
10、概率有,22,1、n-gram语言模型举例,两个概念:训练语料(training data):用于建立模型的给定语料。最大似然估计(maximum likelihood,ML):用相对频率 计算概率的公式。例如,给定训练语料:“John read Moby Dick”,“Mary read a different book”,“She read a book by Cher”求”John read a book”的二元文法的概率.,23,1、n-gram语言模型举例,24,1、n-gram语言模型举例,句子的概率表现为若干bigram参数的乘积,若句子 太长,计算时,会引起下溢(underfl
11、ow),可以采用 取对数并相加的方式。Ln(P(JOHN READ A BOOK)=Ln(p(JOHN|)+Ln(p(READ|JOHN)+Ln(p(A|READ)+Ln(p(BOOK|A)+Ln(p(|BOOK)=Ln(1/3)+Ln(1)+Ln(2/3)+Ln(1/2)+Ln(1/2)=-2.8902,25,1、建立n-gram,数据准备:确定训练语料 对语料进行tokenization 或切分句子边界,增加两个特殊的词和 I eat.I eat.I sleep.I sleep.参数估计 利用训练语料,估计模型参数,26,1、建立n-gram(最大似然估计(MLE)),令c(w1,.,wn
12、)表示n-gram w1,.,wn 在训练语料中出 现的次数。则,27,1.n-gram语言模型应用,1.1 语音识别语音识别作为计算机汉字输入的另一种方式越来越受到业内人士的青睐。所谓听写机就是语音识别的一种商品。那么当前商品化的听写机采用的是什么技术呢?其实,语音识别任务可视为对以下条件概率极大值的计算问题:s*=argmaxs P(s|speech signal)=argmaxs P(speech signal|s)P(s)/P(speech signal)=argmaxs P(speech signal|s)P(s)式中数学符号argmaxs 表示对不同的候选词序列s计算条件概率P(s
13、|speech signal)的值,从而使s*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。,28,1.n-gram语言模型应用,公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|s)比较容易估值。公式的分母P(speech signal)对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在公式第三行所示的结果中,P(s)叫做统计语言模型;P(speech signal|s)叫做声学模型。据调查,目前市场上中文和英文的听写机产品都是用词的三元模型实现的,几乎完全不用句法-语义分析手段。如同汉语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 语言 模型 数据 平滑 技术

链接地址:https://www.31ppt.com/p-5299787.html