基于统计的自然语言处理的数学基础.ppt
2023/10/11,By Barbara Rosario,1,基于统计的自然语言处理的数学基础,初等概率理论,2023/10/11,2,动机,统计计算语言处理的目的在于以自然语言为处理对象进行统计推导统计推导包括两方面内容:收集自然语言词汇(或者其他语言单位)的分布情况根据这些分布情况进行统计推导,2023/10/11,3,动机,这类统计推理的例子之一就是语言的模型化(也就是说如何根据前面出现的词预测下一个词的出现)为此我们需要构造语言的模型概率理论能够帮助我们找到这样的模型,2023/10/11,4,概率理论,某事件发生的可能性有多少?样本空间 是一个随机试验所有可能的结果的集合事件 A 是的子集概率函数(或者概率分布),2023/10/11,5,先验概率与后验概率,先验概率(prior probability):在没有任何附加条件下的概率值后验概率(posterior probability):在某种先决条件下的概率值P(A|B),2023/10/11,6,条件概率,我们对于随机试验的结果有部分知识(或者约束条件)条件概率(或者后验概率)假设我们已知B为真那么在我们已知B为真的条件下A 为真的概率可以表示为:,2023/10/11,7,联合概率,A与B的联合概率argmaxBP(A|B)P(B)/P(A)=argmaxBP(A|B)P(B),2023/10/11,8,链规则,P(A,B)=P(A|B)P(B)=P(B|A)P(A)P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C.),2023/10/11,9,(条件)独立,两个事件 A 与 B 相互独立如果 P(A)=P(A|B)P(A,B)=P(A)*P(B)两个事件 A 与 B 是在条件C下相互条件独立如果:P(A|C)=P(A|B,C),2023/10/11,10,贝叶斯定理,Bayes Theorem是我们能够交换事件之间的条件依赖的顺序 由于 贝叶斯定理(Bayes Theorem):,2023/10/11,11,举例,S:脖子僵硬,M:脑膜炎P(S|M)=0.5,P(M)=1/50,000 P(S)=1/20我的脖子僵硬,得了脑膜炎的概率有多大?,2023/10/11,12,随机变量,对于不同的问题,样本空间的内容各不相同随机变量(Random variables)(RV)是我们能够讨论与样本空间相关的数值的概率值离散型随机变量连续型随机变量,2023/10/11,13,数学期望(Expectation),数学期望是一个随机变量的均值,2023/10/11,14,方差(Variance),一个随机变量的方差是该随机变量取值是否比较一致或者有很大差异的一个量度 是标准差(standard deviation),简称SD,2023/10/11,15,语言模型,对于语言这一事件来说P未知我们需要估算P,(换句话说,构造语言的概率模型 M)为估算P,我们必须看看在大规模真实文本中词的分布状况,2023/10/11,16,对P的估算,基于频度的统计贝叶斯统计,2023/10/11,17,基于频度的方法,相关频度(频率):事件 u 发生的次数与所有事件总次数的比率C(u)在N次实验中u 发生的次数当 相关频度逐渐稳定在某一个值上:即该事件的概率估计,2023/10/11,18,基于频度的方法,两种不同的方法有参数的方法(Parametric)无参数的方法(Non-parametric)(与分布无关),2023/10/11,19,有参数的方法,假设某种语言现象服从我们业已熟知的某种分布,如二元分布,正态分布,泊松分布等等我们已有明确的概率模型,现在需要确定该概率分布的一些参数。,2023/10/11,20,无参数的方法,对数据的分布没有预先的分布假设例如:仅仅通过最大相似度估计来估算P先验知识比较少,但需要大规模的训练数据,2023/10/11,21,二元分布(有参数),离散型随机试验的结果只有两个输出,各次随机试验相互独立 n 次随机试验,成功的次数为 r,每次试验成功的概率为 p:,2023/10/11,22,泊松分布(有参数),离散型泊松分布:一个参数在某一固定大小的范围(或者时间段)内,某种特定类型事件的分布,例如:在一个篇幅内出现的打字错误,在一页内的某个词的分布等等,2023/10/11,23,连续型 两个参数:均值 与标准差 汉字的笔画数与该笔画对应的汉字的个数符合正态分布,正态分布(高斯分布)(有参数),2023/10/11,24,基于频度的统计,D:数据M:模型(distribution P):参数(如,)最大可能性估计:选择 使得,2023/10/11,25,基于频度的统计,通过比较最大相关度来选择模型,2023/10/11,26,小结,基于频度的统计有参数的方法几种常用的分布:二元分布(离散)泊松分布(离散)正态分布(高斯分布)(连续)无参数的方法贝叶斯统计,2023/10/11,27,贝叶斯统计,贝叶斯统计的实质是可信度数量化 可信度是这样计算出来的:有先验的知识根据数据应用贝叶斯定理更新知识,2023/10/11,28,贝叶斯统计,2023/10/11,29,贝叶斯统计(bypass),M 是一个概率分布;为了充分描述这一模型,我们需要分布 M 和参数,2023/10/11,30,Frequentist vs.Bayesian(bypass),BayesianFrequentist,2023/10/11,31,贝叶斯更新,起点:先验的概率分布P(M),当新的数据到来后,根据贝叶斯公式计算P(M|D).P(M|D)成为新的概率模型如此反复,2023/10/11,32,贝叶斯决策,假设我们有两个模型 和;我们需要决定哪一个更好(更加符合实际的数据)较 更优,2023/10/11,33,信息论概述,信息论由香农与20世纪40年代提出X:是一个离散型随机变量,p(X)熵的定义熵是信息量的量度(不确定性的程度,复杂程度),2023/10/11,34,熵(entropy),也就是说,如果结果是确定性的,那么信息源没有提供任何信息,2023/10/11,35,联合熵,两个随机变量 X,Y的联合熵:确定随机变量X与Y的值所需的平均信息量,2023/10/11,36,条件熵,给定另一个随机变量X,随机变量Y的条件熵描述了,2023/10/11,37,Chain Rule,2023/10/11,38,Mutual Information,I(X,Y)随机变量与的互信息,知道另一个随机变量()之后,对随机变量()的不确定性减少了多少的量度,或者一个随机变量包含另一个随机变量的信息量,2023/10/11,39,Mutual Information(cont),I等于 0当且仅当,独立H(X|Y)=H(X)H(X)=H(X)-H(X|X)=I(X,X)熵是自信息,2023/10/11,40,熵与计算语言学,熵是不确定性的量度,我们对事物了解得越多它的熵就越小如果一个语言模型更加精确地描述了语言的结构,那么它的熵应该越低.我们能够使用熵作为衡量我们语言模型的质量的参数,2023/10/11,41,熵与计算语言学Kullback-Leibler Divergence,相关熵(KL(Kullback-Leibler距离),2023/10/11,42,熵与计算语言学,衡量了两种概率分布的差别目的:是相关熵最小化已得到更为精确的模型,2023/10/11,43,噪声信道模型,