第3章 概率密度函数估计ppt课件.ppt
《第3章 概率密度函数估计ppt课件.ppt》由会员分享,可在线阅读,更多相关《第3章 概率密度函数估计ppt课件.ppt(69页珍藏版)》请在三一办公上搜索。
1、,第三章 概率密度函数估计,计算机与通信工程学院,计算机与通信工程学院,模式识别,课前思考,为什么需要概率密度函数的估计?贝叶斯决策需要的已知信息贝叶斯分类器中只要知道先验概率,条件概率P(i),P(x|i),就可以设计分类器了存在问题: 未知概率密度函数未知类条件概率密度未知先验概率密度有一些训练数据,2022/12/22,概率密度估计基本知识,2,参数估计理论,3,概率论基本知识,1,第二章 概率密度函数估计,3,2022/12/22,非参数估计理论,4,4,2022/12/22,概率论基本知识,确定事件:概念是确定的,发生也是确定的;随机事件:概念是确定的,发生是不确定的;模糊事件:概念
2、本身就不确定。随机变量:随机事件的数量表示;离散随机变量:取值为离散的随机变量 ;连续随机变量:取值为连续的随机变量 ;,5,2022/12/22,频率和概率,频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A) = M / N;概率:当N很大时,频率会趋向一个稳定值,称为A的概率:,联合概率和条件概率,联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(A,B);条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B); 乘法定理: P(AB)=P(A|B)P(B) P(AB)=P(B|A)P(A) 推广到三个事
3、件:P(ABC)=P(A)P(B|A)P(C|AB),P(AB|C)=P(A|BC)P(B|C)?,P(AB|C)=P(A|BC)P(B|C)?,证明: 等式左边: 等式右边:,概率密度函数,概率分布函数:设X为连续型随机变量,定义分布函数: F(x) = P(Xx)概率密度函数:如果存在一个非负函数p(x)使得下式成立,则p(x)称为的概率密度函数:,全概率公式,互不相容事件:如果试验时,若干个随机事件中任何两个事件都不可能同时发生,则称它们是互不相容的。全概率公式:若事件只能与两两不相容的事件A1, A2, AN之一同时发生,则有:,贝叶斯公式,离散形式:A, B为离散随机变量:连续形式:
4、A为离散随机变量,B为连续随机变量:,12,2022/12/22,设计贝叶斯分类器的方法:,分类器功能结构,贝叶斯分类器中只要知道先验概率、条件概率或后验概概率 P(i),P(x/i), P(i /x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(i),P(x/i), P(i /x)。即给定一定数量的样本,去实现这些函数的估计,一参数估计与非参数估计参数估计:先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。(监督和非监督)非参数估计:不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。,二监督参数估计与非监督参数估
5、计监督参数估计:样本所属的类别及类条件总体概率概率密度函数的形式已知,而表征概率密度函数的某些参数是未知的。目的在于:由已知类别的样本集对总体分布的某些参数进行统计推断,此种情况下的估计问题称为监督参数估计。非监督参数估计:已知总体概率密度函数形式但未知样本所属类别,要求推断出概率密度函数的某些参数,称这种推断方法为非监督情况下的参数估计。注:监督与非监督是针对样本所属类别是已知还是未知而言的。,三. 参数估计的基本概念1. 统计量:样本中包含着总体的信息,总希望通过样本集把有关信息抽取出来。也就是说,针对不同要求构造出样本的某种函数,该函数称为统计量。2. 参数空间:在参数估计中,总假设总体
6、概率密度函数的形式已知,而未知的仅是分布中的参数,将未知参数记为 ,于是将总体分布未知参数 的全部可容许值组成的集合称为参数空间,记为 。3. 点估计、估计量和估计值:点估计问题就是构造一个统计量 作为参数 的估计 ,在统计学中称 为 的估计量。若 是属于类别 的几个样本观察值,代入统计量d就得到对于第i类的 的具体数值,该数值就称为 的估计值。,4. 区间估计:除点估计外,还有另一类估计问题,要求用区间 作为 可能取值范围得一种估计 ,此区间称为置信区间,该类估计问题称为区间估计。5. 参数估计方法:参数估计是统计学的经典问题,解决方法很多,在此只考虑两种常用方法:一种是最大似然估计方法,另
7、一种是贝叶斯估计方法。 (1) 最大似然估计:把参数看作是确定而未知的,最好的估计值是在获得实际观察样本的最大的条件下得到的。 (2)贝叶斯估计:把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。6. 参数估计的评价:评价一个估计的“好坏”,不能按一次抽样结果得到的估计值与参数真值 的偏差大小来确定,而必须从平均和方差的角度出发进行分析,即关于估计量性质的定义。,19,2022/12/22,问题假定: 待估参数是确定的未知量 按类别把样本分成M类X1,X2,X3, XM 其中第i类的样本共N个 Xi = (X1,X2, XN)T
8、 并且是独立从总体中抽取的 Xi中的样本不包含 (ij)的信息,所以可以对每一 类样本独立进行处理。 第i类的待估参数根据以上四条假定,我们下边就可以只利用第i类学习样本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。,一、最大似然,1.一般原则: 第i类样本的类条件概率密度: P(Xi|i)= P(Xi|ii) = P(Xi|i)原属于i类的学习样本为Xi=(X1 , X2 ,XN,)T i=1,2,M求i的极大似然估计就是把P(Xi|i)看成i的函数,求出使它极大时的i值。学习样本独立从总体样本集中抽取的 N个学习样本出现概率的乘积取对数 :,对i求导,并令它为0:有时上
9、式是多解的, 上图有5个解,只有一个解最大即.,P(Xi/i),最大似然估计示意图,上图显示了一维情况下的一些训练样本,服从一个方差已知,均值未知中间图显示了似然函数关于均值的函数图像,如果有非常多的训练样本,那么函数波形非常窄下图显示对数似然函数取得最大的点, 已知, 未知,估计 服从正态分布所以在正态分布时,代入上式得,所以,有,这说明未知均值的极大似然估计正好是训练样本的算术平均。,多维正态分布情况, , 均未知 A. 一维情况:n=1对于每个学习样本只有一个特征的简单情况: (n=1)由上式得 即学习样本的算术平均 样本方差,讨论: 1.正态总体均值的极大似然估计即为学习样本的算术平均
10、 2.正态总体方差的极大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。B多维情况:n个特征(推导过程,作为练习)估计值: 结论:的估计即为学习样本的算术平均 估计的协方差矩阵是矩阵 的算术 平均(nn阵列, nn个值),极大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本Xi的观察,通过贝叶斯准则将概率密度分布P(Xi|)转化为后验概率P(|Xi) ,进而求使得后验概率分布最大的参数估计,也称最大后验估计。估计步骤: 确定的先验分布P(),待估参数为随机变量。 用第i类样本xi=(x1, x2,. xN)T求出
11、样本的联合概率密度分布P(xi|),它是的函数。 利用贝叶斯公式,求的后验概率 ,二、贝叶斯估计,下面以正态分布的均值估计为例说明贝叶斯估计的过程: 一维正态分布:已知2,估计 假设概率密度服从正态分布 P(X|)=N(,2), P()=N(0,02) 第i类学习样本xi=(x1, x2,. xN)T, i=1,2,M 第i类概率密度P(x|i,xi)=P(x|xi) 所以由贝叶斯公式,则可得后验概率:,因为N个样本是独立抽取的,所以上式可以写成 其中 为比例因子,只与x有关,与无关 P(Xk| )=N(,2),P(u)=N(0,02) 其中a,a包含了所有与无关的因子,P(| Xi)是u的二
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第3章 概率密度函数估计ppt课件 概率 密度 函数 估计 ppt 课件
链接地址:https://www.31ppt.com/p-1870003.html