概率密度估计.ppt
《概率密度估计.ppt》由会员分享,可在线阅读,更多相关《概率密度估计.ppt(52页珍藏版)》请在三一办公上搜索。
1、第三章 概率密度函数的估计,首先根据样本估计,然后用估计的概率密度设计贝叶斯分类器。(基于样本的)两步贝叶斯决策,一种很自然的想法:,希望:当样本数N 时,如此得到的分类器收敛于理论上的最优解。,重要前提:训练样本的分布能代表样本的真实分布,所谓 条件 有充分的训练样本,本章研究内容:如何利用样本集估计概率密度函数?估计量的性质如何?如何根据样本集估计错误率?,估计概率密度的两种基本方法:参数方法(parametric methods)非参数方法(nonparametric methods),3.2 参数估计的基本概念和方法(part1),参数估计(parametric estimation)
2、:已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。,几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计参数空间(parametric space):待估计参数的取值空间 估计量(estimation):,3.2.1 最大似然估计(Maximum Likelihood Estimation),假设条件:参数 是确定的未知量,(不是随机量),各类样本集 中的样本都是从密度为 的总体中独立抽取出来的,(独立同分布,i.i.d.),具有某种确定的函数形式,只其参数 未知,各类样本只包含本类分布的信息,其中,参数 通常是向量,比如一维正态分布,
3、未知参数可能是,鉴于上述假设,我们可以只考虑一类样本,记已知样本为,似然函数(likelihood function),在参数 下观测到样本集X 的概率(联合分布)密度,基本思想:如果在参数 最大,则 应是“最可能”的参数值,它是样本集的函数,记作 称作最大似然估计量。,为了便于分析,还可以定义对数似然函数,上述假设2:样本是独立抽取的,求解:若似然函数满足连续可微的条件,则最大似然估计量就是方程,的解(必要条件)。,若未知参数不止一个,即,记梯度算子,则最大似然估计量的必要条件由S 个方程组成:,讨论:,如果 连续可导,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。(比
4、如多元正态分布)。如果必要条件有多解,则需从中求似然函数最大者若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例),最大似然估计示例,以单变量正态分布为例,样本集,似然函数,对数似然函数,最大似然估计量 满足方程,而,得方程组,解得,可见,样本的选择是多么重要,3.2 参数估计的基本概念和方法(part2),3.2.2 贝叶斯估计和贝叶斯学习,(一)贝叶斯估计 思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。思考题:请课后与贝叶斯决策比较,基本思想:把待估计参数 看作具有先验分布p()的随机变量,其取值与样本集X 有关,根据样本集 估计。,损失函数:把 估计为 所造
5、成的损失,记为,期望风险:,条件风险:,最小化期望风险 最小化条件风险(对所有可能的x),有限样本集下,最小化经验风险:,贝叶斯估计量:(在样本集X 下)使条件风险(经验风险)最小的估计量。,离散情况:损失函数表(决策表)连续情况:损失函数,常用的损失函数:,(平方误差损失函数),定理3.1 如果采用平方误差损失函数,则 的贝叶斯估计量 是在给定x 时 的条件期望,即,同理可得到,在给定样本集X 下,的贝叶斯估计是:,自学证明过程,求贝叶斯估计的方法:(平方误差损失下),(1)确定 的先验分布 p(),(2)求样本集的联合分布,(3)求 的后验概率分布,(4)求 的贝叶斯估计量,同时还可求得,
6、(考虑到我们最终的目的是求p(x)),讨论:设 的最大似然估计为,则在 很可能有一尖峰,若此,则 即贝叶斯估计结果与最大似然估计结果近似相等。,处,在 尖峰之外的区域可以忽略的话,则由上式,(二)贝叶斯学习,考虑学习样本个数N,记样本集,N 1时有,代入第3步,因此有递推后验概率公式:,则随着样本数增多,可得后验概率密度函数序列:,参数估计的递推贝叶斯方法(Recursive Bayes Incremental Learning),样本独立抽取,如果此序列收敛于以真实参数值为中心的 函数,则称样本分布具有贝叶斯学习(Bayesian Learning)性质。此时,由先验分布p()和样本信息(似
7、然函数)p(X|)求出 的后验分布p(|X),然后直接求样本总体分布,的做法称作贝叶斯学习。,估计量的性质与评价标准 无偏性、有效性和一致性,无偏性:,渐近无偏性:,有效性:对估计 和,若方差 则 更有效,一致性:,无偏性和有效性:对于多次估计,估计量能以较小的方差平均地表示真实值。一致性:当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。,3.3 正态分布的监督参数估计 以正态分布为例说明上节介绍的参数估计方法,3.3.1 最大似然估计示例,3.3.2 贝叶斯估计和贝叶斯学习示例,(一)贝叶斯估计,一般情况下,,特例:,(二)贝叶斯学习,3.4 非监督参数估计 以上讨论的是监督参数估
8、计,即已知各样本的类别,根据各类样本集估计本类的概率密度函数中的参数。非监督参数估计指样本类别未知,但各类条件概率密度函数的形式已知,根据所有样本估计各类密度函数中的参数。本节只介绍非监督最大似然估计的思路,3.4.1 非监督参数估计的最大似然法,(一)假设条件:,1.样本集 中的样本属于C 个类别,但不知各样本属哪类,2.类先验概率 已知,3.类条件概率密度形式已知,4.未知仅是c 个参数向量 的值 所有未知参数组成的向量记为,(二)似然函数,混合密度,分量密度:类条件密度,混合参数:先验概率(有时也可未知,一起参与估计),设样本集X 中的样本是从混合密度为p(x|)的总体中独立抽取的,即满
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 密度 估计
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6475357.html