理解玻尔兹曼机和深度学习课件.ppt
《理解玻尔兹曼机和深度学习课件.ppt》由会员分享,可在线阅读,更多相关《理解玻尔兹曼机和深度学习课件.ppt(39页珍藏版)》请在三一办公上搜索。
1、理解玻尔兹曼机和深度学习,侯越先天津大学网络智能信息技术研究所2014-11-03,1,动机,解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功启发面向维数约简、信息抽象和去噪应用的新颖方法和模型,2,存在的解释,神经生理解释通用近似解释(可近似性和近似复杂性)规则化解释,3,我们的观点,现有解释中包含了有益的启发现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清信息几何为形式化解释提供了理论工具,4,维数约简、信息抽象和去噪的“第一原则”,第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息“第一原则”能否被一般地实现?,
2、5,存在的方法,常用维数约简、信息抽象和去噪算法实现了“第一原则”吗?例子:PCA例子:低通滤波,6,反思,基于特征空间的模型似乎都建议在特定先验假设之上为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间,7,我们的基本思路,考虑数据的参数空间!一般地定义生成模型的参数的相对重要性根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪,8,例子:log-linear分布族与高斯分布,9,满足,参数约减!,关键技术问题,如何一般地定义参数的相对重要性?解决方案:1 定义概率分布或密度之间的距离度量 2 由参数相对于距离度量的重要性给出参数之间的相对重要性,10,度
3、量概率分布(或密度)之间距离的“公理”,1 满足基本的度量三公理2 似然一致性:可有效反映统计推断的似然性,11,度量概率分布(或密度)之间距离的“公理”(续1),3 重参数化不变性 对于概率分布(或密度)和的任两种参数化和,均有 这里是距离度量,12,度量概率分布(或密度)之间距离的“公理”(续2),4 相对于变量集上的随机映像的单调性:(1)如果随机映像对应于充分统计量,则距离度量不变(2)否则,距离度量减小,13,是否存在同时满足上述所有公理的距离度量?,存在且唯一!里程碑:1 Fisher(Early 1930)2 Rao(1945)3 Cencov(1982),14,Fisher-R
4、ao度量,单参数定义多参数定义,15,Fisher-Rao距离(信息距离),局域定义:全局定义:,16,Cramer-Rao下界与Fisher-Rao度量的似然一致性,Fisher信息决定了参数无偏估计的方差下界 单参数情形 多参数情形由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性),17,参数约简基本思路(Refined),1 特征空间-参数空间2 利用参数的Fisher信息,定义参数的相对重要性3 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪可信信息优先原则(Confident Information Fi
5、rst)!,18,实例:n布尔变量分布,个布尔型随机变量个布尔型随机变量的参数化中的任意项,这里表示,其余类似如何对上述分布应用CIF原则?,19,实例:n布尔变量分布(续1),技术困难:各个p参数具有相等的Fisher信息解决办法:寻找替换的参数表示(利用信息几何),20,实例:n布尔变量分布(续2),布尔变量分布的坐标表示(即参数化)坐标:-1个归一化的正数坐标:坐标:,21,实例:n布尔变量分布(续3),混合坐标:(l-分割混合坐标)在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次结构,且低Fisher信息含量的参数可自然地确定中立值!,22,玻尔兹曼机与n布尔变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 理解 玻尔兹曼机 深度 学习 课件
链接地址:https://www.31ppt.com/p-3631700.html