卷积神经网络全面解析.docx
《卷积神经网络全面解析.docx》由会员分享,可在线阅读,更多相关《卷积神经网络全面解析.docx(8页珍藏版)》请在三一办公上搜索。
1、卷积神经网络全面解析卷积神经网络全面解析 一、介绍 这个文档讨论的是CNNs的推导和实现。CNN架构的连接比权值要多很多,这实际上就隐含着实现了某种形式的规则化。这种特别的网络假定了我们希望通过数据驱动的方式学习到一些滤波器,作为提取输入的特征的一种方法。 本文中,我们先对训练全连接网络的经典BP算法做一个描述,然后推导2D CNN网络的卷积层和子采样层的BP权值更新方法。在推导过程中,我们更强调实现的效率,所以会给出一些Matlab代码。最后,我们转向讨论如何自动地学习组合前一层的特征maps,特别地,我们还学习特征maps的稀疏组合。 二、全连接的反向传播算法 典型的CNN中,开始几层都是
2、卷积和下采样的交替,然后在最后一些层,都是全连接的一维网络。这时候我们已经将所有两维2D的特征maps转化为全连接的一维网络的输入。这样,当你准备好将最终的2D特征maps输入到1D网络中时,一个非常方便的方法就是把所有输出的特征maps连接成一个长的输入向量。然后我们回到BP算法的讨论。 2.1、Feedforward Pass前向传播 在下面的推导中,我们采用平方误差代价函数。我们讨论的是多类问题,共c类,共N个训练样本。 这里表示第n个样本对应的标签的第k维。表示第n个样本对应的网络输出的第k个输出。对于多类问题,输出一般组织为“one-of-c”的形式,也就是只有该输入对应的类的输出节
3、点输出为正,其他类的位或者节点为0或者负数,这个取决于你输出层的激活函数。sigmoid就是0,tanh就是-1. 因为在全部训练集上的误差只是每个训练样本的误差的总和,所以这里我们先考虑对于一个样本的BP。对于第n个样本的误差,表示为: 传统的全连接神经网络中,我们需要根据BP规则计算代价函数E关于网络每一个权值的偏导数。我们用l来表示当前层,那么当前层的输出可以表示为: 输出激活函数f(.)可以有很多种,一般是sigmoid函数或者双曲线正切函数。sigmoid将输出压缩到0, 1,所以最后的输出平均值一般趋于0 。所以如果将我们的训练数据归一化为零均值和方差为1,可以在梯度下降的过程中增
4、加收敛性。对于归一化的数据集来说,双曲线正切函数也是不错的选择。 2.2、Backpropagation Pass反向传播 反向传播回来的误差可以看做是每个神经元的基的灵敏度sensitivities,定义如下: 因为u/b=1,所以E/b=E/u=,也就是说bias基的灵敏度E/b=和误差E对一个节点全部输入u的导数E/u是相等的。这个导数就是让高层误差反向传播到底层的神来之笔。反向传播就是用下面这条关系式: 公式 这里的“”表示每个元素相乘。输出层的神经元的灵敏度是不一样的: 最后,对每个神经元运用delta规则进行权值更新。具体来说就是,对一个给定的神经元,得到它的输入,然后用这个神经元
5、的delta来进行缩放。用向量的形式表述就是,对于第l层,误差对于该层每一个权值的导数是该层的输入与该层的灵敏度的叉乘。然后得到的偏导数乘以一个负学习率就是该层的神经元的权值的更新了: 公式 对于bias基的更新表达式差不多。实际上,对于每一个权值(W)ij都有一个特定的学习率Ij。 三、Convolutional Neural Networks 卷积神经网络 3.1、Convolution Layers 卷积层 我们现在关注网络中卷积层的BP更新。在一个卷积层,上一层的特征maps被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出特征map。每一个输出map可能是组合卷积多个
6、输入maps的值: 这里Mj表示选择的输入maps的集合,那么到底选择哪些输入maps呢?有选择一对的或者三个的。但下面我们会讨论如何去自动选择需要组合的特征maps。每一个输出map会给一个额外的偏置b,但是对于一个特定的输出map,卷积每个输入maps的卷积核是不一样的。也就是说,如果输出特征map j和输出特征map k都是从输入map i中卷积求和得到,那么对应的卷积核是不一样的。 3.1.1、Computing the Gradients梯度计算 我们假定每个卷积层l都会接一个下采样层l+1 。对于BP来说,根据上文我们知道,要想求得层l的每个神经元对应的权值的权值更新,就需要先求层
7、l的每一个神经节点的灵敏度)。为了求这个灵敏度我们就需要先对下一层的节点的灵敏度求和,然后乘以这些连接对应的权值W。再乘以当前层l的该神经元节点的输入u的激活函数f的导数值的l的求解),这样就可以得到当前层l每个神经节点对应的灵敏度l了。 然而,因为下采样的存在,采样层的一个像素对应的灵敏度对应于卷积层的输出map的一块像素。因此,层l中的一个map的每个节点只与l+1层中相应map的一个节点连接。 为了有效计算层l的灵敏度,我们需要上采样upsample 这个下采样downsample层对应的灵敏度map,这样才使得这个灵敏度map大小与卷积层的map大小一致,然后再将层l的map的激活值的
8、偏导数与从第l+1层的上采样得到的灵敏度map逐元素相乘)。 在下采样层map的权值都取一个相同值,而且是一个常数。所以我们只需要将上一个步骤得到的结果乘以一个就可以完成第l层灵敏度的计算。 我们可以对卷积层中每一个特征map j重复相同的计算过程。但很明显需要匹配相应的子采样层的map): up(.)表示一个上采样操作。如果下采样的采样因子是n的话,它简单的将每个像素水平和垂直方向上拷贝n次。这样就可以恢复原来的大小了。实际上,这个函数可以用Kronecker乘积来实现: 好,到这里,对于一个给定的map,我们就可以计算得到其灵敏度map了。然后我们就可以通过简单的对层l中的灵敏度map中所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 卷积 神经网络 全面 解析
链接地址:https://www.31ppt.com/p-3349141.html