2019深度学习方法及应用.docx
深度学习方法及应用目录1引言11.1 深度学习的定义与背景21.2 本书的结构安排52深度学习的历史73三类深度学习网络173.1 三元分类方式183.2 无监督和生成式学习深度网络193.3 监督学习深度网络233.4 混合深度网络254深度自编码器种无监督学习方法294.1 弓I言304.2 利用深度自编码器来提取语音特征304.3 堆叠式去噪自编码器374.4 转换自编码器375预训练的深度神经网络种混合方法395.1 受限玻尔兹曼机405.2 无监督逐层预训练435. 3DNN和HMM结合456深度堆叠网络及其变形有监督学习476.1 简介486.2 深度堆叠网络的基本结构496.3 一种学习DSN权值的方法506.4 张量深度堆叠网络516.5核化深度堆叠网络547语音和音频处理中的应用591.1 语音识别中声学模型的建立601.2 语音合成761.3 音频和音乐处理778在语言模型和自然语言处理中的相关应用798 .1语言模型809 .2自然语言处理849信息检索领域中的应用939.1 信息检索简介949.2 用基于深度自编码器的语义哈希方法对文档进行索引和检索959.3 文档检索中的深度结构语义模型959.4 信息检索中深度堆叠网络的应用10110在目标识别和计算机视觉中的应用1031.1 1无监督或生成特征学习1041.2 有监督特征学习和分类10611多模态和多任务学习中的典型应用11311.1 多模态:文本和图像11411.2 多模态:语音和图像11811.3 在语音、自然语言处理或者图像领域的多任务学习12012结论125附录1291. 1深度学习的定义与背景2006年,深度结构学习(经常被称作深度学习或分层学习)作为机器学习研究的一个新的领域出现了12°J63)"在过去的几年里由深度学习发展而来的一些科学技术对信号和信息处理的各个方面都产生了深远的影响这种影响不仅存在于传统领域也存在于诸如机器学习和人工智能等一些里要的新兴领域中;对于此类研究文献”20.24.77.94.161.412迸行了概述,媒体报道237也有所涉及,近年来很多研讨会、教程、期刊专刊或专就会议都对深度学习及其在信号和信息处理中的各种应用进行了专门的研讨活动其中包括- 2008年NIPS(NeuralInformationProcessingSystems,神经信息处理系统)深度学习研讨会(2008NIPSDeepLearningWorkshop);- 2009年NIPS关于深度学习的语音识别及相关应用的研讨会(2009NIPSWorkshoponDeepLearningforSpeechRecognitionandRelatedApplications);- 2009年国际机器学习大会(IntematiOnalConferenceonMachineLearning,ICML)关于学习特征的研讨会(2009ICMLWorkshoponLearningFeatureHierarchies);- 2011年国际机器学习大会关于语音和视觉信息处理中学习架构、表示和最优化的研讨会(20IllCMLWorkShoPOnLearningArChiteCtUres,Representations,andOptimizationforSpeechandVisualInformationProcessing);- 2012年ICASSP(InternationalConferenceonAcoustics,SpeechandSignalProcessing,国际声学,语音与信号处理会议)关于在信号和信息处理中深度学习应用的研讨会(2012ICASSPTutorialonDeepLearningforSignalandInformationProcessing);- 2012年国际机器学习大会关于学习表示的研讨会(2012ICMLWorkshoponRepresentationLearning);- 2012年IEEE音频、语音和语言处理(T-ASLP,1月)会刊中有关语音和语言处理中深度学习专栏(2012SpecialSectiononDeepLearningforSpeechandLanguageProcessinginIEEETransactionsonAudio,Speech,andLanguageProcessing(T-ASLP,January);- 2010,2011和2012年NlPS关于深度学习和无监督特征学习的研讨会(2010.2011,and2012NIPSWorkshopsonDeepLearningandUnsupervisedFeatureLearning);- 2013年NIPS关于深度学习和输出表示学习的研讨会(2013NIPSWorkshopsonDeepLearningandonOutputRepresentationLearning);- 2013年IEEE模式分析和机器智能(T-PAML9月)的杂志中有关学习深度架构的特刊(2013SpecialIssueonLearningDeepArchitecturesinIEEETransactionsonPatternAnalysisandMachineIntelligence(T-PAMI1September);- 2013年关于学习表示的国际会议(2013InternationalConferenceonLearningRepresentations);- 2013年国际机器学习大会关于表示学习面临的挑战研讨会(2013ICMLWorkshoponRepresentationLearningChallenges);- 2013年国际机器学习大会关于音频、语音和语言处理中深度学习的研讨会(2013ICMLWorkshoponDeepLearningforAudio,Speech,andLanguageProcessing);- 2013年ICASSP关于语音识别中的新型神经网络以及相关应用专栏(2013ICASSPSpecialSessiononNewTypesofDeepNeuralNetworkLearningforSpeechRecognitionandRelatedApplications)本书的作者一直从事深度学习的研究,也组织或参与过上述中的一些重要会议以及特刊的编写工作。要特别提出的是,本书作者频频受邀在众多重要会议上对深度学习进行专题报告,而本书的部分内容也是基于这些报告内容整理而成的。在开始详细介绍深度学习的内容之前,我们有必要先了解一些基本概念,下面是一些与深度学习密切相关的概念和描述:- 定义1:”机器学习是一类利用多个非线性信息处理层来完成监督或者无监督的特征提取和转化,以及模式分析和分类等任务的技术J一定义2:“深度学习是机器学习的子领域,它是一种通过多层表示来对数据之间的复杂关系进行建模的算法。高层的特征和概念取决于低层的特征和概念,这样的分层特征叫做深层,其中大多数模型都基于无监督的学习表示。”(2012年3月维基百科对深度学习的定义。)一定义3:“深度学习是机器学习的子领域,它是基于多层表示的学习,每层对应一个特定的特征、因素或概念。高层概念取决于低层概念,而且同一低层的概念有助于确定多个高层概念。深度学习是基于表示学习的众多机器学习算法中的一员。一个观测对象(比如一张图片)可以用很多种方式表示(如像素的一个向量),但是有的表示则可以使基于训练样本的学习任务变得更容易(如判定某张图像是否为人脸图像)。这一研究领域试图解决一个问题:哪些因素可以产生更好的表示,以及对于这些表示应该如何学习。”(2013年2月维基百科对深度学习的定义。)一定义4:“深度学习是机器学习的一系列算法,它试图在多个层次中进行学习,每层对应于不同级别的抽象。它一般使用人工神经网络,学习到的统计模型中的不同层对应于不同级别的概念。高层概念取决于低层概念,而且同一低层的概念有助于确定多个高层概念。”(2013年10月维基百科对深度学习的最新定义。)一定义5:“深度学习是机器学习研究的一个新领域,它的出现将机器学习向人工智能这一目标进一步拉近。深度学习是对多层表示和抽象的学习,它使一些包括如图像、声音和文本的数据变得有意义J(参看网址:https:/githubcom/Iisa-lab/DeepLearningTutoriaIs)应该注意的是,本书所讨论的深度学习是使用深度结构来对信号和信息进行处理,而不是对信号或信息的深度理解.尽管在有的情况下这两个方面可能会比较相似。在教育心理学中,是这样定义深度学习的:“深度学习是描述学习的一种方法,其特点是:主动参与、内在激励和个人对意义的探索J(http:www.blackwellreference,compublictocnode?id=g9781405161251_chunk,g97814051612516_ss1-1)我们应该注意将深度学习与教育心理学中的这些被滥用的术语区别开来。在上述多个不同的高层描述中有两个重要的共同点:(1)都包含多层或多阶非线性信息处理的模型;(2)都使用了连续的更高、更抽象层中的监督或无监督学习特征表示的方法。深度学习是包括神经网络、人工智能、图模型、最优化、模式识别和信息处理的交叉领域,它今天之所以如此受欢迎,有三个重要原因:其一,芯片处理性能的巨大提升(比如,通用图形处理器);其二,用于训练的数据爆炸性增长;其三,近来,机器学习和信号/信息处理研究有了很大进展,这些都使深度学习方法可以有效利用复杂的非线性函数和非线性的复合函数来学习分布和分层的特征表示,并且可以充分有效地利用标注和非标注的数据。近年来活跃在机器学习领域的研究机构包括众多高校,比如多伦多大学、纽约大学、加拿大蒙特利尔大学、斯坦福大学、加州大学伯克利分校、加州大学、伦敦大学学院、密歇根大学、麻省理工学院、华盛顿大学,还有一些企业,如微软研究院(从2009年开始)、谷歌(大概从2011年开始)、旧M研究院(大概从2011年开始)、百度(从2012开始)、Facebook(从2013年开始)、IDlAP研究所、瑞士人工智能研究所等。参看网址:这些研究机构将深度学习方法成功地用于计算机领域的众多应用中,其中包括:计算机视觉、语音识别、语音搜索、连续语音识别、语言与图像的特征编码、语义话语分类、自然语言理解、手写识别、音频处理、信息检索、机器人学,甚至有一个关于分子生物学的研究指出在深度学习方法的引领下发现了新的药物1.2本书的结构安排本书后续章节按照以下结构进行编排:在第2章中,我们将简要对深度学习的历史加以回顾,主要从以下三个问题入手:第一,深度学习对语音识别技术有哪些影响。第二,这一重大科技革命是如何开始的。第三,它是如何获得并保持如此强大动力的。第3章讲述了深度学习中绝大多数研究所使用的三元分类法。其中包括:有监督、无监督和混合深度学习网络。在分类任务中,混合深度学习网络利用无监督学习(或称为预训练)来辅助下一个阶段的监督学习。有监督和混合深度神经网络通常都具有同一类型的深度网络体系或结构,但是无监督深度网络的结构却往往不同。第46章分别集中介绍了深度结构的三种主流类型,这三种类型都来源于第3章中所提到的三元分类法。在第4章中,深度自编码器作为无监督深度学习网络的经典方法,我们将详细对其进行介绍并加以讨论。虽然其中巧妙地利用到了反向传播这样的监督学习算法,但是在学习的过程中并没有使用类别标签信息,而是将输入信号本身作为“监督”信号。第5章作为混合深度网络分类的主要实例讲解部分.详细介绍了这种用无监督生成式的预训练方法来提高监督训练效率的深度学习网络。在训练数据有限,并且没有其他合话的正则化方法(如dropout)可利用的情况下,混合深度学习网络是很有用的。这种独特的预训练方法是以受限玻尔兹曼机和本章所要学习的深度学习网络为基础的,它开启了深度学习在语音识别和其他信息处理任务中的早期应用,具有很重要的历史意义。除了回顾综述以外,我们也讨论了混合深度学习网络的后续发展和近期出现的一些不同观点。第6章详细讨论了基于三元分类法的判别式、有监督深度神经网络的一些具体实例一基本的深度堆叠式网络及其扩展。这类深度网络的工作原理与深度神经网络在很多方面都有所不同。需要特别指出的是,它们在建立宏观深度网络的层或模块时采用目标作为标签来简化学习算法。另外,深度网络中的部分假设,如模块中输出单元呈线性的假设,也简化了网络的学习算法,使得我们可以构建和学习比第4章和第5章中网络更丰富的架构。第711章选取了一些深度学习在信号和信息处理各个领域中成功的典型应用。第7章回顾了深度学习在语音识别、语音合成和音频处理中的应用,文献综述中围绕语音识别这一主要议题的几个突出问题划分了几个小节。第8章主要介绍了深度学习在语言模型和自然语言处理中的最新应用成果.其中强调了将符号实体(如词语)转化为低维连续向量的最新进展。第9章主要集中于对深度学习在信息检索(包含网页搜索)中的突出应用的介绍。第10章涉及了深度学习在计算机视觉领域中有关图像目标识别的几大应用。这一章将深度学习的方法分为两大类:(1)无监督特征学习;(2)端对端的监督学习以及特征间的学习和分类。第11章主要介绍了深度学习在多模态处理和多任务学习中的几大应用。我们根据输入到深度学习系统中的多模态数据特征将其分为三类。对于语音、文本或图像的单模态数据,本文也回顾了基于深度学习方法的一些多任务学习研究。最后,第12章对本书内容进行了总结,并对深度学习将面临的挑战和它的发展方向进行了讨论。本书内容精短,包括了几位作者提供的专题报告,一次是2011年10月APSIPA会议上的报告,另一次是2012年3月ICASSP会议上的报告。另外,本书也根据领域内的进展,提供了大量更新到2014年1月的内容(包括在2013年12月举办的NIPS-2013和IEEE-ASRU-2013两次会议中的一些资料),这些内容主要集中于近几年快速发展的深度学习研究和技术的应用层面。深度学习的历史以前,绝大多数机器学习和信号处理技术都利用浅层结构,这些结构一般包含最多一到两层的非线性特征变换,这种状况直到近几年才得以改变。浅层结构包括高斯混合模型(GMM)、线性或非线性动力系统、条件随机场(CRF)s最大嫡模型(MaXEnt)、支持向量机(SVM)、逻辑回归(LR)、核回归以及多层感知器(MLP)(包括极限学习器而且只包含一个隐层)。例如,当使用核方法时,支持向量机就会使用一个只包含一个或零个特征转换层的浅层线性模式的分离模型(最近由深度学习发展而来的一些核方法尤其值得注意,请参见文献9,53,102,377)o已经证明,浅层结构在解决很多简单的或者限制较多的问题上效果明显,但是由于其建模和表示能力有限,在遇到实际生活中一些更复杂的涉及自然信号(比如人类语音、自然声音和语言、自然图像和视觉场景)的问题时就会遇到各种困难。然而,人类信息处理机制(比如视觉和听觉)总是需要深度结构从丰富的感官输入信息中提取复杂结构并构建内部表示。例如,由于人类语言的产出和感知系统都具有清晰的层结构,这就使得信息可以从波形层转换到语言层11.12.74,75。同理人类视觉系统也有分层的特点这些虽然基本都只是存在于感知层面但有趣的是有时候在产出时也有分层的特点43.126.287。我们相信如果能提出更高效且更有效的深度学习算法那么用于处理这种自然信号的最前沿技术也将进一步得到提高,深度学习的概念起源于对人工神经网络的研究(所以有时候可能会听到“新一代神经网络”的说法)。前馈神经网络或具有多隐层的多层感知器也叫做深度神经网络(DeepNeuraINetwork,DNN)是深度结构模型中很好的范例。反向传播算法(back-propagation)流行于20世纪80年代,是广为人知的一种学习算法,在学习网络参数上很有用。遗憾的是,仅仅使用反向传播算法在实际学习隐层数目较少的网络时效果并不是很好3,侬。在优化目标为非凸函数的深度神经网络中,来自局部最优化或其他最优化问通的挑战普遍存在,这些挑战通常是学习中面临的主要困难。反向传播算法基于局部梯度信息并往往从一些随机的初始点开始当使用批量梯度下降或随机梯度下降的反向传播算法时目标函数经常会陷入局部最优的境地,随着网络层数的加深局部最优的情况也就会变得酸来瓢严重。之所以出现上述问题,部分原因在于:我们虽然对小现模的神经网络的探究从未间断过('"2.叫但是大多数机器学习和信号处理研究方向有所偏离人们将重点从对神经网络的研究转移到对具有凸损失函数的浅层模型(例如支持向机'CRF和MaX-Ent模组)的研究这类横型以降低注模镇力为代价达到快速高效地收敛到全局最优化的目的,所以深层网络常陷入局部最优的问题还有待解决。2006年Hinton在研讨会上的两篇论文163,164中介绍了一种高效的无监督学习算法,它们经验性地缓解了与深度模型相关的最优化难题。这两篇论文介绍了一类叫作深度置信网络(DeepBeliefNetwork.DBN)的深度产生式模型。DBN是由一组受限玻尔兹曼机(RBMs)堆叠而成的,它的核心部分是贪婪的、逐层学习的算法,这种算法可以最优化深度置信网络的权重,它的时间复杂度与网络的大小和深度呈线性关系。使人意想不到的是,使用配置好的深度置信网络来初始化多层感知器的权重,常常会得到比随机初始化的方法更好的结果。包含多个隐层的多层感知器或深度神经网络,通过无监督的深度置信网络来进行预训练,然后通过反向传播微调来实现,在文献67.260,258中也称之为深度置信网络。最近,研究者对于DNN与DBN进行了更加细致的区分61如果使用DBN去初始化DNN的调练时,这种网络可以被称为DBN-DNNgL与受限玻尔兹曼机的发展相独立,在2006年,两个不同的、非概率的、非产生式的无监督的深度模型出现了。一个是自编码器的一种变体,使用与DBN训练相似的贪心分层进行训练。另一个是基于能量的模型,用稀疏的完备表示来进行非监督学习。与DBN相似,它们都可以对深度神经网络进行高效的预训练。除了具有好的初始点,DBN还有一些颇具吸引力的优点:第一,它的学习算法可以有效使用未标注的数据;第二,它可以看作是一个概率生成模型;第三,对于经常出现在诸如DBN这样的含有数百万个参数的模型中的过拟合问题,以及经常出现在深度网络中的欠拟合问题,都可以通过产生式预训练方法得到有效解决255在DNN中,多神经元隐层的使用不仅显著提高了DNN的建模能力,而且产生出了许多接近的最优配置。即使参数学习过程陷入局部最优,但由于出现欠佳的局部最优的概率比网络中应用少数神经元的时候要低,所以最终的DNN仍然效果很好。然而,在训练过程中使用深而宽的神经网络需要强大的计算性能,这也就解释了为什么直到最近几年研究人员才开始认真探索这种既深又宽的神经网络的问题。更好的学习算法和不同种的非线性关系也促使了DNN的成功。随机梯度下降(SGD)算法在大多数训练集较大且数据丰富的情况下是最有效的算法39。最近,研究证实随机梯度下降(SGD)可以有效地实现并行一种方法是通过异步模式69使用多台机j另一种方法是使用多GPU的流水姣型的反向传播算法(49)。此外.从单个或小批样本中估计出的噌杂梯度使得SGD通常能让训练跳出局部最优。其他学习算法如He”,Mfre'"""或KryIoVsub-spa<何方法都表现出了笑似的能力,对于DNN学习的高度非凸优化问题,由于优化是从初始模型开始的,所以很明显,更好的参数初始化技术将会打造出更好的模型。然而,不明显的是:如何有效和高效地初始化DNN参数以及如何使用大量的训练数据来缓解学习中的问题。对于这些问题,直到最近,文献28r20,100,64,68,163,164,161,323,376,414对其进行了探索和分析。此外,之前讨论中提出的无监督的预训练方法是最引人注目的DNN参数初始化技术。DBN预训练并不是唯一可以使DNN有效初始化的过程,另一种性能相当的无监督的方法是:对DNN进行逐层地预训练,通过将每两层视为一个除噪自编码器,该除噪自编码器通过将输入节点的随机子集设置为零而进行正则化2。,376。另一种方法则是使用压缩自编码8S它通过使输入变量具有更好的鲁棒性来达到同样的目的例如对于输入,它通过惩罚触层单元的激发函数的梯度303来达到目的。此外QmZat。等人294开发了稀疏嫔制对称机(SESM),其在构建DBN模块中具有和RBM非常类似的架构,它也可以用来有效地初始化DNN训练。除了使用贪心的逐层过程进行无监督预训练28,164.295.有监督的预调统(有时称为判别式颈训练)也证明是很有效的128.161.324.432,并且在有标筌的训练数据充足的情况下比无监督的Sl训练技术表现得更好,判别式Sl训炼的思想是从一个经过BP算法训练的单个除层MLP开始每一次需要添加一个新的除层时用一个陵机初始化的新的隐层和输出层替换原有输出层并用BP算法训练全新的MLP(3RDNN)o与无监督预训练技术不同的是,判别式预训炼技术需要标签“有研究人员将深度学习应用于语音和视觉,他们分析了DNN在语音和图像中捕获了哪些信息,比如,文献259用一种降维方法来可视化研究通过DNN学习到的特征向量之间的关系。他们发现,DNN的隐藏激活向量保留了与多个尺度上的特征向量相似的结构,这一点对于滤波器组特征(filterbankfeature)来说尤为如此。最近,ZHler和FergUSk精心设计了另一种可视化方法,该方法基于一个在分类网络的相反方向自上而下的生成过程,用来检测深度卷积网络从图像数据中捕获的特征。深层网络的强大之处在于,它们拥有在提取合适特征的同时做判别的能力叽可以从另一个角度来了解这个发展历程,即用“成熟度曲线”来回顾人工神经网络的历史。这是一种用图来对一种特定技术的成熟期、接受程度和社会应用进行描述的方式。图2.1显示的是由高德纳咨询公司(Gartner)绘制的2012版的成熟度曲线图.用来展示一项技术或应用是如何随着时间推移而发展的(按五个阶段:科技诞生的促动期,过高期望的峰值期,泡沫化的底谷期,稳步爬升的光明期和实质生产的高峰期),也提供了一种管理技术布置的方法。P"tMUWi"brdin:0b80MOlessthan2yearsO2to5years5to10yearsmorethan10years9beforeplateau图2.IGartner技术成熟度曲线展示了一项技术的五个阶段图中词语翻译对照表TechnologyTrigger科技诞生的促动期PeakofInflatedExpectations过高期望的峰值期TroughofDisillusionment泡沫化的底谷期SlopeofEnlightenment稳步爬升的光明期PlateauofProductivity实质生产的高峰期Plateauwillbereachedin到达稳定期所需时间Lessthan2years少于两年2to5years25年5to10years510年obsoletebeforeplateau到达稳定期前放弃HumanAugmentation人工机能增进QuantumComputing量子计算3DBioprinting3D生物打印VolumetricandHolographicDisplays立体和全息显示AutomaticContentRecognition自动内容识别3DScanners3D扫描AutonomousVehicles自动驾驶MobileRobots移动式机器人InternetofThings物联网Natural-languageQuestionAnswering自然语言问答(续)SiliconAnodeBatteries硅阳极电池Speech-to-SpeechTranslation语音到语音的翻译Crowdsourcing众包模式BigData大数据Gamification游戏化模式HTML5超文本标记语言5HybridCloudComputing混合式云计算WirelessPower无线网3DPrinting3D打印BYOD自带设备Complex-EventProcessing复杂事件处理SocialAnalytics社交分析PrivateCloudComputing私有云计算ApplicationStores应用存储AugmentedReality增强实境技术In-memoryDatabaseManagementSystems内存数据库管理系统ActivityStreams活动信息流NFCPayment近场无线支付技术InternetTV网络电视AudioMining/SpeechAnalytics声频挖掘语音分析NFC近场通信技术CloudComputing云计算Machine-to-MachineCommunicationServices机器间交流服务MeshNetworks:Sensor网状网络传感器GestureControl手势控制In-MemoryAnalytics内存中分析TextAnalytics文本分析HomeHealthMonitoring家庭健康监视HostedVirtualDesktops虚拟桌面VirtualWorlds虚拟世界MobileOTAPayment无线移动支付MediaTablets媒体平板电脑Consumerization消费端化BiometricAuthenticationMethods生物特征识别方法IdeaManagement创意管理ConsumerTelematics消费者远程信息处理SpeechRecognition语音识别PredictiveAnalytics预测分析expectations期望我们创建图2.2来将神经网络的不同阶段与成熟度曲线的不同阶段对应起来。顺峰期(纵轴上的“期望值”)出现在20世纪80年代末和90年代初,此时被称为神经网络的第二代。DBN和用于训练的快速算法是在2006发明的Mi®。当DBN被用在初始化DNN的时候,学习算法的效率就变得更高,这促进了学术界持续快速地产生研究成果(“光明”阶段,见图2.2)。DBN和DNN的产业级语音特征提取和识别应用出现在2009年,当时产业界、学术界以及深度学习的研究专家有着密切的合作附这种合作使得用深度学习方法进行语音识别的工作得到快速扩张井取得越来越大的成功%161.323.414,这在本书后面的内容中将有所提及。“实质生产的高峰期”阶段的高度还没有达到预计将高于常知曲畿(图2.2中标有问号的圜图;,在图中用直线上升的虚线标记.(industry)图2.2将Gartner的成熟度曲线应用于分析人工神经网络的发展图中词语翻译对照表NeuralNetworkHistory神经网络历史Expectationsormediahype期望或媒体宣传GartnerHypeCycle高德纳的技术成熟度曲线Inputlayer输入层Hiddenlayer隐层Outputlayer输出层(续)Synapses突触TechnologyTrigger科技诞生的促动期TroughofDisillusionment泡沫化的底谷期PeakofInflatedExpectations过高期望的峰值期SlopeofEnlightenment稳步爬升的光明期PlateauofProductivity实质生产的高峰期DNN深度神经网络DNN(industry)深度神经网络(产业级)time时间图2.3中所示的是语音识别的历史,由NlST编制,针对一些越来越具有挑战性的语音识别任务,把词错误率(WER)作为一个时间函数来绘制图表。需要注意的是,所有的WER结果都是用GMM-HMM技术获得的。当从图2.3中选取了一个极具挑战性的任务(Switchboard)后,我们看到了这样的结果:一条在使用GMM-HMM技术多年中一直保持平坦的曲线在使用了DNN技术后,WER急剧下降(见图2.4中星标记)。1%(70aUJMThe History ofNIST STT Benchmark Test History - May. ,09图2.3著名的NIST图(显示了针对一些越来越具有挑战性的语音识别任务,用GMM-HMM方法得到的语音识别错误率的发展历史)图中词语翻译对照表TheHistoryofAutomaticSpeechRecognitionEvaluationsatNIST美国国家标准与技术研究院发布的自动语音识别评测历史NISTSTTBenchmarkTestHistory-May."09美国国家标准与技术研究院发布的语音到文字转换技术基准测试历史,2009年5月ReadSpeech朗读语音AirTravelPlanningKioskSpeech航空旅行计划咨询语音BroadcastSpeech广播语音ConversationSpeech会话语音Non-English非英语VariedMicrophones各式麦克风NewsEnglishUnlimited无约束的英语新闻MeetingSpeech会议语音RangeofHumanErrorinTranscription人工转录错误区间图2.4从图2.3的一个任务中提取WER并添加了由DNN技术获得的显著降低的WER(用星标记)图中词语翻译对照表ReadSpeech朗读语音AirTravelPlanningKioskSpeech航空旅行计划咨询语音BroadcastSpeech广播语音ConversationSpeech会话语音Non-English非英语VariedMicrophones各式麦克风NewsEnglishUnlimited无约束的英语新闻MeetingSpeech会议语音RangeofHumanErrorinTranscription人工转录错误区间下一章中,我们将首先对深度学习的各种体系结构进行概述,随后就一些学者们广泛研究的结构和方法进行更详细的论述,也会讨论一些在信号与信息处理中的应用,包括语音和音频、自然语言、信息检索、视觉和多模式处理。三类深度学习网络3.1三元分类方式如前所述,深度学习指的是一类广泛的机器学习技术和架构,其特点是采用多层的非线性信息处理方法,这种方法在本质上是分层的。根据这些结构和技术不同的应用领域,如合成/生成或识别,分类,我们可以大致把这些结构分为三类:(D无监督或生成式学习的深度网络针对模式分析和合成任务,用于在没有目标类标签信息的情况下捕捉观测到的或可见数据的高阶相关性。各种文献中的无监督特征或表达学习指的就是这一类深度网络。当用于生成模式时,它也可以用来描述可见数据和其相关分类的联合概率分布,此时它具有可利用的类别标签,而且这些类别标签被看作是可见数据的一部分。在后一种情况中,利用贝叶斯准则可以把生成式学习网络转换为判别式学习网络。(2)有监督学习的深度网络直接提供用于模式分类目的的判别能力,它的特点是描述了可见数据条件下的类别后验分布。对于这种有监督的学习,目标类别标签总是以直接或间接形式给出,所以它们也被称作判别式深度网络。(3)混合深度网络目标是判别式模型,往往以生成式或无监督深度网络的结果作为重要辅助,可以通过更好地优化和正则化类别(2)中的深度网络来实现,也可以通过在对类别(1)中所述的深度生成式或无监督深度网络的参数进行估计时,使用判别式准则来实现。注意上述(3)中的“混合”一词和有些文献中的用法会有不同。在这些文献中“混合”指的是混合系统,即把神经网络的输出概率送入到HMM的语音识别系统中旧2,42261o按照通常采用的机器学习惯例(例如,文献264中第28章和文献95),自然地把深度学习技术分为深度判别式模型(例如,深度神经网络DNN,递归神经网络RNN、卷积神经网络CNN等)和生成式/无监督模型(例如,受限玻尔兹曼机RBM、深度置信网络DBN、深度玻尔兹曼机DBM、正则化的自编码器等),然而这种二元分类方法忽略了通过深度学习研究所获得的重要观点,即生成式和无监督学习模型如何通过更好地进行正则化与优化,来大幅提高DNN和其他深度判别式和监督学习模型的训练效果。同时,无监督学习的深度网络并不一定必须是概率模型,也不一定能从模型(例如,传统的自编码器、稀疏编码网络等)中得到有意义的采样。我们注意到最近的研究对传统的除噪自编码器进行了扩展,使得它们可以高效地采样,从而成为生成式模型24.30L然而传蜕的二元分类的确指出了无监督和有监督学习深度神经网络的一些关键差异。对这两类模型进行比较可以发现,深度有监督的学习模型(如DNN)的训练和测试通常更高效,构建更灵活,也更适合于复杂系统的端到端学习(例如,非近似推断(noapproximateinference)和环路信念传播(loopybeliefpropagation)o另一方面,深度无监督学习模型,尤其是概率生成模型.更容易理解.更容易嵌入领域知识,更容易组合,更容易对不确定性进行处理,但对于复杂系统,它们通常在推断和学习上很难处理。我们提出的三元分类也仍然包含以上区别,因此三元分类贯穿全书。下面我们回顾上述三个类别中具有代表性的工作,表3.1中总结了几个基本的定义,这些深度结构的应用将在第711章进行介绍,包括有监督、无监督和混合学习。表3.1深度学习基本术语深度学习(DeCPLeaEing):机器学习的一类技术,它通过分层结构的分阶段信息处理来探索无监督的特征学习和模式分析、分类。深度学习的本质是计算观测数据的分层特征或表示.其中高层特征或因子由低层得到。深度学习方法发展迅速.其中包括神经网络、层