从神经网络到深度学习 AI视野课件.ppt
从神经网络到深度学习大数据催生的新智慧物种,自然语言处理,怎样用神经网络处理离散(符号)数据?嵌入(Embedding),2,怎样学习词嵌入?,Neural Language Model & word2vec,3,word2vec词嵌入的性质,向量空间中的距离 = 词义相似性,4,word2vec词嵌入的性质,捕获语言的某些规律,5,嵌入空间可视化,6,从单词到句子,CNN,7,序列学习问题,序列识别和生成语音、时间序列、文本.注意控制按顺序决定下一时刻注意什么运动控制、玩游戏。共同模式历史状态(可变长度)- 内部状态表示(短时记忆) - 下一步动作,传统序列学习模型,“无记忆”Autoregressive modelsFeed-forward NN“简单记忆”Linear dynamical systems (LDS)Hidden Markov Models (HMM),FNN - RNN,Forward propagation,RNN for 语言模型/序列生成,常用的训练目标:预测下一时刻的输入,训练RNN:Backpropagation through time (BPTT),优化目标最大对数似然(在整个序列上累加),A toy problem for RNN:二进制加法,问题train a neural net to do binary addition by giving it many 01 string as examples方案1:FNN需要预先确定最大位数对不同的位使用不同的权重泛化能力差,二进制加法的算法,方案2:RNN,网络结构2 ins, 3 hiddens, 1 outh(t) = f(Wihx(t) + Whhh(t-1)(前一时刻的隐状态,当前时刻的输入) - 下一时刻的隐状态2个时间步的延迟输入-隐单元隐单元-输出,网络学到了什么?,自动学习出3个隐单元的4种不同的激活模式,用以完成加法运算模拟有限状态自动机,但能力更强N个隐单元,2N种激活模式,N2个参数(权重)对比HMM,RNN训练的难题:梯度爆炸与消失,if for all m: gradient explodeif for all m: gradient vanish在包含长时关联(dt 10)的序列上很难有效训练RNN,Long Short-Term Memory (LSTM),Two types of memory in RNNShort-term memory: encoded in activity patterns of hidden unitsLong-term memory: encoded in weights,不同类型的记忆,LSTM cell,Input gate: scales input to cell (write)Output gate: scales output from cell (read)Forget gate: scales old cell value (reset)CellCell output,LSTM怎样保持梯度信息(works like a mini-computer with read/write units),LSTM学到了什么?例子:字符级语言模型,RNN vs LSTM:一个核心区别,隐状态更新方式:替换 - 累加更加稳健的动力学特性,减轻梯度爆炸和消失,端到端的机器翻译将源句子的编码为向量表示,然后将向量解码为目标 句子网络学到了什么?源语言和目标语言的词法、语法、短语搭配、语义。,基于短语的统计机器翻译,网络结构:A deep and big LSTM network,Google神经网络翻译,基于注意力的神经机器翻译,注意力机制的其他应用,“看图说话”:为图片自动生成文本描述,记忆增强的神经网络:NTM、MemNN、DNC等,提纲,为什么要深度学习?背景和动机怎样深度学习?基本学习算法有什么应用?典型网络结构和应用举例反思和展望,32,对ImageNet网络的反思,大量有标签训练数据在两块GPU上训练使用多个大隐层更好的神经元(Rectified linear)用dropout正则化,33,对深层神经网络的重新认识,数据获取问题没有足够多的有标签数据梯度弥散问题没有足够快的计算机局部极值问题没有合适的参数初始化方法,1986年以来有标签数据变得更多计算机变得更快找到了更好的参数初始化方法,34,对深层神经网络的重新认识,数据获取问题没有足够多的有标签数据梯度弥散问题没有足够快的计算机局部极值问题没有合适的参数初始化方法,1986年以来有标签数据变得更多大数据:燃料计算机变得更快GPU:催化剂找到了更好的参数初始化方法算法:导火索深层神经网络的复兴,35,深度学习为什么这么火?一个生态学视角,不挑食图像识别、语言识别、NLP、生物医药。大脑用同一套算法解决视觉、听觉、嗅觉等感知问题胃口大喂的数据足够大就会变得非常聪明,只会吃不饱,不会消化不良动物通过大量经验而不是精巧的数学公式学习,36,深度学习为什么这么火?一个生态学视角,不挑食图像识别、语言识别、NLP、生物医药。大脑用同一套算法解决视觉、听觉、嗅觉等感知问题胃口大喂的数据足够大就会变得非常聪明,只会吃不饱,不会消化不良动物通过大量经验而不是精巧的数学公式学习有了充足的食物供应(大数据),并进化出了极强劲的消化系统(GPU、云计算),deep learning怪兽终于崛起,并逐渐淘汰其他物种(浅层学习算法),称霸地球,原始数据,对数据的理解(表示)和判断(分类),37,深度模型成功仅仅是因为“深”吗?,大而深的网络具有强大的拟合能力记忆换计算过拟合?(智能度 = 拟合能力 / 参数个数)将世界的普适规律“硬编码”到网络结构中CNN:空间平移对称性和层次结构(标度对称性)RNN:时间平移对称性和层次结构(标度对称性)Attention & Memory:(生物世界和信息世界中)信息处理资源受限时的时间换空间策略,序列化产生复杂性(例如生命)的普适规律:?物理学:非平衡态统计物理、耗散结构计算理论:自指、自复制、代码/数据混淆,深度神经网络与“元编程”,“可微函数式编程” = 函数式编程确定骨架 + 神经网络学习内容例子:编码器-解码器架构,智能进化的旅程从脑到神经网络到计算机,感知问题:基本解决Pretty much anything that a normal person can do in 高级认知感知皮层-运动皮层-工作记忆-长时记忆-前额叶-聪明的你函数 - 类程序-程序+寄存器-程序+内存-解释器-OSCNN - RNN - LSTM - Attention - ? - ?,谢谢,每当我审视自己的思维过程,并发现和AI的思维过程越来越像时,都为自己的进步感到欣喜。聪明的AI和聪明的人类是相似的,愚蠢的AI和愚蠢的人类各有各的愚蠢。,