人工智能基础课程ppt课件.pptx
人工智能基础,工业互联网学院 2018 年 6 月,集团师级工业互联网培训课程 之,(高中版),课程目标,系统了解人工智能发展简史,掌握人工智能的基本思想和理念系统了解人工智能在各行各业具体应用的场景和功能,掌握人工智能基本概念和基础知识系统掌握人工智能方法和技术的具体应用,能正确理解机器学习和强化学习的方法课时安排:4H课程对象:集团全体师级干部,课程安排,“智能+”的未来,人工智能的出现及发展,人工智能概述,人工智能发展简史,在现代社会便利与舒适的生活背后,是一场正在深刻地改变人们生活与社会的的科技浪潮-人工智能。十年前仍是科幻小说里的场景,今天已经成为我们真实的生活经历。在人工智能浪潮的驱动下,十年之后我们会生活在什么样的世界里面呢?,前言,“智能+”的未来,跨越时空:铭铭的一天,场景1,场景2,场景3,场景4,场景5,思考:在这些未来的生活场景中,人工智能的应用有哪些?,“智能+”的未来,智能+未来 家庭 城市 汽车.,什么是智能?帮你算数学?帮你洗衣服?帮你,人工智能学家 or 数学家、物理学家、科学家跟我们想的是一样的吗?,知识的表达与推理 智慧 是一种计算过程?,“智能+”的未来,什么是人工智能?,其实,广义的人工智能,或是人工智能,是很复杂的Ex: 知识定义、知识表达、知识推理,人工智能的出现及发展,人工智能的横空出世,1950年,艾伦图灵(Alan Turing)在他的论文中提出了著名的“图灵测试”(Turing Test)被广泛认为是测试机器智能的重要标准。图灵测试:一位人类测试员会通过文字与密室里的一台机器和一个人对话。如果测试员无法分辨与之对话的两个实体谁是人谁是机器,参与对话的机器就被认为通过图灵测试。,图灵测试,人工智能的出现及发展,人工智能的横空出世,1951年,研究生马文闵斯基(Marvin Minsky)建立了世界上第一个神经网路机器SNARC(Stochastic Neural Analog Reinforcement Calculator)。人们第一次模拟了神经信号的传递,为人工智能奠定了深远的基础。,马文闵斯基,人工智能的出现及发展,人工智能的横空出世,1955年,艾伦纽厄尔(Alan Newell)、赫伯特西蒙(Herbert Simon)和克里夫肖(Cliff Shaw)建立了“逻辑理论家”计算机程序来模拟人类解决问题的技能,此项工作开创了一种日后被广泛应用的方法:搜索推理(reasoning)。,艾伦纽厄尔,赫伯特西蒙,人工智能的出现及发展,人工智能的横空出世,1956年,闵斯基、约翰麦卡锡(John McCarthy)、克劳的香农(Claude Shannon)和纳撒尼尔罗切斯特(Nathan Rochester)在美国达特茅斯学院组织了一次会议,此会议宣告了“人工智能”作为一门新学科的诞生。,2006年,会议五十年后,当事人重聚达特茅斯。左起:摩尔,麦卡锡,明斯基,赛弗里奇,所罗门诺夫,达特茅斯楼,人工智能的出现及发展,人工智能的第一次浪潮(1956-1974),1963年,美国高等研究计划局投入两百万美元给麻省理工学院,培养了早期的计算机科学和人工智能人才。1964-1966年,约瑟夫维森鲍姆(Joseph Weizenbaum)教授建立了世界上第一个自然语言对话程序ELIZA,可以通过简单的模式匹配和对话规则与人聊天。70年代中期,人工智能还是难以满足社会对这个领域不切实际的期待,因此进入了第一个冬天。,人工智能的出现及发展,人工智能的第二次浪潮(1980-1987),80年代,由于专家系统和人工神经网络的新进展,人工智能浪潮再度兴起。1980年,卡耐基梅隆大学为迪吉多公司开发了一套名为XCON的专家系统,这套系统当时每年可为迪吉多公司节省4000万美元。XCON的巨大价值激发了工业界对人工智能尤其专家系统的热情。1982年,约翰霍普菲尔德提出了一种新型的网络形式,即霍普菲尔德神经网络,其中引入了相关存储(associative memory)的机制。1986年,通过误差反向传播学习表示论文的发表,使反向传播算法被广泛用于人工神经网络的训练。80年代后期,由于专家系统开发与维护的成本高昂,而商业价值有限,人工智能的发展再度步入冬天。,爱德华费根鲍姆“专家系统之父”,人工智能的出现及发展,人工智能的第三次浪潮(2011-现在),21世纪,人类迈入了“大数据”时代,此时电脑芯片的计算能力高速增长,人工智能算法也因此取得重大突破。研究人工智能的学者开始引入不同学科的数学工具,为人工智能打造更坚实的数学基础。在数学的驱动下,一大批新的数学模型和算法被发展起来,逐步被应用于解决实际问题,让科学家看到了人工智能再度兴起的曙光。2012年全球的图像识别算法竞赛ILSVRC(或称ImageNet挑战赛)中,多伦多大学开发的多层神经网络Alex Net取得了冠军,且大幅超越传统算法的亚军,引起了人工智能学界的震动。从此,多层神经网络为基础的深度学习被推广到多个应用领域。2016年谷歌通过深度学习训练的阿尔法狗(AlphaGo)程序战胜围棋世界冠军李世石。,人工智能的出现及发展,西洋棋机器,人工智能概述,人工智能的定义,人工智能是通过机器来模拟人类认知能力的技术。人工智能的核心能力:根据给定的输入作出判断或预测人脸识别:根据输入的照片,判断照片的人是谁。语音识别:根据人说话的音频信号,判断说话内容。医疗诊断:根据输入的医疗影像,判断疾病的成因和性质。电子商务:根据用户的购买记录,预测他对什么 商品感兴趣,而作出相应推荐。金融应用:根据一支股票过去的价格和交易信息, 判断它未来的价格走势。,人工智能概述,人工智能的应用,安防智能视频分析技术可以代替民警做很多事情,实时从视频中检测出人和车辆自动找到视频中异常的行为,并及时发出带有具体地点方位信息的警报自动判断人群的密度和人流的方向,提前发现过密人群带来的潜在危险,帮助工作人员引导和管理人流。,人工智能概述,人工智能的应用,医疗为解决“看病难”的问题提供了新的思路。,对医学影像进行自动分析技术的研究和应用,可以为医生诊断提供参考信息,有效的减少误诊和漏诊。有些新技术还能通过多张医疗影像建出人体器官的三维模型,确保医生手术更加精准。,人工智能概述,人工智能的应用,智能客服,随着互联网和电子商务的发展,我们和商家的交流变得越来越多元,为了因应这种挑战,很多企业开始引入人工智能技术打造智能客服系统。智能客服可以像人一样和客户交流沟通,进行准确得体且个性化的回应,提升客户的体验。对企业来说,这样的系统不仅能够提高回应客户的效率,还能自动的对客户的需求和问题进行统计和分析,为之后的决策提供数据。,人工智能概述,人工智能的应用,自动驾驶,自动驾驶汽车通过多种传感器,包括视频摄像头、激光雷达、卫星定位系统等,对驾驶环境进行实时感知。智能驾驶系统可以对多种感知信号进行综合分析,实时规划驾驶路线,控制车子的运行。,工业制造系统必须变得更加“聪明”,而人工智能则是提升工业制造系统的最强动力。,人工智能概述,人工智能的应用,工业制造,例如:品质监控是生产过程中最重要的环节,传统生产线上都安排大量的检测工人用肉眼进行质量检测。这种方式不仅容易漏检和误判,更会给工人造成疲劳伤害。因此很多任务业产品公司开发使用人工智能的视觉工具,帮助工厂自动检测出形态各异的缺陷。,人工智能概述,智能从何而来?,人工智能如何自动做出判断或预测专家系统:基于人工定义的规则来回答特定问题(局限性)机器学习(machine learning)通过学习(learning)来获得进行预测或判断的能力, 这样的方法已经成为人工智能的主流方法。,人工智能概述,机器学习的方法,从数据中学习从已知数据去学习数据中蕴含的规律或判断规则,再把学到的规则应用到新数据并作出判断或预测方式,监督学习: 要求为每个样本提供预测量的真实值2. 无监督学习: 不要求为每个样本提供预测量的真实值3. 半监督学习: 介于监督学习与无监督学习之间,人工智能概述,机器学习的方法,在行动中学习在机器学习的实际应用中,还会遇到另一种类型的问题:利用学习得到的模型来指导行动。比如下棋,此时关注的不是某个判断是否准确,而是行动过程中能否带来最大效益,又称为强化学习。强化学习模型结构:,可动态变化的状态(state)可选取的动作(action)可以和决策主体进行交互的环境(environment)回报(reward)规则,Q-Learning:Agent主体会根据实际环境反馈进行调整,人工智能概述,小结,人工智能是研究如何通过机器来模拟人类认知能力的学科,通过几十年的努力,人工智能已经获得了长足的发展,且在多个行业得到了成功的应用。人工智能这一新兴科技正在改变我们的世界并影响着我们的生活,但这仅仅只是个开始,人工智能过去的发展为我们展现了一个令人激动的前景,这个更美好的时代需要我们共同努力去创造。,特征与分类器,识图认物,析音赏乐,看懂视频,构建人工智能系统,前言,人工智能系统处理的是各种各样的数据:图像、声音、文字、视频等等数据(Data)是信息的载体分类(Classification)是根据所给数据的不同特点,判断它属于哪种类别,特征与分类器,数据类型和相关应用,特征与分类器,分类的基本概念和流程,例:对鸢尾花的两个品种进行分类。全世界大约有300个品种,其中,常见的有变色鸢尾(iris versicolor) 及山鸢尾(iris setosa)。如何构建一个简单的人工智能系统,它能够像人类一样区分变色鸢尾和山鸢尾?,特征与分类器,分类的基本概念和流程,分类器(Classifier):能完成分类任务的人工智能系统构建该系统的流程:首先提取鸢尾花的特征然后将这些特征输入到训练好的分类器中分类器根据特征做出预测,输出鸢尾花的品种,特征与分类器,提取特征的方法,特征(feature):对事物的某方面的特点进行刻画的数字或者属性特征的质量很大程度上决定了分类器最终分类效果的好坏不同类型的数据,不同的特征提取方法,例:鸢尾花特征的提取通过实际观察,花瓣的长度和宽度作为有效分类鸢尾花的特征特征的数学表达:特征向量 , 问题的描述:特征点和特征空间,特征与分类器,分类器,定义:分类器是一个由特征向量到预测类别的函数,对鸢尾花品种分类的问题就转变成为在特种空间中将这些特征点分开的问题。從圖得知, 一條直線方程,可將整個坐標面分成兩個區域。f()是分類函數()的核心。,特征与分类器,训练分类器,让分类器学习得到合适参数的过程称为分类器的训练 目的:提升人工智能系统的性能,工智能系统是通过什么来进行学习呢? Ans: 数据 数据为人工智能的支柱之一,人工智能系统的训练需要大量的数据作为支撑。训练阶段使用的数据被称为训练数据。测试阶段使用的数据被称为测试数据。在分类的过程中,训练和测试数据需要实际的类别分类。数据标注的过程是耗时耗力的,数据标注是需要相关领域的专业知识,且标注的质量会直接影响到训练后人工智能系统性能的好坏。,特征与分类器,训练线性分类器的算法,感知器的训练过程示意图, 感知器(perceptron)是一种训练线性分类器的算法,特征与分类器,训练线性分类器的算法,支持向量机的训练过程示意图,一般地,一个点距离分类直线的远近可以表示对分类预测的确信程度。,特征与分类器,训练线性分类器的算法,算法:基于数据集来训练分类器的过程,其过程是由一系列判断和计算的步骤所组成的,称之为算法(Algorithm)1. 感知器 2. 支持向量机,感知器学习算法不断减少对数据误分类的过程 利用被误分类的训练数据调整现有的分类器的参数,使得调整后的分类器判断更准确。参数更新的规则 损失函数(度量分类器输出错误的数学化表示) 优化方法(调整分类器的参数),SVM (support vector machine) 是在特征空间上分类间隔最大的分类器,是对两个类别进行分类。结论 一个点距离分类直线越远,分类预测的可信程度越高,特征与分类器,测试与应用,若想知道分类器的分类效果如何,哪一个学习算法的分类器效能最好,需透过测试阶段来进行验证测试:评判分类器表现的好坏,选择最优分类器应用:分类器在实际情况中的使用,以鸢尾花的例子,测试数据中有一朵鸢尾花,它的花瓣长度是1.5厘米,宽度是0.4厘米,其测试样本的特征向量(1.5,0.4),位于山鸢尾的一侧,故此朵鸢尾花为山鸢尾。,特征与分类器,多类别分类,由图所示,目前有三个分类器,分别为牡丹、荷花、梅花的分类器,它们只负责区分某一个类别的分类。当输入一张图片的特征向量后,三个分类器都可能够输出自己的预测,综合三个预测结果,最终能够得到多分类的预测结果。若f1输出为正,f2,f3输出为负,那可以确定的说类别为牡丹f1,f2,f3的输出值是通过一个归一化指数函数, 转他成概率-说明输入物体属于某一类的可能性。,特征与分类器,二分类的应用,感生活中遇到的是不是问题都属于二分类的范畴相机中的人脸检测癌症检测,判断生物组织样本的每一个区域是否有肿瘤,认图识物,基于手工特征的图像分类,例:铭铭的相册中有许多图片。如何设计一个用于对图片进行分类的系统,它能够像人类一样识别照片中的物体是什么类别?,问题:计算机眼中的图片是什么样子的?,认图识物,计算机眼中的图像,数字组成的矩阵灰度图像和彩色图像彩色图像(R,G,B)表示颜色行数与列数(分辨率)图像(1280 X 720 X 3)在计算机中表示为三阶张量,认图识物,图像特征,概念:能够区分照片的特征手工设计了各种图像特征:图像颜色、边缘、纹理等基本性质计算机如何提取图片特征图像在计算机中可以表示成三阶张量,对图像特征的提取即对该三阶张量进行运算的过程其中非常重要的一种运算是卷积,卷积运算示例,认图识物,基于深度神经网络的图像分类,深度神经网络分类系统由多个顺序连接的层组成每一层以前一层提出的特征输入,对其进行特定形式的变换由简单到复杂,由低级到高级深度神经网络的结构,例:Alex Net神经网络结构示意图,认图识物,基于深度神经网络的图像分类,深度神经网络的结构卷积层:深度神经网络处理图像时十分常用的一种层,当以卷积层为主体时,称为卷积神经网络。全连接层:全连接层完成对特征向量的变换归一化指数层:完成多类线性分类器中的归一化指数函数计算,一般是分类网络的最后一层,输出为图像属于各个类别的概率。非线性激活层:保留特征每次变换的效果池化层:在几个卷基层之后插入,降低特征图的分辨率人工神经网络的训练反向传播算法,过拟合:在训练数据上表现良好,在未知数据上表现差。欠拟合:在训练数据和未知数据上表现都很差。梯度消失:优化过程失去指导,无法找到一个较好的解。,认图识物,图像分类在日常生活中的应用,丰富的“刷脸”应用场景人脸识别技术助力安防,例如:人脸检测跟踪,析音赏乐,声音的数字化,人耳听音声波由耳廓收集之后经一系列结构的传导到达耳蜗,耳蜗内丰富的听觉感受器,可将声音传导到听神经,最后引起听觉。频率是声音的重要特征,代表了发声物体在一秒内振动的次数,单位是赫兹。计算机听音,析音赏乐,声音的数字化,计算机如何“理解”声音频谱三要素响度:最直观的乐音要素,代表声音的强弱,可由波形的幅度表示音调:表示人听到的声音调子的高低,可用频谱来描述音色:即不同的乐器演奏或者不同的人来演唱所产生不同的听觉效果。频谱图中峰值之间的比例不同反映了声音音色的不同,吉他与钢琴的波形与频谱,析音赏乐,音乐风格的分类,音乐风格分类流程经典的声学特征:梅尔频率倒谱系数MFCC(Mel-Frequency Cepstral Coefficients)特征的维数很低比频谱更加有效,可以刻画出频谱的形状可以描画出不同频率声音的能量高低,还可以表达出声音的一个重要特征:共振峰。,析音赏乐,音乐风格的分类,声学特征提取过程提取MFCC特征利用深度学习方法完成分类(神经网络),析音赏乐,语音识别技术,语音识别的应用语音识别(speech recognition)把人说的话转化为文字或者机器可以理解的指令,从而实现人与机器的交流语音识别的流程分帧:把一段语音分成若干小段声学模型:把每一帧识别为一个状态,把状态组合成音素(声母及韵母)语言模型:从同音字中挑选出正确的文字,将文字组成意义明确的语句,析音赏乐,乐曲检索技术,乐曲检索的流程窗口扫描:在乐曲上按照时间顺序依次截取和音乐片段长度一致的段落计算距离:计算片段和所截段落的特征并计算它们的距离,片段与乐曲的距离即为上述距离的最小值检索结果:与音乐片段距离最小的乐曲即为检索的结果,看懂视频,从图像到视频,视频理解技术Video Understanding计算机视觉领域的热门方向之一应用领域:视频内容分析、视频监控、人机交互、智能机器人等视频:多个图像依时间序列堆迭,看懂视频,视频行为识别,行为(Action)执行某一任务所发生一连串的动作,例如:投篮、跳水行为识别(Action Recognition):计算器分析视频数据,辨别出用户行为的过程运动是判断行为类别的重要特征行为识别的挑战距离、光影、角度等因素都会影响计算器识别视频行为的精准度困难点行为类别差异过大(例:不同的人做出的刮胡子动作不尽相同)行为定义不明背景差异过大(例:看电视的行为,角度、人数、位置),看懂视频,运动的刻画:光流,光流(optical flow)描述三维的运动点投影到二维图像之后相应的投影点位置让计算机从序列化的图像中得到人体的运动特征 光流直方图特征HOF(Histograms of Optical Flow)对视频中的光流信息进行统计,表示出视频中物体的运动信息,看懂视频,运动的刻画:光流,视频行为识别透过光流信息该点再下一影格的位置取得位移量 得到向量得出轨迹,看懂视频,基于深度学习的视频行为识别,双流卷积神经网络(two-stream CNN)静态信息物体的外观动态信息视频序列中物体的动态信息用两个不同的网络实现同时处理静态与动态讯息,非常适用于短视频(10秒),看懂视频,基于深度学习的视频行为识别,时序分段网络(temporal segment networks)适用于长视频(几分钟)稀疏时间采样( sparse temporal sampling )对于时间长度不同的数据,根据时间先后分成固定的段落就像班上每个同学提交同一份作品,选最好的当代表,也可以是大家分工不同部分一同完成,构建人工智能系统,小结,分类过程三阶段特征提取、分类器的训练及测试应用特征提取是由数据到特征向量的过程,是传统分类方法中的重点分类器-感知器和支持向量机训练算法图像、声音、视频等的不同特征提取方法人工智能系统实现图像、声音、视频的智能分类与识别的过程,让人工智能更智能,无监督机器学习的方法,阿尔法狗背后的秘密,让人工智能更智能,监督学习需要训练数据的标注信息的学习过程,就是监督学习如:分类器从数据中学会了区分鸢尾花的品种如:对图像、音频和视频的分类,都需要类别的标注信息,都属于监督学习没有类别的标注信息供人工智能参考时,怎么办?无监督学习没有标注信息的学习过程无类别信息指导很难判断哪一些鸢尾花是相同品种,“计算机能不能自动将照片整理好?”,让人工智能更智能,“计算机能不能自动将照片整理好?”,聚类(clustering)通过分析数据在特征空间的聚集情况,可以将一组数据分成不同的类。旨在把一群样本分为多个集合,使得同一个集合内的元素尽量“相似”或者“相近”是一种无监督学习过程不需要数据的类别标注不需要预先定义类别,让人工智能像真正的科学家一样,自己发掘规律。,无监督机器学习的方法,K均值聚类算法,问题的提出我们希望人工智能在不知道鸢尾花品种的前提下将这N朵鸢尾花分为K类,使得同一类样本的特征相似程度高,而不同类样本的特征相似程度低。算法主要思路先从任意一组划分出发,通过调整,逐步达成上述目标算法步骤1.先计算鸢尾花的聚类中心2. 针对矛盾样本进行调整3. K均值聚类结果4.重复第2、3步骤,直到聚类中心与划分方式不再发生变化,无监督机器学习的方法,K均值聚类算法,聚类算法示例(鸢尾花分类问题),1.先计算鸢尾花的聚类中心,2.针对矛盾样本进行调整,3. K均值聚类结果,无监督机器学习的方法,K均值聚类算法,相册中的人脸聚类只要我们能对照片中的人脸提取特征,用特征空间里的特征点表示每一张人脸,就能使用K均值算法将“相似”的人脸聚集起来了,无监督机器学习的方法,K均值聚类算法,K值的确定-手肘法聚类数量过大会导致照片划分得过细,这样就失去了实用性,需要在平均距离与聚类数量之间取得平衡如图,在K=3的时候,曲线产生了一个明显的拐点,拐点后随着K的增加平均距离减少得非常慢,因此K=3是个合适的选择。,(elbow method),无监督机器学习的方法,主题模型与潜在语义分析技术,潜在语义分析技术Latent semantic analysis针对文本数据“多主题”的特点而设计计算机可以借助该技术,从海量的文本数据中自动发掘潜在的主题,进而完成对文本内容的概括和提炼相关专有名词语料库(corpus):海量的文本数据文档( document ):语料库中独立的文本主题:文档的中心思想或主要内容,无监督机器学习的方法,主题模型与潜在语义分析技术,文本的特征词袋模型词袋模型(bag-of-words model)是用于描述文本的一个简单的数学模型,常用文本特征提取方式之一。词袋模型将一篇文文件看作是一个“装有若干词语的袋子”,只考虑词语在文档中出现的次数,而忽略词语的顺序以及句子的结构。利用词袋模型构建文本特征的基本流程,无监督机器学习的方法,主题模型与潜在语义分析技术,文本的特征中文分词对中文文本进行词袋构建之前,我们还需要藉助额外的手段拆分词语,这项技术称为中文分词。中文分词方法大多基于匹配和统计学方法。停止词与低频词停止词:是文档常出现的,构成中文句子的基本字词,对区分不同文文件的主题没有任何帮助(不携带任何主题信息的高频词)低频词:通常是一些不常用的专有名词,只出现于特定的文章中(比如姓名),不能代表某一主题。词频率与逆文档频率反映一个词语对于一篇文档的重要性的两个指标一个词语在一篇文文件中出现的频率即为词频率(team frequency)借助逆文档频率(inverse document frequency)来修正每个词语在每篇文档中的重要性,无监督机器学习的方法,主题模型与潜在语义分析技术,发掘文本中潜在的主题主题模型(topic model)是描述语料库及其中潜在主题的一类数学模型将文文档词频、主题比重、主题词频三者的关系表示为:D = WT,这个等式建立了语料库与潜在主题之间的关系,是主题模型的核心。通过主题模型,我们建立了语料库与其中潜在主题之间的关系,无监督机器学习的方法,生成对抗网络,概述generative adversarial network, GAN由“生成”、“对抗”和“网路”三个词语构成。其中“生成”是指它是一个生成模型(generative model),即它可以随机生成观测数据生成对抗网络由生成网络(generative network)和判别网络(discriminative network)两部分构成生成网络:用于生成数据判别网络:用来分辨数据是真还是假基本思想:通过生成网络和判别网络之间的相互“对抗”来学习,无监督机器学习的方法,生成对抗网络,数据空间与数据分布数据空间(data space)是数据所在的空间假定输入图片的分辨率为128x128,此时的数据空间就是所有形状为128x128x3的张量的集合。此时每张图片都是此空间里的一个点(数据点)数据分布(data distribution)是数据点在空间的分布情况,无监督机器学习的方法,生成对抗网络,生成网络生成器(generator)把潜在空间中的分布变换为图像空间中的分布(生成分布)生成网络生成的点就叫做生成点,分类网路与生成网路工作方式的比较,无监督机器学习的方法,生成对抗网络,判别网络判别器(discriminator)判断一张图片究竟是来自真实数据还是由生成网络所生成训练判别网络训练数据标注输入图片来自真实数据:标注数值1,输入图片来自生成网路:标注数值0输出结果用一个数值来指示空间中的一个点来自真实数据的可能性(概率),例:用判别网络分辨点的来源,无监督机器学习的方法,生成对抗网络,生成网络的训练包含两个交替进行的阶段固定生成网路,训练判别网路1.给定二分类数据集:真实图片/随机生成图片2.目标:使判别网路对真实图片的预测接近1,而对生成图片的预测接近0固定判别网路,训练生成网路1.生成网路利用判别网路给出的反馈讯息来调整网路参数2.目标:使生成网路输出更接近真实图片的生成图片对抗过程,阿尔法狗背后的秘密,棋类计算机程序的发展,深蓝vs卡斯帕罗夫,阿尔法狗vs李世石,强化学习(reinforcement learning)功不可没,阿尔法狗背后的秘密,阿尔法狗的走棋网络,走棋网络又被称为策略网络(policy network)该网络接受当前棋盘局面作为输入,并输出在当前局面下选择每个位置的落子概率。策略网络监督学习策略网络强化学习策略网络价值网络,阿尔法狗背后的秘密,监督学习策略网络,输入局面(3000万样本),深度卷积神经网络,落子概率预测,(s,a)s:当前棋局局面状态 a:人类的落子方案,监督学习决策网络可以模仿人类的风格下棋,可人类棋手的水平高低不一,并非每个样本都是好的落子方案,网络把好的坏的都学了,如何提高棋力?,阿尔法狗背后的秘密,强化学习策略网络,强化学习的目的是找到一个最佳策略,从而使得主体发出一系列动作后,收到的累计回报最多策略梯度的强化学习技术,监督学习策略网络,强化学习策略网络A,强化学习策略网络B,初始化,自我对弈,强化学习网络在训练时的目标不再是模拟人类棋手的风格,而是以最终赢棋为目标,阿尔法狗背后的秘密,阿尔法元概述,阿尔法元是阿尔法狗的加强版,结构更简洁,摒弃了人类棋谱的影响,完全通过自我博弈的强化学习算法训练自己,与阿尔法狗的对弈中,以100:0完胜阿尔法狗,3:0战胜柯洁,阿尔法元只以棋盘当局作为网络输入,使用策略迭代的强化学习算法去更新网络参数,神经网络同时预测当前局面落子概率分布和局面胜率评估值。,未来已来,共同开启智能时代!,