强化学习简介 ppt课件.ppt
《强化学习简介 ppt课件.ppt》由会员分享,可在线阅读,更多相关《强化学习简介 ppt课件.ppt(50页珍藏版)》请在三一办公上搜索。
1、,强化学习简介Reinforcement Learning,2,2,什么是机器学习(Machine Learning)?机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。1959年美国的塞缪尔设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。,3,3,机器学习的分类?机器学习,监督学习:计算机获得简单的输入给出期望的输
2、出,过程是通过一个“训练模型”,学习通用的准则来从输入映射到输出。,无监督学习:没有给出标记用来学习算法,让它自己去发现输入的结构。无监督学习自己可以被当成一个目标或者一个实现结果的途径(特征学习)。,强化学习:一个计算机程序与动态环境交互,同时表现出确切目标(比如驾驶一辆交通工具或者玩一个游戏对抗一个对手)。这个程序的奖惩机制会作为反馈,实现它在问题领域中的导航。,4,强化学习(reinforcement learning)与监督学习、非监督学习的区别,没有监督者,只有奖励信号反馈是延迟的,不是顺时的时序性强,不适用于独立分布的数据自治智能体(agent)的行为会影响后续信息的接收,5,思考
3、:,五子棋:棋手通过数学公式计算,发现位置1比位置2价值大,这是强化学习吗?这不叫强化学习,叫规划如果通过几次尝试,走位置1比走位置2赢棋的可能性大,得出经验,则为强化学习,6,强化学习模型几个定义自治智能体Agent学习的主体,如小猫、小狗、人、机器人、控制程序等Agent的特点1、主动对环境做出试探2、环境对试探动作反馈是评价性的(好或坏)3、在行动-评价的环境中获得知识,改进行动方案,达到预期目的,7,奖励信号(rewards)奖励信号R是一个标量信号表示agent在步骤T中所产生动作好坏Agent的任务是最大化累积奖励信号,8,强化学习模型,9,例子,图中黄点是机器人,目的是走到绿色的
4、方块reward+1000,黑色方块是墙壁,撞到reward-10,红色方块是陷阱,撞到reward-1000,其他reward+0,10,11,12,13,强化学习基本要素,强化学习基本要素及其关系,14,策略定义了agent在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射。可能是一个查找表,也可能是一个函数确定性策略:a=(s)随机策略:(a s)=PAt=a St=s,15,回报函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏回报函数可以作为改变策略的标准,16,值函数:一个状态起agent所能积累的回报的总和。在决策和评价决策
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 强化学习简介 ppt课件 强化 学习 简介 ppt 课件
链接地址:https://www.31ppt.com/p-2118994.html