用深度神经网络和树搜索征服围棋ppt课件.ppt
《用深度神经网络和树搜索征服围棋ppt课件.ppt》由会员分享,可在线阅读,更多相关《用深度神经网络和树搜索征服围棋ppt课件.ppt(14页珍藏版)》请在三一办公上搜索。
1、Mastering the game of Go with deep neural networks and tree search用深度神经网络和树搜索征服围棋,给定棋盘当前状态,预测下一子落在何处,如何决定下一步最优:对每一步可能的落子进行推演,直到每盘棋分出胜负为止。统计每一步可能落子后续的推演赢的比率,选取赢的最多的落子。,搜索空间将如宇宙星空一般,1、构造一个落子预测器,去掉臭棋,敲定最有可能的落子候选,2、构造棋局价值评估器,告诉我们当前棋局的“赢面”,就不需要“那么深了”,落子预测器与棋局价值评估器使用深度学习技术,论文上称为政策网络(policy network)与价值网络(v
2、alue network),Alphago采用:蒙特卡洛搜索树政策网络价值网络共同作用,蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把这两个部分连起来,形成一个完整的系统。,通用人工智能(General Artificial Intelligence),是指能通过自我学习解决各种问题的智能算法。人类的大脑就是一种通用智能,因为人既可以学游泳,也可以学下棋。开发AlphaGo的DeepMind就是这么一家公司,以实现通用人工智能为目标。通用人工智能并不是等价于类人智能。但解决了通用人工智能,类人智能也必然能够达到。AlphaGo的算法就是典型的通用人工智能算法,核
3、心使用了深度学习(Deep Learning),增强学习(Reinforcement Learning)。而深度增强学习(Deep Reinforcement Learning),就是通用人工智能算法的具体表现形式。什么叫通用?就是这个算法既可以训练用来下围棋,也可以训练用来开车,还可以训练用来股票交易。,DeepMind和OpenAI研究的方向:1 Deep Reinforcement Learning深度增强学习,用于构造学习机制 2 Deep Generative Model深度生成模型,用于理解信息,可以用于预测规划 3 Neural Memory神经网络记忆,用于存储信息和推理 4 One Shot Learning 一眼学习,用于快速学习 5 Deep Transfer Learning 深度迁移学习,用于移植知识 以上多点的综合运用,必将可以制造更强大的通用人工智能算法!而这些方向的研究,都越来越接近人类大脑的本质,或者说智能的本质!,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 神经网络 搜索 征服 围棋 ppt 课件
链接地址:https://www.31ppt.com/p-2096520.html