第八九讲--动态规划运筹学基础课件.ppt
《第八九讲--动态规划运筹学基础课件.ppt》由会员分享,可在线阅读,更多相关《第八九讲--动态规划运筹学基础课件.ppt(45页珍藏版)》请在三一办公上搜索。
1、第八、九讲 动态规划,1 引言 2 动态规划的计算方法递推方式,1 引言(1),动态规划是运筹学的重要分支之一,它是解决多阶段决策过程最优化的一种方法。该法是由美国数学家贝尔曼(R.Bellman)等人在本世纪50年代首先提出的。R.Bellman于1957年发表的“动态规划”一书是动态规划方面的第一本著作。目前,动态规划已成功地用于解决资源分配、货物装运、设备更新、生产计划以及复合系统可靠性等许多问题。,1 引言(2),一、动态规划求解问题的思路某旅客需从号站到达号站,试指出一条最短路径。交通状况如图3-1所示。解一种习惯求解法是首先计算所有可能路线的距离,然后经比较选出一条最短路线,这称为
2、显枚举或穷举法,当维数增大时,该法计算量将急剧增大,从而变得不可行。动态规划是采用递推方式使计算量大减,现简介其思路。,图3-1 最优旅行路线问题,图3-1中,圆圈内数字表示旅行可能通过的站号(状态号);共分5个阶段;箭头表示旅行路线,箭头旁边数字表示距离。,1 引言(3),令x表示状态(站)号;fi(x)表示从第i阶段x状态到达终点的最短距离;di(x)表示从第i阶段x状态到达终点取最短路线时应到达的下一个状态(站)号。1)假设旅客已到达第4阶段的状态(i)若已到达状态,则只一条路可到达故 f4(8)=8 d4(8)=10(ii)若已到达状态,同理得f4(9)=4,d4(9)=10。,1 引
3、言(4),2)假设旅客已到达第3阶段的状态(i)若已到达状态,有2条路可选:及此时应检查这两种选择中能达到的最短距离,即,比较下述i)及ii)并找出最小值。i)从到的距离与到终点的最短距离和ii)从到的距离与到终点的最短距离和。这两个值分别为4+f4(8)=12和8+f4(9)=12,两种费用相等,故得 f3(5)=12 d3(5)=8或9,1 引言(5),(ii)若已到达状态,同理可得f3(6)=min=min=10对应d3(6)=9(iii)若已到达状态,同样得f3(7)=min=8d3(7)=9按照同样方法,可算出旅客已到第2阶段和第1阶段的结果。,1 引言(6),把上述计算结果全部标在
4、图3-1上的状态点附近。其中,圆圈上方数字表示该状态点的最短距离,圆圈下方数字表示该状态点的最优决策。最后,根据计算结果,可找出从到的最短路线为。,1 引言(7),二、最优化原理最优化原理可阐述如下:“一个最优策略具有这样的性质:不论初始状态和初始决策如何,相对于第1个决策所形成的状态来说,余下决策必定构成一个最优策略”。如图3-2中,若路线I和II是A到C的最优路线,则根据最优化原理,路线II必是从B到C的最优路线。,1 引言(8),三、动态规划中的主要名词术语1阶段(Stage):把问题分成几个相互联系的有顺序的几个环节,通常用k表示。2状态(State):表示某阶段的出发位置或状态值,通
5、常用x表示。3决策(Decision):从某阶段的1个状态演变到下一阶段某状态的选择,通常用d或u表示。,1 引言(8),三、动态规划中的主要名词术语4策略(Policy):由开始到终点的全过程中,由每段决策组成的决策序列称为全过程策略,简称策略,通常用P表示。5目标函数(或费用函数):在优化过程中,衡量实现过程的优劣的准则,通常用f或J表示。,2 动态规划的计算方法递推方式(1),根据动态规划所求解问题的不同情况可采用后向(逆序)动态规划和前向(顺序)动态规划两种。一、后向动态规划法已知:目标函数 J=min 约束条件(状态转移方程)x(k+1)=gx(k),u(k),k则,递推公式为,2
6、动态规划的计算方法递推方式(2),起步:其中,I(x,k)从k阶段x状态出发采取最优策略到达过程终点所获得的最优目标值;L(x,u,k)k阶段x状态采取决策u所获得的本段目标函数值,又称直接项;U决策变量u的集合。,2 动态规划的计算方法递推方式(3),例3-2供电系统的投资规划问题某工厂为满足用电需求增加量,计划在1980年,1985年及1990年投资兴建发电站。电站有500MW和1000MW两种,每年最多兴建一座电站,其投资额示如表3-1,下列表内金额全折合到1980年标准。,表3-1 兴建电站投资表(单位:106元),2 动态规划的计算方法递推方式(4),电站投资兴建后5年发电。工厂各年
7、需新增加的累积电功率示如表3-2。,表3-2 工厂各年需新增电功率,2 动态规划的计算方法递推方式(5),工厂任何一年缺电量不能超过400MW,缺电400MW以内需罚款,罚款数目示如表3-3。,表3-3 历年缺电罚款表(单位:106元),2 动态规划的计算方法递推方式(6),问:在1980年、1985年、1990年及1995年应如何兴建电站才能使建电站费与罚款费用总和最小?解 依据题意,选阶段变量k=0,1,2,3分别对应1980年、1985年、1990年及1995年;状态变量x(k)表示阶段k时已有的新增总电量,单位为兆瓦(MW);决策变量u(k)表示阶段 k时兴建的电站容量,单位为兆瓦(M
8、W)。,2 动态规划的计算方法递推方式(7),令x(0)=0,工厂最大需求新增电量为1200MW,因此,x的离散值为0,500,1000,1500,u的离散值为0,500,1000。把建站费用和罚款费用表达成k,x及u的关系式,令L1(u,k)表示 k阶段决策值为u时的建站费用,L2(x,k)表示k阶段状态值为x时的罚款费用。L1和L2的值分别列于表3-4及表3-5中。,2 动态规划的计算方法递推方式(8),表3-4 建站费用L1(u,k)表(单位:106元),2 动态规划的计算方法递推方式(9),表3-5 罚款费用L2(x,k)表(单位:106元),号表示不容许状态,2 动态规划的计算方法递
9、推方式(10),则,递推公式为I(x,k)=k=0,1,2I(x,3)=L2(x,3)(1995年不需建电站)根据题意,将表达离散状态变量值的初始网格示如图3-3。计算时,从k=3起步,逐步后退进行。,2 动态规划的计算方法递推方式(11),1)设已到达k=3阶段,此时,不需再建新电站,因新电站兴建后5年,即2000年才提供电力,而本题对2000年的电力未提要求,于是,此时建站费用(L1(u,3)=0,故该阶段的最优费用I(x,3)=L2(x,3)(罚款费用)。查表3-5知:x=1500,I(1500,3)=0 不罚款x=1000,I(1000,3)=0.1 罚款 不允许,2 动态规划的计算方
10、法递推方式(12),2)退回k=2阶段(i)设x(2)=1500,此时u(2)必为0,最优费用为I(1500,2)=L1(0,2)+L2(1500,2)+I(1500,3)=0+0+0=0(ii)设x(2)=1000令u(2)=0,得此时的最优费用为I(1000,2)=L1(0,2)+L2(1000,2)+I(1000+0,3)=0+0+0.1=0.1,2 动态规划的计算方法递推方式(13),令u(2)=500,得此时的最优费用为I(1000,2)=L1(500,2)+L2(1000,2)+I(1000+500,3)=0.25+0+0=0.25令u(2)=1000,得x(3)=2000,越界故
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 动态 规划 运筹学 基础 课件
链接地址:https://www.31ppt.com/p-3732418.html