动态规划教学PPT.ppt
《动态规划教学PPT.ppt》由会员分享,可在线阅读,更多相关《动态规划教学PPT.ppt(50页珍藏版)》请在三一办公上搜索。
1、4 动态规划,4.1 多阶段决策问题与动态规划 4.2 动态规划的基本概念 4.3 动态规划的步骤 4.4 动态规划的应用 1 求解静态规划问题 2 资源分配问题 3 不确定性采购问题 4 排序问题,例2 机器负荷分配问题 某种机器可以在高低两种不同的负荷下进行生产在高负荷下进行生产时,产品的年产量g和投入生产的机器数量u的关系为 gg(u),这时机器的年完好率为a(0a1)在低负荷下生产时,产品的年产量h和投入生产的机器数量v的关系为hh(v),这时机器的年完好率为b(ab1)假定开始生产时完好的机器数量为s1,要求制定一个五年计划,在每年开始时决定机器在两种不同负荷下生产的数量,使五年内产
2、品的总产量最高。,4.1 多阶段决策问题与动态规划,多阶段决策问题和我们前面遇到的决策问题不同,它是和时间有关的。与时间有关的活动过程称为动态过程,其优化方法称为动态规划。而与时间无关的活动过程称为静态过程,相应的的优化方法称为静态规划。,(1)阶段(stage)把所研究的决策问题,按先后顺序划分为若干相互联系的决策步骤,以便按一定的次序进行求解。描述阶段的变量称阶段变量,常用k表示。,(2)状态(state)状态表示每个阶段开始时所处的自然状况或客观条件,它描述了影响决策的因素随决策进程的变化情况,它既是前面阶段所作决策的结果,又是本阶段作出决策的出发点和依据。描述状态的变量称为状态变量,第
3、k阶段的状态变量常用sk表示。通常,在第一阶段状态变量s1是确定的,称初始状态。,(3)决策(decision)决策表示在某一阶段处于某种状态时,决策者在若干种方案中作出的选择决定。描述决策的变量称决策变量,第k阶段的决策变量常用uk表示。决策变量的取值会受到状态变量的制约,被限制在某一范围之内。,4.2 动态规划的基本概念(一),(4)策略(policy)把从第一阶段开始到最后阶段终止的整个决策过程,称为问题的全过程;而把从第k阶段开始到最后阶段终止的决策过程,或称为k子过程。在全过程上,各阶段的决策按顺序排列组成的决策序列p1,n u1,u2,un 称为全过程策略,简称策略;而在k子过程上
4、的决策序列pk,n uk,uk+1,un 称为k子过程策略,也简称子策略。,(5)状态转移方程 若第k阶段的状态变量值为sk,当决策变量uk的取值决定后,下一阶段状态变量sk+1的值也就完全确定。即sk+1的值对应于sk和uk的值。这种对应关系记为sk+1Tk(sk,uk),称为状态转移方程。状态转移方程描述了由一个阶段的状态到下一阶段的状态的演变规律。,4.2 动态规划的基本概念(二),(6)指标函数和最优值函数 指标函数分为阶段指标函数和过程指标函数。阶段指标函数是对某一阶段的状态和决策产生的效益值的度量,用vk(sk,uk)表示。过程指标函数是指过程所包含的各阶段的状态和决策所产生的总的
5、效益值,记为 Vk,nVk,n(sk,uk,sk+1,uk+1,sn,un)动态规划所要求的过程指标函数应具有可分离性,即可表达为它所包含的各阶段指标函数的函数形式。常见的两种过程指标函数形式是:各阶段指标函数的和 Vk,nvj(sj,uj);各阶段指标函数的积 Vk,nvj(sj,uj)。把过程指标函数Vk,n对k子过程策略pk,n求最优,得到一个关于状态sk的函数,称为最优值函数,记为fk(sk)。即 fk(sk)opt Vk,n(sk,uk,sn,un)uk,un式中的“opt”(optimization)可根据具体问题而取min或max。,fk(sk)-表示第k阶开始状态为sk的情况下
6、到末状态为sn作最优策略对应的指标值,(7)基本方程 通常动态规划问题的最优值函数满足递推关系式。设过程指标函数为各阶段指标函数的和的形式,即Vk,nvj(sj,uj),则有 fk(sk)opt vk(sk,uk)+fk+1(sk+1)ukDk(sk)(kn,n-1,1)递推方程 fn+1(sn+1)0 边界条件递推方程和边界条件一起称为动态规划的基本方程。可根据边界条件,从k=n开始,由后向前逆推,逐步求得各阶段的最优决策和相应的最优值,最后求出f1(s1)时,就得到整个问题的最优解(称为逆序解法)。,此问题的基本方程为fk(sk)Mindk(uk)+fk+1(sk+1)ukDk(sk)k6
7、,5,4,3,2,1f7(s7)0,4.3 动态规划的步骤(一),当k=6时,按基本方程由后向前继续递推有:,当k=5时,当k=4时,当k=3时,当k=2时,当k=1时,由此可以看出,A到G的最短路长为18,路径为:AB1C2D1E2F2G,现在把动态规划法的步骤归纳如下:(1)将所研究问题的过程划分为n个恰当的阶段,k 1,2,n;(2)正确地选择状态变量Sk,并确定初始状态S1的值;(3)确定决策变量uk以及各阶段的允许决策集Dk(Sk);(4)给出状态转移方程;(5)给出满足要求的过程指标函数Vk,n及相应的最优 值函数;(6)写出递推方程和边界条件,建立基本方程;(7)按照基本方程递推
8、求解。以上步骤是动态规划法处理问题的基本步骤,其中的前六步是建立动态规划模型的步骤。,4.3 动态规划的步骤(二),顺序解法-即解题顺序与决策顺序一致,4.3 动态规划的顺序解法(三),即是在第k阶段末状态sk+1已知的情况下,确定前面的决策uk,使从初始状态s1到第k阶段末状态sk+1的策略最优,此时的状态转移方程应为,从sk+1出发通达uk解出sk,即从sk+1Tk(sk,uk)中反解出sk,skTrk(sk+1,uk),fk(sk+1)-表示第k阶末状态为sk的情况下到第1阶初始状态为s1作最优策略对应的指标值,顺序解法基本方程为,fk(sk+1)opt vk(sk+1,uk)+fk-1
9、(sk)ukDrk(sk+1)(k1,n)递推方程 f0(s1)0 边界条件,4.3 动态规划的顺序解法(三),fk(sk)-表示第k阶末状态为sk的情况下到第1阶初始状态为s1作最优策略对应的指标值,则顺序解法基本方程为,fk(sk)opt vk(sk,uk)+fk-1(sk-1)ukDrk(sk)(k1,n)递推方程 f0(s0)0 边界条件,如果sk表示第k阶段末状态,s0表示第1阶段初始状态,注,贝尔曼(Ballman)最优化原理 作为整个过程的最优策略具有这样的性质,即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。这就是说,不管引导到这个现时状
10、态的头一个状态和决策是什么,所有的未来决策应是最优的。,例:机器负荷问题 某种机器可以在高低两种不同的负荷下进行生产在高负荷下进行生产时,产品的年产量g和投入生产的机器数量u的关系为 g8u,这时机器的年完好率为a=0.7在低负荷下生产时,产品的年产量h和投入生产的机器数量v的关系为h5v,这时机器的年完好率为b=0.9假定开始生产时完好的机器数量为s1,要求制定一个五年计划,在每年开始时决定机器在两种不同负荷下生产的数量,使五年内产品的总产量最高。,(1)按年数划分为5个阶段,k=1,2,3,4,5,(2)取第k年初完好的机器数sk为状态变量,s1=1000,(3)取第k年投入高负荷的机器数
11、xk为决策变量,0 xksk,(4)状态转移方程为 sk+1=0.7xk+0.9(sk-xk)=0.9sk-0.2xk,(5)指标函数为Vk,5=8xj+5(sj-xj)=(5sj+3xj),(6)基本方程为 fk(sk)max 5sj+3xj+fk+1(sk+1)k=5,4,3,2,1 0 xksk f6(s6)0,解:,当k=5时,f5(s5)max5s5+3x5+f6(s6)=max5s5+3x5=8s5(x5*=s5)0 x5s5 0 x5s5,当k=4时,f4(s4)max5s4+3x4+8s5=max5s4+3x4+8(0.9s4-0.2x4)0 x4s4 0 x4s4=max12
12、.2s4+1.4x4=13.6s4(x4*=s4)0 x4s4,当k=3时,f3(s3)max5s3+3x3+13.6s4=max5s3+3x3+13.6(0.9s3-0.2x3)0 x3s3 0 x3s3=max17.24s3+0.28x3=17.5s3(x3*=s3)0 x3s3,当k=2时,f2(s2)=max5s2+3x2+17.52s3=max5s2+3x2+17.52(0.9s2-0.2x2)0 x2s2 0 x2s2=max20.77s2-0.504x2=20.7s4(x2*=0)0 x2s2,当k=1时,f1(s1)=23.7s1(x1*=0),f1(1000)=23700,s
13、1=1000,x1*=0,s2=900,x2*=0,s3=810,x3*=810,s4=576,x4*=576,s5=397,x5*=397,某些静态规划问题可用动态规划法来求解。,例 用动态规划法求解 max z=x1.x22.x3 x1+x2+x3=c xi0 i=1,2,3,4.4 动态规划的应用(一),1 求解静态规划问题,4.5 动态规划模型举例,4.5.1 产品生产计划安排问题 例1 某工厂生产某种产品的月生产能力为10件,已知今后四个月的产品成本及销售量如表所示。如果本月产量超过销售量时,可以存储起来备以后各月销售,一件产品的月存储费为2元,试安排月生产计划并做到:1、保证满足每
14、月的销售量,并规定计划期初和期末库存为零;2、在生产能力允许范围内,安排每月生产量计划使产品总成本(即生产费用加存储费)最低。,例1 产品生产计划安排,设xk为第k阶段生产量,则有直接成本 dk(sk,xk)=ck xk+2sk状态转移公式为 sk+1=sk+xk-yk总成本递推公式,第四阶段:(即第4月份)由边界条件和状态转移方程 s5=s4+x4-y4=s4+x46=0 得 s4+x4=6 或 x4=6 s4估计第四阶段,即第4月份初库存的可能状态:s4 0,5,第四阶段最优决策表,第三阶段:最大可能库存量 7 件由状态转移方程:s4=s3+x3-120 及 x310,可知 s32,7,m
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态 规划 教学 PPT
链接地址:https://www.31ppt.com/p-2921558.html