《运筹学研究生辅导课件》第二章动态规划.ppt
《《运筹学研究生辅导课件》第二章动态规划.ppt》由会员分享,可在线阅读,更多相关《《运筹学研究生辅导课件》第二章动态规划.ppt(109页珍藏版)》请在三一办公上搜索。
1、第二章 动态规划,动态规划作为运筹学的一个重要分支是解决多阶段决策过程最优化的一种非常有效的方法。1951年,美国数学家贝尔曼(R.Bellman)等人,根据一类多阶段决策问题的特点,把多阶段决策问题变换为一系列相互联系的单阶段决策问题,然后分阶段逐个加以解决。贝尔曼等人在研究和解决了大量实际问题之后,提出了解决这类问题的所谓“最优性原理”,通常称为“贝尔曼最优化原理”,从而创建了解决最优化问题的一种新的方法 动态规划(Dynamic Programming)。,为了说明动态规划的基本思想方法和特点,以下图所示为例,讨论求最短路问题的方法。,求从A到E的最短路径,2,5,1,12,14,10,
2、6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f5(E)=0,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D1)=5,f5(E)=0,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f4(D1)=5,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6
3、,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C1)=8,f4(D1)=5,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C2)=7,f4(D1)=5,f3(C1)=8,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4
4、(D1)=5,f3(C1)=8,f3(C2)=7,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B1)=20,f3(C2)=7,f3(C1)=8,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B2)=14,f3(C2)=7,f3(C
5、1)=8,f2(B1)=21,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B3)=19,f3(C2)=7,f3(C1)=8,f2(B1)=21,f2(B2)=14,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B3)=19,f3(
6、C2)=7,f3(C1)=8,f1(A)=19,f2(B2)=14,f2(B1)=21,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B3)=19,f3(C2)=7,f3(C1)=8,f1(A)=19,f2(B2)=14,f2(B1)=21,状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态,A(A,B2)B2,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,1
7、0,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B3)=19,f3(C2)=7,f3(C1)=8,f1(A)=19,f2(B2)=14,f2(B1)=21,状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态,A(A,B2)B2(B2,C1)C1,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B3)=
8、19,f3(C2)=7,f3(C1)=8,f1(A)=19,f2(B2)=14,f2(B1)=21,状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态,A(A,B2)B2(B2,C1)C1(C1,D1)D1,2,5,1,12,14,10,6,10,4,13,11,12,3,9,6,5,8,10,5,2,C1,C3,D1,A,B1,B3,B2,D2,E,C2,f4(D2)=2,f5(E)=0,f3(C3)=12,f4(D1)=5,f2(B3)=19,f3(C2)=7,f3(C1)=8,f1(A)=19,f2(B2)=14,f2(B1)=21,状态 最优决策 状态 最优决策 状态
9、 最优决策 状态 最优决策 状态,A(A,B2)B2(B2,C1)C1(C1,D1)D1(D1,E)E从A到E的最短路径为19,路线为AB 2C1 D1 E,1、阶段(stage)为了便于求解和表示决策过程的发展顺序,而把所给问题恰当地划分为若干个相互联系又有区别的子问题,称之为多段决策问题的阶段。一个阶段,就是需要作出一个决策的子问题,通常,阶段是按决策进行的时间顺序或空间特征上先后顺序划分的。用以描述阶段的变量叫作阶段变量,一般以k表示阶段变量阶段数等于多段决策过程从开始到结束所需作出决策的数目,例如上面的最短路问题就是一个四阶段决策过程。,动态规划的基本概念和基本原理,2、状态(stat
10、e)每个阶段开始时过程所处的自然状况或客观条件。反映状态变化的量叫做状态变量,它可以用一个数,一组数或一向量来描述,。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。它应能描述过程的特征并具有“无后效性”,即当前阶段状态给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关。用sk表示状态变量(state variable)。,一般状态变量的取值有一定的范围或允许集合,称为可能状态集(set of admissible states)。可能状态集实际上是关于状态的约束条件。通常可能状态集用相应阶段状态sk的大写字母Sk表示,可能状态集可以是一离散取值的集合,也可以为一连续的取值
11、区间,视具体问题而定例如上面的最短路问题中,第一阶段状态为A,状态变量s1的状态集合S1=A;第二阶段则有三个状态:B1,B2,B3,状态变量s2的状态集合S2=B1,B2,B3.,3、决策(decision)当一个阶段的状态确定后,可以作出不同的决定或选择,从而演变到下一阶段的某个状态,这种决定或选择称为决策。用以描述决策变化的量称之决策变量(decision variable)。和状态变量一样,决策变量可以用一个数,一组数或一向量来描述,由于各阶段的决策取决于状态变量sk,所以用 uk(sk),表示阶段k的状态为sk时的决策变量。决策变量的取值往往也有一定的允许范围,称之允许决策集合(se
12、t of admissible decision)。决策变量uk(sk)的允许决策集用Uk(sk)表示,允许决策集合实际是决策的约束条件。,4、策略(policy)一组有序的决策序列构成一个策略,从第k阶段至第n阶段的一个策略称为k部子策略记为 pk,n(sk)=uk,uk+1,un,当k=1时的k部子策略称为全过程策略,简称策略,记为p1,n(s1)。在实际问题中,由于在各个阶段可供选择的决策有许多个,因此,它们的不同组合就构成了许多可供选择的决策序列(策略),由它们组成的集合,称之允许策略集合,记作P1,n,从允许策略集中,找出具有最优效果的策略称为最优策略。,5、状态转移方程(equat
13、ion of state transition)反映前后阶段状态之间关系的方程称为状态转移方程。在确定型多阶段决策过程中,一旦某阶段的状态和决策为已知,下一阶段的 状态便完全确定,用状态转移方程反映这种状态间的演变规律,记作:,有些问题的状态转移方程不一定存在数学表达式,但是它们的状态转移,还是有一定规律可循的。,6、阶段指标值(objective value in a stage)阶段指标值是第k阶段的状态为sk和采取决策uk时的效益,通常表示为 dk(sk,uk)。对不同问题,阶段指标值可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间,等等。例如上面的最短路问题中,如果第二阶段地状
14、态为B2,采取决策是由B2到达C1,则阶段指标值为6。,7、指标函数(objective function)衡量在选定某策略时,其优劣的数量指标。定义在整个过程(1到n阶段)上的指标函数记为:V1,n(s1,u1,s2,sn,un),定义在后部子过程(k到n阶段)上的指标函数记为:Vk,n(sk,uk,sn,un)。Vk,n(sk,uk,sn,un)表示第k阶段处于sk状态且所作决策为uk,uk+1,un时的决策效果。由此可见,Vk,n(sk,uk,sn,un)不仅跟当前状态sk有关,还跟该子过程策略pk,n(sk)有关,因此它是sk和pk,n(sk)的函数,因此它可简记为:Vk,n(sk,p
15、k,n),指标函数Vk,n(sk,pk,n)通常是描述所实现的全过程或k后部子过程效果优劣的数量指标,它是由各阶段的阶段指标函数dk(sk,uk)累积形成的,适于用动态规划求解的问题的指标函数,必须具有关于阶段指标的可分离形式对于后部子过程的指标函数可以表示为:,式中,表示某种运算,可以是加、乘等。,总之,具体问题的目标函数表达形式需要视具体问题而定。,多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即:,有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,如:,8、最优指标函数(optimal value function)指标函数的最优值称为最优指标函数,记
16、为fk(sk),它表示从第k阶段状态 sk 出发,采用最优策略到终止状态时的后部子过程指标函数值,即,式中opt即optimization,根据具体问题可取max或min。与它相应的子策略称为在sk状态下的最优子策略,记为pk*(sk);而构成该子策略的各段决策称为该过程上的最优决策,记为,即,简记为,特别当k=1时,f1(s1)就是问题的最优值,而p1*就是最优策略。例如上面的最短路问题中,有唯一最优值f1(s1)=18,而,就是其最优策略。,多阶段决策问题的数学模型 综上所述,适于应用动态规划方法求解的一类多阶段决策问题,亦即具有无后效性的多阶段决策问题的数学模型呈以下形式:,最优化原理(
17、贝尔曼最优化原理)作为一个全过程的最优策略具有这样的性质:对于最优策略过程中的任意状态而言,无论其过去的状态和决策如何,余下的诸决策必构成一个最优子策略。该原理的具体解释是,若某一全过程最优策略为:,则对上述策略中所隐含的任一状态而言,第k子过程上对应于该状态的最优策略必然 包含在上述全过程最优策略p1*中,即为,动态规划的基本方程 在上面最短路问题的求解过程中,在求解的各阶段利用了第k阶段和第k+1阶段的如下递推关系:,其中,,表示从状态sk到由决策uk(sk)所决定的状态sk+1之间的距离。,一般地,对于n个阶段的决策过程,假设只考虑指标函数是“和”与“积”的形式,第k阶段和第k+1阶段间
18、的递推公式可表示如下:(1)当指标函数为下列“和”的形式时,其相应的基本方程为,是边界条件。,(2)当过程指标函数为下列“积”的形式时,其相应的基本方程为,一般来说,要用函数基本方程逆推求解,首先要有效地建立动态规划模型,然后再递推求解,最后得出结论.然而,要把一个实际问题用动态规划方法来求解,还必须首先根据问题的要求。把它构造成动态规划模型,这是非常重要的一步。正确地建立一个动态规划模型,往往问题也就解决了一大半,而一个正确的动态规划模型,应该满足哪些条件呢?,动态规划求解的一般步骤:-确定过程的分段,构造状态变量;-设置决策变量,写出状态转移;-列出阶段指标和指标函数;-写出基本方程,由此
19、逐段递推求解。,机器负荷问题例1 有某种机床,可以在高低两种不同的负荷下进行生产,在高负荷下生产时,产品的年产量为g,与年初投入生产的机床数量u1的关系为g=g(u1)=8u1,这时,年终机床完好台数将为au1,(a为机床完好率,0a1,设a=0.7).在低负荷下生产时,产品的年产量为h,和投入生产的机床数量u2的关系为h=h(u2)=5u2,相应的机床完好率为b(0b1,设b=0,9),一般情况下ab。,假设某厂开始有x=1000台完好的机床,现要制定一个五年生产计划,问每年开始时如何重新分配完好的机床在两种不同的负荷下生产的数量,以使在5年内产品的总产量为最高。解:首先构造这个问题的动态规
20、划模型。1变量设置(1)设阶段变量k表示年度,因此,阶段总数n=5。(2)状态变量sk表示第k年度初拥有的完好机床台数,同时也是第k-1年度末时的完好机床数量。,(3)决策变量uk,表示第k年度中分配于高负荷下生产的机床台数。于是sk-uk便为该年度中分配于低负荷下生产的机床台数 这里sk与uk均取连续变量,当它们有非整数数值时可以这样理解:如sk0.6,就表示一台机器在k年度中正常工作时间只占6/10;uk=0.4时,就表示一台机床在 k年度只有4/10的时间于高负荷下工作 2状态转移方程为 k=1,2,,6,5最优目标函数递推方程。令fk(sk)表示由第k年的状态sk出发,采取最优分配方案
21、到第5年度结束这段时间的产品产量,根据最优化原理有以下递推关系:k=1,2,3,4,5,3允许决策集合,在第k段为,4目标函数。设vk(sk,uk)为第k年度的产量,则vk(sk,uk)=8uk+5(sk-uk),因此,目标函数为,k1,2,5,6.边界条件为 下面采用逆序递推计算法,从第5年度开始递推计算。k=5时有 显然,当u5*=s5时,f5(s5)有最大值,相应的有f5(s5)=8s5 k=4时有,=,因此,当u4*=s4时,有最大值f4(s4)=13.6s4,k=3 时有 可见,当u3*=s3时,f3(s3)有最大值f3(s3)=17.55s3.k=2 时有=+=此时,当取u2*=0
22、时有最大值,即f2(s2)=20.8s2,其中s2=0.7u1+0.9(s1-u1),=,k=1时有+=当取u1*=0时,f1(s1)有最大值,即f1(s1)=23.7s1,因为s1=1000,故f1(s1)=23700个产品 按照上述计算顺序寻踪得到下述计算结果:,上面所讨论的最优决策过程是所谓始端状态s1固定,终端状态s6自由如果终端也附加上一定的约束条件,那么计算结果将会与之有所差别例如,若规定在第五个年度结束时,完好的机床数量为500台(上面只有278台),问应该如何安排五年的生产,使之在满足这一终端要求的情况下产量最高?,解:由状态转移方程 有得 显而易见,由于固定了终端的状态s6,
23、第五年的决策变量U5的允许决策集合U5(s5)也有了约束,上式说明U5(s5)已退化为一个点,即第五年投入高负荷下生产的机床数只能由式U5=4.5s5-2500作出一种决策,故,500,当k=5时有 当k=4时有 显然,只有取u4*=0,f4(s4)有最大值,即f4(s4)=21.7s4-7500。同理类推,=,=,=,=,k=3时有 可知,当u3*=0时,f3(s3)有最大值f4(s4)=24.5s3-7500.k=2时有 此时,当u2*=0时有最大值,即f2(s2)=27.1s2-7500,=,=,=,=,+,k=1时有 只有取u1*=0时,f1(s1)有最大值,即 f1(s1)=29.4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运筹学研究生辅导课件 运筹学 研究生 辅导 课件 第二 章动 规划
链接地址:https://www.31ppt.com/p-5904506.html