运筹学07动态规划.ppt
《运筹学07动态规划.ppt》由会员分享,可在线阅读,更多相关《运筹学07动态规划.ppt(67页珍藏版)》请在三一办公上搜索。
1、1,动态规划 Dynamic Programming,多阶段决策过程的最优化动态规划的基本概念和基本原理动态规划模型的建立与求解动态规划方法应用举例,2,1 多阶段决策过程的最优化,概述多阶段决策过程及其最优化多阶段决策过程举例动态规划求解的多阶段决策问题的特点动态规划方法导引,3,概述,动态规划是解决多阶段决策过程最优化问题的一种方法。由美国数学家贝尔曼(R Bellman)等人于20世纪50年代初提出,贝尔曼于1957年出版动态规划专著。动态规划用于解决最优路径问题、资源分配问题、生产计划与库存、投资、装载、排序等问题及生产过程的最优控制。动态规划分为离散确定型、离散随机型、连续确定型、连
2、续随机型等类型。主要介绍离散确定型动态规划。,4,多阶段决策过程及其最优化,多阶段决策过程指这样一类特殊的活动过程,它们可以按时间顺序分解成若干相互联系的阶段,称为时段,在每一个时段都要做出决策,全部过程的决策是一个决策序列。故多阶段决策问题属序贯决策问题。多阶段决策过程最优化的目标是要达到整个活动过程的总体效果最优。决策者在每段决策时不仅考虑本阶段最优,还考虑对最终目标的影响,从而做出全局最优决策。动态规划方法虽与时间关系紧密,但问题中引入时段因素即可看出多阶段决策过程。,5,多阶段决策过程举例,属于多阶段决策类的问题很多,例如:例1:工厂生产过程。由于市场需求是一随着时间而变化的因素,因此
3、,为了取得全年最佳经济效益,就要在全年的生产过程中,逐月或者逐季度地根据库存和需求情况决定生产计划安排。,6,例2:设备更新问题。一般企业用于生产活动的设备,刚买来时故障少,经济效益高,即使进行转让,处理价值也高,随着使用年限的增加,就会逐渐变为故障多,维修费用增加,可正常使用的工时减少,加工质量下降,经济效益差,并且,使用的年限越长、处理价值也越低,自然,如果卖去旧的买新的,还需要付出更新费。因此就需要综合权衡决定设备的使用年限,使总的经济效益最好。,7,例3:连续生产过程的控制问题。一般化工生产过程中,常包含一系列完成生产过程的设备,前一工序设备的输出则是后一工序设备的输入,因此,应该如何
4、根据各工序的运行工况,控制生产过程中各设备的输入和输出,以使总产量最大。,8,以上所举问题的发展过程都与时间因素有关,因此在这类多阶段决策问题中,阶段的划分常取时间区段来表示,并且各个阶段上的决策往往也与时间因素有关,这就使它具有了“动态”的含义,所以把处理这类动态问题的方法称为动态规划方法。不过,实际中尚有许多不包含时间因素的一类“静态”决策问题,就其本质而言是一次决策问题,是非动态决策问题,但是也可以人为地引入阶段的概念当作多阶段决策问题,应用动态规划方法加以解决。,9,例4:资源分配问题。某工业部门或公司,拟对其所属企业进行稀缺资源分配,为此需要制定出收益最大的资源分配方案。这种问题原本
5、要求一次确定出对各企业的资源分配量,它与时间因素无关,不属动态决策,但是,我们可以人为地规定一个资源分配的阶段和顺序,从而使其变成一个多阶段决策问题。,10,例5:运输网络最短路问题。如图所示的运输网络,顶点之间连线上的数字表示两地距离(也可以是运费、时间等),要求从v1至v10的最短路线。这种运输网络问题也是静态决策问题。但是,按照网络中点的分布,可以把它分为4个阶段,而作为多阶段决策问题来研究。该图中圆圈里是网络顶点,带箭头的是网络上的弧(应该全部是弧),弧上的数字是两个顶点之间的距离。顶点处括号内的值是各顶点到v10的最短距离。最短距离=18;最短路=v1-v3-v7-v9-v10。,1
6、1,12,动态规划求解的多阶段决策问题的特点,通常多阶段决策过程的发展是通过状态的一系列变换来实现的。一般情况下,系统在某个阶段的状态转移除与本阶段的状态和决策有关外,还可能与系统过去经历的状态和决策有关。因此,问题的求解就比较困难复杂。而适合于用动态规划方法求解的只是一类特殊的多阶段决策问题,即具有“无后效性”的多阶段决策过程。所谓无后效性,又称马尔柯夫性,是指系统从某个阶段往后的发展,仅由本阶段所处的状态及其往后的决策所决定,与系统以前经历的状态和决策(历史)无关。,13,动态规划方法导引,例6:为了说明动态规划的基本思想方法和特点,下面以例5图所示为例讨论求最短路问题的方法。第一种方法:
7、全枚举法或穷举法。它的基本思想是列举出所有可能发生的方案和结果,再对它们一一进行比较,求出最优方案。这里从v1到v10的路程可以分为4个阶段。第一段的走法有三种,第二三两段的走法各有两种,第四段的走法仅一种,因此共有322112条可能的路线,分别算出各条路线的距离,最后进行比较,可知最优路线是v1 v3 v7 v9 v10,最短距离是18。,14,显然,当组成交通网络的节点很多时,用穷举法求最优路线的计算工作量将会十分庞大,而且其中包含着许多重复计算第二种方法:即所谓“局部最优路径”法,是说某人从k出发,他并不顾及全线是否最短,只是选择当前最短途径,“逢近便走”,错误地以为局部最优会致整体最优
8、,在这种想法指导下,所取决策必是v1v3v5v8v10,全程长度是20;显然,这种方法的结果常是错误的。,15,第三种方法:动态规划方法。动态规划方法寻求该最短路问题的基本思想是,首先将问题划分为4个阶段,每次的选择总是综合后继过程的最优进行考虑,在各段所有可能状态的最优后继过程都已求得的情况下,全程的最优路线便也随之得到。为了找出所有可能状态的最优后继过程,动态规划方法总是从过程的最后阶段开始考虑,然后逆着实际过程发展的顺序,逐段向前递推计算直至始点。,16,从v10开始,因为v10是终点,再无后继过程,故可以接着考虑第4阶段上所有可能状态v8,v9的最优后续过程。因为从v8,v9到v10的
9、路线是唯一的,所以v8,v9的最优决策和最优后继过程就是到v10,它们的最短距离分别是5和3。接着考虑阶段3上可能的状态v5,v6,v7到v10的最优决策和最优后继过程。在状态v5上,虽然到v8是8,到v9是9,但是综合考虑后继过程整体最优,取最优决策是到v9,最优后继过程是v5v9v10,最短距离是12。同理,状态v6的最优决策是至v8;v7的最优决策是到v9。,17,同样,当阶段3上所有可能状态的最优后继过程都已求得后,便可以开始考虑阶段2上所有可能状态的最优决策和最优后继过程,如v2的最优决策是到v5,最优路线是v2v5v9v10,最短距离是15。依此类推,最后可以得到从初始状态v1的最
10、优决策是到v3最优路线是v1v3v7v9v10,全程最短距离是18。图中粗实线表示各点到的最优路线,每点上方括号内的数字表示该点到终点的最短路距离。,18,综上所述,全枚举法虽可找出最优方案,但不是个好算法,局部最优法则完全是个错误方法,只有动态规划方法较科学有效。动态规划方法基本思想是,把一个比较复杂的问题分解为一系列同类型的更易求解的子问题,便于应用计算机。整个求解过程分为两个阶段,先按整体最优的思想逆序地求出各个子问题中所有可能状态的最优决策与最优值,然后再顺序地求出整个问题的最优策略和最优路线。,19,2 动态规划的基本概念和基本原理,基本概念阶段和阶段变量状态、状态变量和可能状态集决
11、策、决策变量和允许决策集合策略和允许策略集合状态转移方程指标函数最优解基本原理多阶段决策问题的数学模型动态规划方法的基本思想,20,阶段和阶段变量,为了便于求解和表示决策及过程的发展顺序,而把所给问题恰当地划分为若干个相互联系又有区别的子问题,称之为多段决策问题的阶段(stage)。一个阶段,就是需要作出一个决策的子问题,通常阶段是按决策进行的时间或空间上先后顺序划分的。用以描述阶段的变量叫作阶段变量,一般以k表示阶段变量。阶段数等于多段决策过程从开始到结束所需作出决策的数目。例5所示的最短路问题就是一个四阶段决策过程。k=1,2,3,4。,21,状态、状态变量和可能状态集,用以描述事物(或系
12、统)在某特定的时间与空间域中所处位置及运动特征的量,称为状态(state)。反映状态变化的量叫做状态变量。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。按照过程进行的先后,每个阶段的状态可分为初始状态和终止状态,或称输入状态和输出状态,阶段k的初始状态记作sk,终止状态记为sk+1。但为了清楚起见,通常定义阶段的状态即指其初始状态。,22,一般状态变量的取值有一定的范围或允许集合,称为可能状态集,或可达状态集。可能状态集实际上是关于状态的约束条件。通常可能状态集用相应阶段状态sk的大写字母Sk表示,skSk。可能状态集可以是离散取值的集合,也可以为连续取值区间,视具体问题而定。在
13、例5所示的最短路问题中,第一阶段状态为v1,状态变量s1的状态集合S1=v1;第二阶段S2=v2,v3,v4;第三阶段S3=v5,v6,v7;第四阶段S4=v8,v9。,23,决策、决策变量和允许决策集合,所谓决策(decision),就是确定系统过程发展的方案。决策的实质是关于状态的选择。用以描述决策变化的量称之决策变量。和状态变量一样,决策变量可以用一个数、一组数或一向量来描述,也可以是状态变量的函数,记以uk=uk(sk),表示于阶段k状态sk时的决策变量。决策变量的取值往往也有一定的允许范围,称之允许决策集合。决策变量uk(sk)的允许决策集用Uk(sk)表示,uk(sk)Uk(sk)
14、。允许决策集合实际是决策的约束条件。,24,策略和允许策略集合,策略有全过程策略和k部子策略之分。全过程策略是指具有n个阶段的全部过程。由依次进行的n个阶段决策构成的决策序列,简称策略(policy),表示为p1,n=u1,u2,un。从第k阶段到第n阶段依次进行阶段决策构成的决策序列称为k部子策略,pk,n=uk,uk+1,un。各个阶段可供选择的决策的不同组合构成决策序列(策略),由它们组成的集合,称为允许策略集合,记作P1,n,从允许策略集中,找出具有最优效果的策略称为最优策略。,25,状态转移方程,系统在阶段k处于状态sk,执行决策uk(sk)的结果是系统状态的转移,即系统由阶段k的初
15、始状态sk转移到终止状态sk+1。多阶段决策过程的发展用阶段状态的相继演变来描述。对于具有无后效性的多阶段决策过程,系统由阶段k到阶段k+1的状态转移完全由阶段k的状态sk和决策uk(sk)所确定,与系统过去的状态s1,s2,sk-1及其决策u1(s1),u2(s2),uk-1(sk-1)无关。通常称sk+1=Tk(sk,uk(sk)为多阶段决策过程的状态转移方程,可以简写为sk+1=T(sk,uk)。,26,指标函数,用来衡量策略或子策略或决策的效果的某种数量指标,就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、
16、耗量、距离、时间、效用,等等。例5的指标函数就是各弧上的运费。,27,(1)阶段指标函数(也称阶段效应)。用gk(sk,uk)表示第k段处于sk状态且所作决策为uk(sk)时的指标,则它就是第k段指标函数,简记为gk。例5的gk值就是从状态sk到状态sk+1的距离。譬如,gk(v2,v5)=3,即v2到v5的距离为3。(2)过程指标函数(也称目标函数)。用Rk(sk,uk)表示第k子过程的指标函数。例5的Rk(sk,uk)表示处于第k段sk状态且所作决策为uk时,从sk点到终点v10的距离。由此可见,Rk(sk,uk)不仅跟当前状态sk有关,还跟该子过程策略pk(sk)有关,因此它是sk和pk
17、(sk)的函数。,28,适于用动态规划求解的问题的过程指标函数(即目标函数),必须具有关于阶段指标的可分离形式。对于子过程的指标函数可以表示为:Rk,n=Rk,n(sk,uk,sk+1,uk+1,sn,un)=gk(sk,uk)gk+1(sk+1,uk+1)gn(sn,un)。式中,表示某种运算,可以是加、减、乘、除、开方等。,29,多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即:Rk=gi(si,ui)|i=k,n有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,如:Rk=gi(si,ui)|i=k,n总之,具体问题的目标函数表达形式需要视具体问题而定。
18、,30,最优解,用fk(sk)表示第k子过程指标函数在状态sk下的最优值,即fk(sk)=optRk(sk,Pk(sk),k=1,2,n,pkPk(sk)称fk(sk)为第k子过程上的最优指标函数;与它相应的子策略称为sk状态下的最优子策略,记为pk*(sk);而构成该子策赂的各段决策称为该过程上的最优决策,记为pk*(sk)=uk*(sk),uk+1*(sk+1),un*(sn),k=1,2,n;简记为pk*=uk*,uk+1*,un*,k=1,2,n,31,特别当k=1且s1取值唯一时,f1(s1)就是问题的最优值,而p1*就是最优策略。如例5只有唯一始点v1即s1取值唯一,故f1(s1)
19、=18就是最优值,而p1*=v3,v7,v9,v10就是最优策略。但若取值不唯一,则问题的最优值记为f0,最优策略即为s1=s1*。我们把最优策略和最优值统称为问题的最优解。按上述定义,所谓最优决策是指它们在全过程上整体最优(即所构成的全过程策略为最优),而不一定在各阶段上单独最优。,32,多阶段决策问题的数学模型,综上所述,适于应用动态规划方法求解的一类多阶段决策问题,亦即具有无后效性的多阶段决策问题的数学模型呈以下形式:f=opt R=R(s1,u1,s2,u2,sn,un)sk+1=Tk(sk,uk)skSkukUkk=1,2,n式中opt表示最优化,取max或min。上述数学模型求取一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运筹学 07 动态 规划
链接地址:https://www.31ppt.com/p-5319869.html