九章节动态规划法.ppt

上传人：sccc

文档编号：5304492

上传时间：2023-06-24

格式：PPT

页数：45

大小：966.03KB

《九章节动态规划法.ppt》由会员分享，可在线阅读，更多相关《九章节动态规划法.ppt（45页珍藏版）》请在三一办公上搜索。

1、第九章动态规划法,动态规划法是求解控制变量限制在一定闭集内的最优控制问题的又一种重要方法，它是由美国学者贝尔曼于1957年提出来的。动态规划法把复杂的最优控制问题变成多级决策过程的递推函数关系，它的基础及核心是最优性原理。本章首先介绍动态规划法的基本概念，然后讨论如何用动态规划法求解离散及连续系统的最优控制问题。,第一节动态规划法的基本概念,一、多级决策过程,所谓多级决策过程是指把一个过程分成若干级，而每一级都需作出决策，以便使整个过程达到最佳效果。为了说明这个概念，首先讨论一个最短路线问题的例子。,设有路线图如图7-1所示。现在要从地出发，选择一条最短路线最终到达地，其间要通过等中

2、间站，各站又有若干个可供选择的通过点，各地之间的距离已用数字标注在图中。由此可见，通过这些中间站时，有多个方案可供选择。,解决这类问题有两种方法：,探索法（穷举法）,将至的所有可能的路线方案都列举出来，算出每条路线的路程，进行比较，找出最短路线。直观可知，这种方法是很费时的，如本例共有38条路线可供选择。如果中间站及各站可供选择的通过点都增为10个，则可供选择的路线将急剧增至1010条，显然计算工作量将急剧增加。,分级决策法,将整个过程分成若干级，逐级进行决策。具体过程如下：,将至全程分为五级：第一级由至；第二级由至；第三级由至；第四级由至；第五级由至。让我们由后向前逐级分析，先

3、从第五级开始，其起点为，终点为。至各只有一条路线，并无选择余地。至路程为1，至路程为2。第四级起点为，终点为，其间有六条路线，由至的各种可能路线为:,可以发现，如果从出发，则走为最短，因此至应选这段路线，称为决策。同理，如果从出发，应决策；从出发，应决策。可见作此决策时不能只从本级路程长短出发，应考虑两级路程之和为最短。在整个路线问题中，究竟哪一点作为起点，则取决于第三级的决策，不过提出的三条可能的最短路线为第三级的决策积累了数据资料。,可见同样方法来分析第三级，其起点为，终点为，按题意共有八条路线。但是，至的最短路线已在第四级讨论中确定，因此的路线选择问题，实际

4、上只是选定级的路线问题（即本级决策问题）。因此，至只有八条路线，分别为,比较可得分别从出发时的三条最短路线，它们为：；。,用同样方法，依次对级及级进行讨论，其结果列于表7-1。最后得到最短路线为,相应最短路程为：。,通过上例的讨论，可以看到多级决策过程具有以下特点：,把整个过程看成（或人为地分成）级的多级过程。,采取逐级分析的方法，一般由最后一级开始倒向进行。,在每一级决策时，不只考虑本级的性能指标的最优，而是同时考虑本级及以后的总性能指标最优，因此它是根据“全局”最优来作出本级决策的。,从数学观点，分级决策法与穷举法进行比较：,穷举法：全程五级线路，每一级都可任选，因此全部路程相当

5、于一个“五变量函数”，求全程最短实质上是求这个“五变量函数”的极小值。,分级决策法：分成五级，从最后一级开始进行分级决策时，每级都是一个“单变量函数”，因此进行每一级决策时，实际上是求一个“单变量函数”的极小值。因此多级决策法把一个求“五变量函数”的极值问题转化成为一个五组求“单变量函数”的极值问题。这组实际解题带来极大好处，使计算工作量在为减少。以前面举的十级中间站并各站具有十个通过点的路线问题为例，用多级决策法只需920次计算，这与1010次相比要少得多。,在最后一级开始倒向逐级分析中，我们发现，由于各站的起始点并未确定，因此需要把各中间站的所有通过点作为出发点进行计算，并将所有对应的最佳

6、决策存进计算机，建立起一个完整的“档案库”，因此要求计算机有相当大的容量。,(6)第一级起始条件（地）是确定的，因此只有逐级倒向分析到第一级时，才能作出确定的第一级决策，然后再根据第一级决策顺向确定各级的起始条件（各站的通过点），这时由于“档案库”中存有全部“资料”，因此用“查档”的方法就可逐级确定决策。由此可见，一般情况下，多级决策过程包括两个过程：倒向“建档”及顺向“查档”，而大量的计算工作是花费在建立“档案库”上。,二、最优性原理,在前例的分级决策过程中，实际上已应用了这样一个基本原理：设一个过程由点开始，经点到达点，如图9-2所示，如果为最优过程，则段也必定是一个最优过程。我

7、们把这原理叙述如下：,一个最优决策具有这样的性质，不论初始状态和初始决策怎样，其余的决策对于第一次决策所造成的状态来说，必需构成一个最优决策。称此为最优性原理。它也可简单地叙述为：最优轨迹的第二段，本身亦是最优轨迹。,最优性原理是动态规划法的基础和核心。动态规划法就是对一个多级过程，应用最优性原理，进行分级决策，求出最优控制的一种数学方法。,3、多级决策过程的函数方程,应用动态规划法求解过程的最优决策时，首先要根据最优性原理将多级决策过程表示成如下数学表达式：,(9-1),上式表明，为使级决策过程达到最小消耗，第一级决策应根据两部分消耗之和最小的原则作出。第一部分是第一级决策的一步消耗，第

8、二部分为由下一步到达点作起点至终点的最小消耗。式(7-1)称为多级决策过程的函数方程，它是最优性原理的数学表达形式。在上述路线问题中，至的四级决策过程的函数方程可表示成：,(9-2),由表7-1可知,第二节动态规划法解离散系统的最优控制问题,设系统状态方程为,式中，为维状态向量，为维控制向量，设为每一步转移中的性能指标。,(9-3),第一步，系统初始状态在作用下转移至，即,要求选择控制，使达最小。这是一个一级决策过程。,(9-4),(9-6),第二步，系统在作用下由转移到，转移中的性能指标为，则两步转移的总性能指标为：,这里，因为已知，而，因此在上述两步转移的总性能

9、指标中，只有及未知。现在要求选择及，使两步性能指标达极小。这就是二级决策问题。,依次类推，系统状态由作起点进行步转移，则步转移的总性能指标为：,现在要求选择使性能指标达最小，这就是级决策问题。我们可以应用动态规划法来求解。根据最优性原理，对级最优决策过程来说，不论第一级控制向量怎样选定，余下的级过程，从产生的状态作为起点，必须构成级最优过程。,(9-7),如果我们用表示级过程的性能指标的极小值，表示级过程性能指标的极小值，则我们就可以列写出级决策过程的函数方程为：,由此可见，第一级决策实质上是函数,对第一级的控制决策求极值的问题。求解递推方程(9-8)，就

10、可解得最优控制决策。,(9-8),例9-1 设离散系统状态方程为：,初始条件为，控制变量不受限制，性能指标为,求最优控制，使达最小。,解:为简单起见，设，则这是一个二步控制问题，性能指标可表示成：,首先考虑最后一步，即由某状态出发到达的一步，如采用控制，则有,或,求最优控制使为极小，则有,解得：,可见为的函数。相应的最优性能指标及为,再考虑倒数第二步，即由初始状态出发到达的一步，如采用控制，则有,令,有,相应的最优性能指标及为：,最后得最优控制为：,最优轨线为：,最优性能指标为：,上述离散型动态规划可近似地用来求解连续系统的最优控制问题。,设连续系统状态方程为：,(9-

11、9),给定，性能指标为：,(9-10),(9-11),求最优控制，使为最小。,由于函数方程是一个递推方程，故特别适合于求解离散系统的最优控制问题。为此要把连续过程问题转化成一个多级决策过程。首先将时间间隔分成段，每段为，为使尽量符合连续过程的实际情况，应取足够大，取足够小。接着应将连续状态方程进行离散化，使之用下列有限差分方程来近似表示：,(9-12),这样，就把研究连续过程问题近似转化成了级决策过程。下面就可按离散过程一样建立函数方程，用递推求解方法逐级进行最优决策，求出最优控制序列来。,(9-14),这里，假设在每段时间内，及保持常值。同时，将积分型的性能指标用以下序列和的形式

12、来近似,第三节动态规划法解离散线性二次型问题,设离散线性系统状态方程为：,(9-15),性能指标为二次型,(9-16),式中，均为对称矩阵，为正定矩阵，为正半定矩阵。求最优控制序列使为最小。,现在我们用动态规划法来求解。从初始端开始，经过级决策得到的最优性能指标可表示为,(9-17),(9-18),根据最优性原理，可以建立函数方程如下：,假设二次型问题的最优性能指标为状态的二次函数：,(9-20),上式对成立，代入式(9-19)得：,(9-21),将系统状态方程代入，得：,(9-22),设不受约束，则令,(9-23),式中,现在需要确定，将式(9-24)代入式(9-22)，并利用

13、的假设，则式(9-22)可写成：,上式对任意状态变量都满足，由此可得离散系统的黎卡提方程,(9-27),第四节动态规划法解连续系统的最优控制问题,用离散动态规划法求解连续系统最优控制问题时，可能会由于离散化过程而造成一定误差。应用最优性原理，对连续系统也可建立起相应的函数方程，经过变换，最后得到一个一阶非线性偏微分方程，解之可得连续形式的最优控制即最优决策。,设连续系统状态方程为,性能指标为,(9-30),求最优控制，使为最小。,我们知道，对应最优控制及最优轨线，性能指标将取极小值，且为系统初始状态及初始时刻的函数，以表示，则可写成：,(9-31),(9-32),设时刻在区间内，

14、则根据最优性原理，从到这一段过程必须构成最优过程，这一段过程的性能指标极小值可表示为,将这段最优过程分成二步，第一步由到，是一很小的时间间隔，第二步由至，于是有,(9-34),(9-35),根据最优性原理，从到这一段过程也应当构成最优过程，其性能指标极小值可表示为：,这样，式(9-35)就变成：,(9-36),(9-37),因为很小，上式可写成：,(9-38),将用台劳级数展开,(9-39),式中，为二次及二次以上各项，代入式(9-38)得：,(9-40),由于不是的函数，从而亦不是的函数，因此不受最小化运算的影响，可从最小化运算符号析出，于是有,(9-41),简化上式，并以除之，再取，则,(9-42),定义下列函数,(9-43),式(9-45)称为哈密尔顿-雅可比方程。当不受限制时，可由,(9-46),可以解出来。再将代回式(9-48)，就可获得最优控制。这是一个状态反馈控制规律，由此可以实现闭环最优控制。最后同代入系统状态方程，就可解得。,例9-2 设系统状态方程为,初始状态为，不受约束，性能指标为,试求，使为最小。,解根据式（9-45）、式(9-43)有,由于不受约束，可以根据来求，得：,为解此偏微分方程，设：，代入上式，得：,因而,联立解得：,从而可很方便地实现闭环状态反馈最优控制。,