智能控制与强化学习:先进值迭代评判设计
上QQ阅读APP看书,第一时间看更新

1.2.3 广义值迭代算法

基于松弛动态规划[35],文献[45]首次提出了广义 VI 算法,核心是将初始代价函数选为一个半正定函数,即V0x)=xTΦx,其中,Φ是一个半正定矩阵。然后对于i∈ N,广义VI算法的更新过程与传统VI算法(式(1-10)和式(1-11))一致。也就是说,广义 VI 算法是传统 VI 算法在初始条件上的一个扩展版本,但是前者在单调性和稳定性上展现出了更大的优势。针对离散时间无折扣最优控制问题,文献[45]给出了广义 VI 算法的单调性和收敛性,表明了不同的初始代价函数V0x)会导致迭代代价函数序列呈现出不同的单调性。此外,文献[30]首次建立了一个有效的容许性判别准则以判断迭代控制策略uix)的容许性。广义VI算法的单调性、收敛性以及容许性总结如下。

(1)单调性:如果V0x)≤V1x)对于所有x∈Ω成立,则迭代代价函数序列是单调非减的,即V0x)≤…≤Vix)≤Vi+1x)≤…≤V*x)。如果V0x)≥V1x)对于所有x∈Ω成立,则迭代代价函数序列是单调非增的,即V0x)≥…≥Vix)≥Vi+1x)≥…≥V*x)。

(2)收敛性:假设条件0≤J*xk+1)≤βUxk,uk)成立,其中0<β<∞。假设初始代价函数满足,其中。如果控制策略uix)和代价函数Vix)根据式(1-10)和式(1-11)进行迭代更新,则代价函数Vix)根据式(1-12)逼近最优代价函数J*x

定义,可以得到Vx)=J*x

(3)容许性:控制策略uix)和代价函数Vix)根据式(1-10)和式(1-11)进行迭代更新。如果代价函数满足不等式

其中,0<δ<1,则第i次迭代步的控制策略uix)是容许的。

接下来,重点讨论由广义VI算法产生的控制策略uix)的容许性。当式(1-13)成立时,进一步可推出Vixk+1 )−Vixk)<0成立且 是有限的,由此说明迭代策略uix)是容许的。需要注意,式(1-13)中δUxk ,ui(xk))随迭代指标i的增加而改变,不可避免地增加了计算量。为了简化式(1-13)右侧内容,文献[32]设计了一个只与矩阵Q有关的新型容许性判别准则

其中,不随着迭代指标i增加而改变,有效降低了计算复杂度。具有稳定性保证的容许控制策略对于实际系统具有重要的意义,于是可将容许准则式(1-14)和停止准则|Vi+1 (·)−Vi(·)|<共同用于终止算法,这有效保证了收敛的近似最优控制是容许的。实际上,文献[30]证明了至少存在一个迭代指标使得式(1-13)或式(1-14)成立,这意味着算法能够在有限迭代步内得到理想的容许控制策略。

需要指出,如果迭代代价函数序列是单调非增的,即Vi+1x)≤Vxi ),则可以推导出Vixk+1 )−Vixk)≤0,即所有的迭代策略都是稳定的。基于这个优点,大多数具有稳定性保证的无折扣VI算法构造了单调非增的代价函数序列。因此,具有非零初始代价函数的广义VI算法具有深远的影响,并衍生出许多先进的迭代机制。通过构建单调非增的代价函数序列,文献[46]提出了一种θ-ADP 方法用于保证非线性系统的稳定性。为了减小计算压力,文献[47-48]设计了一种只在状态空间的子集中更新迭代代价函数和迭代控制策略的局部VI算法。考虑折扣因子对系统稳定性的影响,文献[49]建立了折扣广义 VI 框架下的稳定性准则,指出过小的折扣因子会导致即使最优的控制策略也无法镇定非线性系统。为了避免两次迭代代价函数之间差值过小可能会导致算法意外停止,文献[50]提出了一种集成的折扣广义VI框架,通过同时构造单调非增和单调非减的两个代价函数序列,从两个方向进行迭代,以充分保证对最优代价函数的逼近精度。由于常将函数逼近工具用于近似代价函数和控制策略,在算法实现过程中近似误差会对控制效果产生不可忽略的影响。针对确定非线性最优控制问题,文献[51]分析了考虑函数逼近误差时广义VI算法的收敛性和稳定性。基于一个新的误差条件,文献[52]建立了近似广义VI算法的误差边界,表明了近似迭代代价函数能够收敛到最优代价函数的有限邻域。总的来说,作为一般化的VI框架,广义 VI 算法受到了许多学者的关注,后续的一系列先进 VI 算法在其基础上进行了延伸和拓展。