基于强化学习的工业过程最小-最大优化的容错控制方法

allin2024-07-21  79



1.本发明涉及工业控制技术领域,尤其是涉及基于强化学习的工业过程最小-最大优化的容错控制方法。


背景技术:

2.现代工业过程已随着科学技术水平的提升发生了诸多变化。生产流程更智能高效、生产规模愈发庞大、生产设备更加精密复杂等特点逐渐显现出来,这也意味着在生产过程中,工业过程更容易受到故障或外部干扰的影响,进而削弱了针对理想情况设计的控制方法的控制效果甚至使控制效果完全丧尸。在这种背景下,人们不再仅仅把目光局限于研究针对理想情况设计控制方法,这使得以削弱外部扰动对系统性能指标的负面影响为目的去设计控制器的鲁棒控制以及针对执行器故障等故障情况下的容错控制得到了发展。但回顾它们的发展成果能够发现:过去的控制方法多是基于模型的控制方法,对系统模型有着很大的依赖性,因此一旦脱离模型就会陷入困境,无法达成控制目标,在这种背景下人们开始寻找新的控制方法,特别是一些针对同时具有外部扰动和执行器故障的工业过程的新型容错控制方法。
3.现阶段的工业过程能够在生产过程中产生大量反映系统真实动态的数据,这些真实数据具有潜在的价值,如何充分利用这些数据以结合强化学习去设计相应的控制方法也是吸引了许多学者的注意力。为此,亟需研发一种基于强化学习的工业过程最小-最大优化的容错控制方法。


技术实现要素:

4.本发明针对具有执行器故障和外部干扰的工业过程容错控制问题,提供一种基于强化学习的工业过程最小-最大优化的容错控制方法,该方法基于强化学习方法,通过利用工业过程实际生产所产生的数据进行不断学习,进而得到最优的控制策略及最坏外部扰动,最终达到良好的容错控制效果和跟踪性能。
5.为了达到上述目的,本发明采用的主要技术方案包括:
6.本发明提供一种基于强化学习的工业过程最小-最大优化的容错控制方法,该方法包括以下步骤:
7.本发明的有益效果是:本发明提出一种基于强化学习的工业过程最小-最大优化的容错控制方法,可以在系统具有外部扰动和执行器故障的情况下做到不依赖于系统模型,仅凭借工业过程本身在生产中产生的大量真实数据去不断学习进而设计出控制方法,最终实现理想中的控制目标,有效解决工业过程容错控制问题。不光如此,这种依托于真实的生产信息进行学习进而获取到的最优控制输入、最坏外部扰动以及最优控制增益和最坏外部扰动增益达到的控制效果也会优于过去基于模型的容错控制方法,与针对具有执行器故障和外部扰动的基于模型的容错控制方法相比,本发明所提出来的这种容错控制方法具有更广的适用范围、更好的跟踪性能、更佳的控制效果。且不论系统是处于正常情况下还是
处于故障情况下,本发明提出的基于强化学习的工业过程最小-最大优化的容错控制方法都能起到良好的控制效果。在当前及此后的工业过程控制问题中,本发明所提出的容错控制方法能够很好的替代传统基于模型的容错控制方法,拓宽了可解决的执行器故障范围,更具使用价值,是保证工业生产过程安全高效运行并且生产出保质保量产品的优秀控制方法,有利于维护现阶段工业过程所涉及到的生命财产安全。
附图说明
8.图1显示了学习过程中矩阵k
1f
,k
2f
与最优的k
1f*
,k
2f*
之差的范数收敛;
9.图2显示了学习过程中矩阵h与最优的h
*
之差的范数收敛;
10.图3给出了本发明方法和传统基于模型的容错控制方法在正常情况下α=1的输出、跟踪误差、输入以及外部扰动对比;
11.图4给出了本发明方法和传统基于模型的容错控制方法在故障系数α=0.6下的输出、跟踪误差、输入以及外部扰动对比;
12.图5给出了本发明方法和传统基于模型的容错控制方法在故障系数α=1.5下的输出、跟踪误差、输入以及外部扰动对比。
具体实施方式
13.为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
14.本发明提供一种基于强化学习的工业过程最小-最大优化的容错控制方法。该方法包括以下步骤:
15.步骤(1)、构建新的系统模型并提出性能指标函数:在具有执行器故障和外部扰动的原系统状态空间模型基础上建立包含跟踪误差和状态增量的增广状态空间模型,并根据增广状态空间模型提出性能指标函数。
16.步骤(1)具体包括以下步骤:
17.用u
ikf
,i=1,2,

,m代表故障执行器的输出信号,可以建立故障模型:u
kf
=αuk,α>0。其中,α=diag[α
1 α2,

,αm],α=diag[α1α2,

,αm],都是已知的常数,αi未知,但假设在一个已知的范围内变化。因此,会有u
kf
=αuk。如果对应着实际模型u
ikf
=u
ik
,此时意味着系统处于执行器不发生故障的理想状况;如果αi=0,这对应着系统处于执行器完全失效故障;如果αi>0,这对应着系统发生执行器部分失效故障。
[0018]
因此,具有执行器故障的工业过程原系统模型为:
[0019][0020]
其中,k代表的是原系统所在的运行时刻,其中,k代表的是原系统所在的运行时刻,分别是原系统在k时刻的状态、执行器实际的输入信号、外部扰动和输出,是原系
统在k+1时刻的状态,{a,b,c,d}为维度与状态、输入、外部扰动维度相匹配的系统矩阵。
[0021]
考虑设计迭代学习控制律uk=u
k-1
+u
δk
,其中,uk,u
k-1
分别是原系统在k时刻和k-1时刻的输入,是k时刻的迭代更新率。
[0022]
对于给定的期望输出轨迹如若记原系统的跟踪误差、扰动的增量和差分方程分别为y
δk
=y
r-yk,w
δk
=w
k-w
k-1
和x
δk
=x
k-x
k-1
,是原系统在k时刻的输出,wk和w
k-1
分别是第k时刻的外部扰动和第k-1时刻的外部扰动,xk,x
k-1
分别是原系统在k时刻和k-1时刻的状态。可得增广状态空间模型:
[0023][0024]
其中,x
δk+1
是原系统在k+1时刻和k时刻的状态之差,y
δk+1
是原系统在k+1时刻的跟踪误差;x
δk
是原系统在k时刻和k-1时刻的状态之差,y
δk
是原系统在k时刻的跟踪误差;u
δk
是原系统在k时刻的迭代更新率;w
δk
是原系统在k时刻的外部扰动与在k-1时刻的外部扰动之差;是与{zk,u
δk
,w
δk
}维数相匹配的系统矩阵,组成的{a,b,c,d}是原系统的系统矩阵,i是单位矩阵;α是故障系数;zk作为增广状态空间模型在k时刻的状态,u
δk
作为增广状态空间模型在k时刻的输入,w
δk
作为增广状态空间模型在k时刻的外部扰动。
[0025]
提出基于增广状态空间模型的性能指标函数:其中,zi是增广状态空间模型在第i时刻的状态、u
δi
是增广状态空间模型在第i时刻的输入,i=k,k+1,...,∞,w
δi
是增广状态空间模型在第i时刻的外部扰动;q、r分别是与状态zi、输入u
δi
维数相匹配的正定矩阵;γ≥0,γ代表持续干扰衰减水平。
[0026]
研究的目标是寻找一种使性能指标满足最小-最大优化的最优控制输入及最坏外部扰动u
δk
=k
1f
zk,w
δk
=k
2f
zk或者说是最优控制增益及最坏外部扰动增益
[0027]
步骤(2)、最优控制输入及最坏外部扰动设计:根据性能指标函数提出值函数以及q函数,并构建相应的最优控制输入、最坏外部扰动及最优控制增益、最坏外部扰动增益的表达式。
[0028]
对于定义值函数为是对称的正定矩阵,值函数满足条件
[0029][0030]
j*是待实现的性能指标j。定义q函数为:
[0031]
q*(zk,u
δk
,w
δk
)=z
kt
qzk+u
δkt
ru
δk-γ2w
δktwδk
+v*(z
k+1
,u
δk+1
,w
δk+1
)
[0032]
一定条件下会有j=vk,即也会有其中,进而可以得到与最优控制输入、最坏外部扰动及控制增益、外部扰动增益u
δk
=(h
uu-h
uw
(h
ww
)-1hwu
)-1
(h
uw
(h
ww
)-1hwz-h
uz
)zk,k
1f
=(h
uu-h
uw
(h
ww
)-1hwu
)-1
(h
uw
(h
ww
)-1hwz-h
uz
),w
δk
=(h
ww-h
wu
(h
uu
)-1huw
)-1
(h
wu
(h
uu
)-1huz-h
wz
)zk,k
2f
=(h
ww-h
wu
(h
uu
)-1huw
)-1
(h
wu
(h
uu
)-1huz-h
wz
)。矩阵h
uu
,h
uw
,h
ww
,h
wu
,h
wz
,h
uz
是由q函数所推得的矩阵h的组成部分。
[0033]
其中,zk作为增广状态空间模型在k时刻的状态,u
δk
作为增广状态空间模型在k时刻的输入,w
δk
作为增广状态空间在k时刻的外部扰动,α是故障系数矩阵,q、r是与状态zk、输入u
δk
维数相匹配的正定矩阵,γ≥0,γ代表持续干扰衰减水平,v*(z
k+1
,u
δk+1
,w
δk+1
)是在k+1时刻的值函数,是由原系统的系统矩阵{a,b,c,d}组成。
[0034]
步骤(3)、初始化及数据收集:给定能使系统稳定的最初的控制增益(k
1f
)0与外部扰动增益(k
2f
)0,并收集数据θj(k)及ρ
kj

[0035]
让j=0,j是迭代指标,给定能使系统稳定的最初的控制增益(k
1f
)0与外部扰动增益(k
2f
)0,(k
1f
)0、(k
2f
)0分别是最初的控制增益及外部扰动增益。收集数据θj(k)及ρ
kj
,θj(k)及ρ
kj
是第j次迭代所产生的包含系统生产信息的数据。
[0036]
步骤(4)、策略更新以求解最优控制增益及最坏外部扰动增益:通过强化学习算法更新控制增益k
1f
、外部扰动增益k
2f

[0037]
更新公式为:
[0038]
θj(k)l
j+1
=ρj(k)
[0039]
=θj(k)
[0040]
×
[(vec(l
1j+1
))
t (vec(l
2j+1
))
t (vec(l
3j+1
))
t (vec(l
4j+1
))
t (vec(l
5j+1
))
t (vec(l
6j+1
))
t
]
t
[0041]
用最小二乘法学习l
1j+1
到l
6j+1
,进而更新控制增益及外部扰动增益:
[0042][0043][0044]
其中,(k
1f
)
j+1
是第j+1次迭代所得到的控制增益,(k
2f
)
j+1
是第j+1次迭代所得到的外部扰动增益。
[0045]
引入了目标策略u
δkj
、w
δkj
,由步骤(2)会有:
[0046][0047]
结合会有会有化简并结合克罗内克积会有θj(k)l
j+1
=ρ
kj
,其中:l
j+1
=[(vec(l
1j+1
))
t
(vec(l
2j+1
))
t
…ꢀ…
(vec(l
5j+1
))
t (vec(l
6j+1
))
t
]
t
,l
1j+1
=p
j+1
,l
2j+1
=h
zuj+1
,l
3j+1
=h
zwj+1
,l
4j+1
=h
uuj+1-r,l
5j+1
=(h
uwj+1
)
t
,l
6j+1
=h
wwj+1
+γ2i,θj(k)=[θ
1j
(k) θ
2j
(k) θ
3j
(k) θ
4j
(k) θ
5j
(k) θ
6j
(k)],(k)],(k)],(k)],
[0048]
zk作为增广状态空间模型在k时刻的状态,u
δk
作为增广状态空间模型是在k时刻的输入,w
δk
作为增广状态空间模型在k时刻的扰动,q、r分别是与状态zk、输入u
δk
维数相匹配的正定矩阵,γ≥0,γ代表持续干扰衰减水平,i是单位矩阵,是由原系统的系统矩阵{a,b,c,d}组成,α是故障系数,p
j+1
是在第j+1次迭代所得到的p,矩阵h
uuj+1
,h
uwj+1
,h
wwj+1
,h
zwj+1
,h
zuj+1
是由q函数所推得的矩阵h
j+1
的组成部分,j+1指的是第j+1次迭代,(k
1f
)j是第j次迭代所得到的控制增益,(k
2f
)j是第j次迭代所得到的外部扰动增益。
[0049]
步骤(5)、如果达到迭代结束条件则迭代结束,否则转步骤(4)继续迭代。
[0050]
当l>0(l是非常小的正整数)时,就可以停止迭代,否则就要让j=j+1回到步骤(4),继续执行算法,(k
1f
)j和(k
1f
)
j+1
分别是第j次和第j+1次迭代所产生的控制增益,(k
2f
)j和(k
2f
)
j+1
分别是第j次和第j+1次迭代所产生的外部扰动增益。
[0051]
实施例1:
[0052]
本实施例采用注塑过程具体说明本发明的方法。注塑成型过程是将塑料颗粒转化为各种产品的过程,主要包括三个阶段:注塑,保压以及冷却成形。为了保证注塑成型过程所生产出的产品品质以及产品生产效率,在每个生产阶段都应要求有关过程变量尽可能地按照期望的设定值来变化。在生产过程中,由于注射速度对最终产品的质量有很大的影响,所以在注塑阶段需要高精度的控制注射速度,相应变量应该被控制到一个给定的设定值。比例阀的喷射速度响应可被识别为一个自回归模型:
[0053][0054]
算法具体步骤为:
[0055]
step1:选择合适的状态变量xk,得到以下离散状态空间模型以表示注塑过程:
[0056][0057]
其中,x
k+1
,xk分别是系统在k+1时刻和k时刻的状态,uk,wk,yk分别是系统在k时刻的输入、扰动和输出。
[0058]
考虑上述系统具有执行器故障时包含跟踪误差和状态增量的增广状态空间模型并选择控制器参数为r=0.01,γ=1.5,确定性能指标函数。
[0059]
step2:最优控制输入及最坏外部扰动设计:根据性能指标函数提出值函数以及q函数,并构建相应的最优控制输入、最坏外部扰动及最优控制增益、最坏外部扰动增益的表达式;
[0060]uδk
=(h
uu-h
uw
(h
ww
)-1hwu
)-1
(h
uw
(h
ww
)-1hwz-h
uz
)zk[0061]k1f
=(h
uu-h
uw
(h
ww
)-1hwu
)-1
(h
uw
(h
ww
)-1hwz-h
uz
)
[0062]wδk
=(h
ww-h
wu
(h
uu
)-1huw
)-1
(h
wu
(h
uu
)-1huz-h
wz
)zk[0063]k2f
=(h
ww-h
wu
(h
uu
)-1huw
)-1
(h
wu
(h
uu
)-1huz-h
wz
)
[0064]
其中,矩阵h
uu
,h
uw
,h
ww
,h
wu
,h
wz
,h
uz
是由q函数所推得的矩阵h的组成部分。
[0065]
step3:初始化及数据收集:给定能使系统稳定的最初的控制增益(k
1f
)0与外部扰动增益(k
2f
)0,并收集数据θj(k)及ρ
kj
。(k
1f
)0,(k
2f
)0分别是最初的控制增益和外部扰动增益,θj(k)及ρ
kj
是第j次迭代所产生的包含系统生产信息的数据。
[0066]
step4:策略更新以求解最优控制输入及最坏外部扰动:通过强化学习算法更新控制增益k
1f
、外部扰动增益k
2f

[0067]
更新公式为:
[0068][0069]
l
j+1
=[(vec(l
1j+1
))
t (vec(l
2j+1
))
t
…ꢀ…
(vec(l
5j+1
))
t (vec(l
6j+1
))
t
]
t
[0070]
其中,l
1j+1
=p
j+1
,l
2j+1
=h
zuj+1
,l
3j+1
=h
zwj+1
,l
4j+1
=h
uuj+1-r,l
5j+1
=(h
uwj+1
)
t
,l
6j+1
=h
wwj+1
+γ2i。
[0071]
θj(k)=[θ
1j
(k) θ
2j
(k) θ
3j
(k) θ
4j
(k) θ
5j
(k) θ
6j
(k)]
[0072]
其中,其中,
[0073]
其中,zk作为增广状态空间模型在k时刻的状态,u
δk
作为增广状态空间模型是在k时刻的输入,w
δk
作为增广状态空间模型在k时刻的扰动,q、r是与状态zk、输入u
δk
维数相匹配的正定矩阵,γ≥0,γ代表持续干扰衰减水平,i是单位矩阵,是由原系统的系统矩阵{a,b,c,d}组成,α是故障系数,p
j+1
是在第j+1次迭代所得到的p,矩阵h
uuj+1
,h
uwj+1
,h
wwj+1
,h
zwj+1
,h
zuj+1
是由q函数所推得的矩阵h
j+1
的组成部分,j+1指的是第j+1次迭代,(k
1f
)j是第j次迭代所得到的控制增益,(k
2f
)j是第j次迭代所得到的扰动增益。
[0074]
用最小二乘法学习l
1j+1
到l
6j+1
,进而更新控制增益及外部扰动增益:
[0075][0076][0077]
其中,(k
1f
)
j+1
是第j+1次迭代所得到的控制增益,(k
2f
)
j+1
是第j+1次迭代所得到的外部扰动增益。
[0078]
step5:如果达到迭代结束条件则迭代结束,否则转步骤(4)继续迭代。
[0079]
当l>0(l是非常小的正整数)时,就可以停止迭代,否则就要让j=j+1回到步骤(4),继续执行算法,(k
1f
)j和(k
1f
)
j+1
分别是第j次和第j+1次迭代所产生的控制增益,(k
2f
)j和(k
2f
)
j+1
分别是第j次和第j+1次迭代所产生的外部扰动增益。
[0080]
给定初始的h,进而得到初始的(k
1f
)0,(k
2f
)0,通过学习分别能够得到q函数里最优的h
*
以及最优的(以故障系数α=0.6为例):
[0081][0082][0083][0084]
然后实现强化学习算法,经过多次学习之后,本发明提出的容错控制方法所求出的矩阵h和k
1f
、k
2f
逐渐收敛到最优的h
*
以及最优k
1f*
、k
2f*

[0085]
图1到图5分别显示了本实施例在实验中得到的控制效果。由图1和图2可知,在学习过程中,随着迭代次数的增加,增益k
if
,(i=1,2)逐渐收敛于最优的增益k
if*
,(i=1,2)。另外,随着迭代次数的增加,矩阵h逐渐收敛于最优的h
*
。为凸显本发明控制效果的优越性,本发明还对比了在不同故障情形下本发明与传统基于模型的容错控制方法的控制效果,其实验结果对应于图3到图5。具体来说:对于模型uf(k)=αu(k)可分别讨论正常情况和故障
情况。
[0086]
case1:正常情况;α=1,此时系统处于正常情况,本发明所提出的控制方法和作为对比的基于模型的容错控制方法都能起到良好的控制效果。
[0087]
case2:故障情况;这种情况又可以分为两种情况:一种是0<α<1,另一种则是α>1。就实验对象而言,0<α<1的故障情况下会导致实际喷射速度小于计划的喷射速度。α>1的故障情况下,实际喷射速度会大于计划的喷射速度。
[0088]
在故障情况下,无论是以上哪种故障,本发明都可以应对,而传统的基于模型的容错控制方法则只能应对0<α<1的情况,对α>1的情况束手无策。
[0089]
图3是系统处于正常情况下本发明所具备的控制效果。不难发现,不论是本发明所提出的这种容错控制方法还是传统基于模型的容错控制方法都能达到良好的控制效果。
[0090]
通过图4可以发现,面对期望的输出曲线,对于传统基于模型的容错控制方法而言,其系统输出曲线在阶跃前出现了明显的抖动甚至超调,但最终也能实现跟踪。而本发明所提出的控制方法的输出曲线明显较为平滑,能够更快的跟踪上期望的输出轨迹,跟踪误差图像也能体现同样的结论。另外,在有故障的情况下,明显可以看出我们所提出的方法输入曲线幅值较大,意味着可以抵抗较大的外部干扰。
[0091]
图5则表示出:本发明所提出的方法能够很好的跟踪上期望的输出曲线,传统的容错控制方法无法做到这一点。二者的跟踪误差曲线显示出本方法依旧能在α>1时收敛到0,传统基于模型的容错控制方法的跟踪误差无法做到这一点,后者的跟踪误差图像随着时刻的增加震荡幅度越来越大。输入曲线对比显示基于数据驱动的控制方法能够快速的达成控制效果,与此同时,基于模型的容错控制方法的输入曲线不断振荡。此外,对比本发明所提出容错控制方法平稳的外部扰动曲线来说,一维传统容错控制的外部扰动随着时刻的增加,波动的幅度也越来越大,不能再起到抗外部干扰的效果。
[0092]
综上,本实施例以注塑过程为例,验证了本发明的控制效果有效性及可行性。这种基于强化学习的容错控制方法能够在模型参数未知的环境下,通过数据驱动的方式应对出现了执行器故障和外部干扰的情况,可达到比传统基于模型的容错控制方法更好的控制效果。实验对比结果也表明本发明具备更广的适用范围,拓宽了在存在外部扰动的情况下可应对的执行器故障范围。因此,本发明为处于具有执行器故障和外部干扰环境下的工业过程提供了一种新的容错控制方法,能够比基于模型的容错控制方法更具实用意义,具有更广的适用范围,使工业过程制造产品的安全及质量得到保证,在实际的工业过程中能够创造更大的价值。
[0093]
最后应该说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,其可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:包括以下步骤:(1)在具有执行器故障和外部扰动的原系统状态空间模型基础上建立包含跟踪误差和状态增量的增广状态空间模型,并根据增广状态空间模型提出性能指标函数;(2)根据性能指标函数提出值函数以及q函数,并构建相应的最优控制输入、最坏外部扰动及最优控制增益、最坏外部扰动增益的表达式;(3)给定能使系统稳定的最初的控制增益与外部扰动增益并收集数据θ
j
(k)及ρ
kj
,其中,分别是最初的控制增益和外部扰动增益,θ
j
(k)及ρ
kj
是第j次迭代所产生的包含系统生产信息的数据;(4)通过强化学习更新控制增益k
1f
、外部扰动增益k
2f
;(5)如果达到迭代结束条件则迭代结束,否则转回步骤(4)继续迭代。2.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(1)中的跟踪误差和状态增量的增广状态空间模型为:其中,x
δk+1
是原系统在k+1时刻和k时刻的状态之差,y
δk+1
是原系统在k+1时刻的跟踪误差;x
δk
是原系统在k时刻和k-1时刻的状态之差,y
δk
是原系统在k时刻的跟踪误差;u
δk
是原系统在k时刻的迭代更新率;w
δk
是原系统在k时刻的外部扰动与在k-1时刻的外部扰动之差;1时刻的外部扰动之差;是与{z
k
,u
δk
,w
δk
}维数相匹配的系统矩阵,组成的{a,b,c,d}是原系统的系统矩阵,i是单位矩阵;α是故障系数;z
k
为增广状态空间模型在k时刻的状态,u
δk
为增广状态空间模型在k时刻的输入,w
δk
为增广状态空间模型在k时刻的外部扰动。3.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(1)中基于所述增广状态空间模型提出的性能指标函数为:其中,z
i
是增广状态空间模型在第i时刻的状态、u
δi
是增广状态空间模型在第i时刻的输入,i=k,k+1,...,∞,w
δi
是增广状态空间模型在第i时刻的外部扰动;q、r分别是与状态z
i
、输入u
δi
维数相匹配的正定矩阵;γ≥0,γ代表持续干扰衰减水平。4.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(2)中的值函数为:其中,z
k
是增广状态空间模型在k时刻的状态,是对称的正定矩阵,值函数
满足条件j*是待实现的性能指标j。5.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(2)中的q函数为:q*(z
k
,u
δk
,w
δk
)=z
kt
qz
k
+u
δkt
ru
δk-γ2w
δkt
w
δk
+v*(z
k+1
,u
δk+1
,w
δk+1
)其中,z
k
是增广状态空间模型在k时刻的状态,u
δk
是增广状态空间模型在k时刻的输入,w
δk
是增广状态空间模型在k时刻的外部扰动,γ≥0,γ代表持续干扰衰减水平,q、r分别是与状态z
k
、输入w
δk
维数相匹配的正定矩阵,v*(z
k+1
,u
δk+1
,w
δk+1
)是增广状态空间模型在k+1时刻的值函数。6.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(2)中的最优控制输入、最坏外部扰动及最优控制增益、最坏外部扰动增益的表达式为:u
δk
=(h
uu-h
uw
(h
ww
)-1
h
wu
)-1
(h
uw
(h
ww
)-1
h
wz-h
uz
)z
k
w
δk
=(h
ww-h
wu
(h
uu
)-1
h
uw
)-1
(h
wu
(h
uu
)-1
h
uz-h
wz
)z
k
其中,矩阵h
uu
,h
uw
,h
ww
,h
wu
,h
wz
,h
uz
是由q函数所推得的矩阵h的组成部分。7.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(3)中,让j=0,j是迭代指标,给定能使系统稳定的最初的控制增益(k
1f
)0和外部扰动增益(k
2f
)0;收集数据θ
j
(k)及ρ
kj
,θ
j
(k)及ρ
kj
是第j次迭代所产生的包含系统生产信息的数据。8.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(4)中通过强化学习更新控制增益、外部扰动增益,根据以下公式进行:θ
j
(k)l
j+1
=ρ
j
(k)=θ
j
(k)
×
[(vec(l
1j+1
))
t (vec(l
2j+1
))
t (vec(l
3j+1
))
t (vec(l
4j+1
))
t (vec(l
5j+1
))
t (vec(l
6j+1
))
t
]
t
其中,θ
j
(k)=[θ
1j
(k) θ
2j
(k) θ
3j
(k) θ
4j
(k) θ
5j
(k) θ
6j
(k)],(k)],(k)],(k)],(k)],l
1j+1
=p
j+1
,l
2j+1
=h
zuj+1
,l
3j+1
=h
zwj+1
,l
4j+1
=h
uuj+1-r,l
5j+1
=(h
uwj+1
)
t
,,z
k
是增广状态空间模型在k时刻的状态,u
δk
是增广状态空间模型在k时刻的输入,w
δk
是增广状态空间模型在k时刻的外部扰动,q、r分别是与状态z
k
、输入u
δk
维数相匹配的正定矩阵,p
j+1
是在第j+1次迭代所得到的p,矩阵h
uu
,h
uw
,h
ww
,h
wu
,h
wz
,h
uz
是由q函数所推得的矩阵h
j+1
的组成部分,j+1指的是第j+1次迭
代,(k
1f
)
j
是第j次迭代所得到的控制增益,(k
2f
)
j
是第j次迭代所得到的外部扰动增益。9.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(4)中的控制增益和外部扰动增益依据以下公式进行更新:特征在于:所述步骤(4)中的控制增益和外部扰动增益依据以下公式进行更新:其中,(k
1f
)
j+1
是第j+1次迭代所得到的控制增益,(k
2f
)
j+1
是第j+1次迭代所得到的外部扰动增益。10.根据权利要求1所述的基于强化学习的工业过程最小-最大优化的容错控制方法,其特征在于:所述步骤(5)中的迭代结束条件为:其特征在于:所述步骤(5)中的迭代结束条件为:l>0其中,l是非常小的正整数,(k
1f
)
j
和(k
1f
)
j+1
分别是第j次和第j+1次迭代所产生的控制增益,(k
2f
)
j
和(k
2f
)
j+1
分别是第j次和第j+1次迭代所产生的外部扰动增益。

技术总结
本发明涉及工业控制技术领域,具体是基于强化学习的工业过程最小-最大优化的容错控制方法。包括:(1)在具有执行器故障和外部扰动的原系统状态空间模型基础上建立包含跟踪误差和状态增量的增广状态空间模型,并根据增广状态空间模型提出性能指标函数;(2)根据性能指标函数提出值函数以及Q函数,并构建相应的最优控制输入、最坏外部扰动及最优控制增益、最坏外部扰动增益的表达式;(3)给定能使系统稳定的最初的控制增益与外部扰动增益收集数据θ


技术研发人员:李雪玉 贾林竹 唐彬彬 王立敏 李春
受保护的技术使用者:海南师范大学
技术研发日:2022.04.06
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-15553.html

最新回复(0)