基于深度强化学习td3算法的无人机格斗自主决策方法
技术领域
1.本发明涉及无人机技术领域,具体涉及一种基于深度强化学习td3算法的无人机格斗自主决策方法。
背景技术:2.智能型自主格斗无人机及无人机集群具有改变战场格局的巨大潜力。机动决策是无人机格斗对抗核心技术,研究无人机根据战场态势和任务目标自主机动以取得作战优势具有重要意义。
3.基于传统的微分对策理论等数学方法研究无人机空中格斗问题时,需要先精确建立数学模型,不论定性问题还是定量问题,前提都需要已知双方的机动策略和性能参数,这在现实中是不可能的。未来格斗中敌方战略意图、战术、出动的装备性能等信息我们一般不可能提前准确预判,以及格斗环境中各种不确定性因素干扰和目标的低可探测性都将限制方法的适用程度。无人机动力学模型较为复杂,其状态方程为非线性微分方程,导致求解困难且计算量巨大,占用大量计算资源且耗时长,当敌我双方无人机数量进一步增加时会发生维度灾难。
4.深度确定性策略梯度(deep deterministic policy gradient,ddpg)虽然适用于解决高维的连续的动作空间问题,但是在无人机格斗环境中使用该算法进行无人机的深度强化学习可能会造成q值高估的问题,使得无人机的总奖励值始终比较低,也就是说,深度确定性策略梯度算法在q值高估时,无人机选择的策略有误差,并且误差会越来越大,导致无法找到有效策略,在格斗中无法获得位置优势。
技术实现要素:5.为解决现有技术中存在的问题,本发明提供一种基于深度强化学习td3算法的无人机格斗自主决策方法,能够解决q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
6.为达到上述目的,本发明的技术方案是这样实现的:
7.第一方面,本发明提供了一种基于深度强化学习td3算法的无人机格斗自主决策方法,包括步骤:
8.建立无人机运动模型;
9.根据所述无人机运动模型,基于马尔可夫决策过程,建立无人机空中格斗模型,其中,所述无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,所述无人机运动模型表示所述无人机空中格斗模型中的状态转移函数;
10.根据所述无人机空中格斗模型,基于td3算法训练无人机学习机动策略。
11.与现有技术相比,本发明第一方面具有以下有益效果:
12.本方法根据无人机运动模型,基于马尔可夫决策过程,建立我方无人机和敌方无人机格斗的无人机空中格斗模型,该无人机空中格斗模型使用包括状态空间、动作空间、奖
励函数和折扣因子的四元组表示;根据无人机空中格斗模型,基于td3算法训练无人机学习机动策略,该td3算法能够解决q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
13.进一步,所述无人机运动模型包括动力学模型和运动学模型,所述建立无人机运动模型包括:
14.建立无人机在惯性坐标系中的动力学模型:
[0015][0016]
其中,所述g表示重力加速度;所述v表示所述无人机的速度且所述v满足约束条件:v
min
≤v≤v
max
;航迹倾角γ表示v与水平面xoy的夹角,γ∈[-π/2,π/2];航迹偏角ψ表示v在水平面xoy上的投影与坐标轴x轴的夹角,ψ∈(-π,π];所述n
τ
表示切向过载;所述nf表示法向过载;所述μ表示滚转角;
[0017]
建立所述无人机在所述惯性坐标系中的运动学模型:
[0018][0019]
其中,所述x、所述y和所述z表示所述无人机在所述惯性坐标系下的坐标。
[0020]
进一步,所述状态空间包括:敌方无人机和我方无人机的本身状态和相对状态。
[0021]
进一步,通过如下方式构建所述状态空间:
[0022]
设定所述敌方无人机和所述我方无人机的本身状态:
[0023]
s=[xr,yr,zr,xb,yb,zb,vr,vb,γr,γb,ψr,ψb,μr,μb]
[0024]
基于所述敌方无人机和所述我方无人机的本身状态,设定所述敌方无人机和所述我方无人机的相对状态:
[0025]srb
=[d,α,β,vr,vb,γr,γb,ψr,ψb,μr,μb]
[0026]
其中,xr,yr,zr表示所述我方无人机在三维空间中的坐标值,xb,yb,zb表示所述敌方无人机在所述三维空间中的坐标值,所述vr表示所述我方无人机的速度,所述vb表示所述敌方无人机的速度,所述γr表示所述我方无人机的航迹倾角,所述γb表示所述敌方无人机的航迹倾角,所述ψr表示所述我方无人机的航迹偏角,所述ψb表示所述敌方无人机的航迹偏角,所述μr表示所述我方无人机的滚转角,所述μb表示所述敌方无人机的滚转角,所述d表示所述敌方无人机和所述我方无人机之间的相对距离,水平视线偏角α表示所述敌方无人机和所述我方无人机的视线在水平面上投影与x轴的夹角,纵向视线偏角β表示所述敌方无人机和所述我方无人机的视线与水平面的夹角。
[0027]
进一步,通过如下公式构建所述动作空间:
[0028]
a=[n
τ
,nf,ω]
[0029]
其中,所述n
τ
表示切向过载,nf表示法向过载,ω表示机体滚转角速度。
[0030]
进一步,所述奖励函数包括锁定奖励函数、角度优势函数、距离优势函数、高度优势函数以及速度优势函数,其中,所述锁定奖励函数为:
[0031][0032]
其中,所述d
*
表示我方无人机成功锁定敌方无人机时两机最小距离,所述p
*
表示满足锁定时我方无人机速度方向偏离指向敌方无人机质心方向的最大夹角,所述e
*
表示满足锁定时所述敌方无人机速度方向偏离所述我方无人机指向所述敌方无人机质心方向的最大夹角,所述d表示所述我方无人机和所述敌方无人机的相对距离,所述p表示所述我方无人机速度方向偏离指向所述敌方无人机质心方向的夹角,所述e表示所述敌方无人机速度方向偏离所述我方无人机指向其质心方向视线矢量的夹角;
[0033]
所述角度优势函数为:
[0034][0035]
所述距离优势函数为:
[0036][0037]
所述高度优势函数为:
[0038][0039]
所述速度优势函数为:
[0040][0041]
其中,所述vr表示所述我方无人机的速度,所述vb表示所述敌方无人机的速度,所述d
max
表示所述无人机的最大探测距离,所述δh表示所述敌方无人机和所述我方无人机之间的高度差,所述v
max
表示所述无人机飞行速度的最大值,所述v
min
表示所述无人机飞行速度的最小值;
[0042]
所述无人机单步的奖励函数为:
[0043]
r=r
lock
+k1r1+k2r2+k3r3+k4r4[0044]
其中,所述k1至k4表示权值,并且所述k1至k4之和为1。
[0045]
进一步,所述基于td3算法训练无人机学习机动策略包括:
[0046]
步骤s1、初始化两个评价器网络q1,q2、评价器网络的参数执行器网络的参数θ
μ
、目标网络参数θ'
μ
以及经验池;
[0047]
步骤s2、预设回合数,在每个回合中执行以下步骤:
[0048]
步骤s2-1、预设每个回合中所述无人机的最大限定步数;
[0049]
步骤s2-2、所述无人机根据当前状态和策略选择动作,并加上随机噪声;
[0050]
步骤s2-3、所述无人机执行动作,由状态转移函数获得下一状态并获得奖励;
[0051]
步骤s2-4、将所述步骤s2-2和所述步骤s2-3得到的所述当前状态、所述策略选择动作、所述奖励和由状态转移函数获得的所述下一状态转移至经验池;
[0052]
步骤s2-5、从所述经验池中随机抽取n个样本;
[0053]
步骤s2-6、通过所述两个评价器目标网络计算动作的期望回报,选择较小的q值,更新所述评价器网络的参数;
[0054]
步骤s2-7、通过确定性策略梯度更新所述执行器网络的参数;
[0055]
步骤s2-8、更新完所述评价器网络的参数和所述执行器网络的参数后,更新所述目标网络的参数;
[0056]
步骤s2-9、直到步数达到所述最大限定步数,结束一个回合;
[0057]
步骤s3、在所有回合结束后,所述无人机学习机动策略的训练结束。
[0058]
进一步,所述通过所述两个评价器目标网络计算动作的期望回报,选择较小的q值,更新所述评价器网络的参数,包括:
[0059]
学习更新评价器网络参数,其中,损失函数l的公式为:
[0060][0061]
其中,所述si表示当前状态,所述ai表示当前动作,目标期望值yi根据当前真实奖励值ri与下一步输出值乘以折扣因子λ获得,目标期望值yi的公式为:
[0062][0063]
其中,s
i+1
表示下一步状态。
[0064]
进一步,所述通过确定性策略梯度更新执行器网络的参数,包括:
[0065]
学习更新执行器网络参数,执行器网络的确定性策略梯度公式为:
[0066][0067]
其中,所述n表示从所述经验池中随机抽取的样本数,所述q(s,a|θq)表示所述评价器网络,所述θq表示所述评价器网络的参数,所述μ(sθ
μ
)表示所述执行器网络,所述θ
μ
表示所述执行器网络的参数。
[0068]
第二方面,本发明提供了一种基于深度强化学习td3算法的无人机格斗自主决策系统,包括:
[0069]
无人机运动模型建立单元,用于建立无人机运动模型;
[0070]
无人机空中格斗模型建立单元,用于根据所述无人机运动模型,基于马尔可夫决策过程,建立无人机空中格斗模型,其中,所述无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示;
[0071]
无人机学习机动策略训练单元,用于根据所述无人机空中格斗模型,基于td3算法训练无人机学习机动策略。
[0072]
与现有技术相比,本发明第二方面具有以下有益效果:
[0073]
本系统的无人机空中格斗模型建立单元根据无人机运动模型,基于马尔可夫决策
过程,建立我方无人机和敌方无人机格斗的无人机空中格斗模型,该无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示;无人机学习机动策略训练单元根据无人机空中格斗模型,基于td3算法训练无人机学习机动策略,该td3算法能够解决q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
附图说明
[0074]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0075]
图1为本发明一个实施例提供的一种基于深度强化学习td3算法的无人机格斗自主决策方法的流程图;
[0076]
图2为本发明一个实施例提供的惯性坐标系的示意图;
[0077]
图3为本发明一个实施例提供的td3算法的结构示意图;
[0078]
图4为本发明一个实施例提供的基于td3算法训练的仿真结果图;
[0079]
图5为本发明一个实施例提供的td3算法与ddpg算法训练对比的仿真结果图;
[0080]
图6为本发明一个实施例提供的td3算法收敛时的运行轨迹的仿真结果图;
[0081]
图7为本发明一个实施例提供的优势态势的仿真结果图;
[0082]
图8为本发明一个实施例提供的劣势态势的仿真结果图;
[0083]
图9为本发明一个实施例提供的均势态势的仿真结果图;
[0084]
图10为本发明一个实施例提供的一种基于深度强化学习td3算法的无人机格斗自主决策系统的结构图。
具体实施方式
[0085]
下面将结合附图,对本公开实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。需要说明的是,在不冲突的情况下,本公开实施例及实施例中的特征可以相互组合。另外,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本公开的每个技术特征和整体技术方案,但其不能理解为对本公开保护范围的限制。
[0086]
在本发明的描述中,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0087]
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0088]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0089]
基于传统的微分对策理论等数学方法研究无人机空中格斗问题时,需要先精确建立数学模型,不论定性问题还是定量问题,前提都需要已知双方的机动策略和性能参数,这
在现实中是不可能的。未来格斗中敌方战略意图、战术、出动的装备性能等信息我们一般不可能提前准确预判,以及格斗环境中各种不确定性因素干扰和目标的低可探测性都将限制方法的适用程度。无人机动力学模型较为复杂,其状态方程为非线性微分方程,导致求解困难且计算量巨大,占用大量计算资源且耗时长,当敌我双方无人机数量进一步增加时会发生维度灾难。
[0090]
深度确定性策略梯度(deep deterministic policy gradient,ddpg)虽然适用于解决高维的连续的动作空间问题,但是在无人机格斗环境中使用该算法进行无人机的深度强化学习可能会造成q值高估的问题,使得无人机的总奖励值始终比较低,也就是说,深度确定性策略梯度算法在q值高估时,无人机选择的策略有误差,并且误差会越来越大,导致无法找到有效策略,在格斗中无法获得位置优势。
[0091]
为解决上述问题,本技术根据无人机运动模型,基于马尔可夫决策过程,建立我方无人机和敌方无人机格斗的无人机空中格斗模型,该无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示;根据无人机空中格斗模型,基于双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,td3)训练无人机学习机动策略,该td3算法能够解决q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
[0092]
参照图1至图9,本发明的一个实施例提供了一种基于深度强化学习td3算法的无人机格斗自主决策方法,包括步骤:
[0093]
步骤s100、建立无人机运动模型。
[0094]
具体的,建立“北天东”惯性坐标系,参照图2,x轴正方向指向正东,y轴正方向指向正北,z轴正方向垂直地面指向上。无人机空中飞行过程中主要受到发动机推力、重力和气动力作用。无人机运动模型包括动力学模型和运动学模型,因此,建立无人机运动模型包括:
[0095]
建立无人机在惯性坐标系中的动力学模型:
[0096][0097]
其中,g表示重力加速度;v表示无人机的速度且v满足约束条件:v
min
≤v≤v
max
;航迹倾角γ表示v与水平面xoy的夹角,γ∈[-π/2,π/2],指向正北方向为0
°
,向西转为正;航迹偏角ψ表示v在水平面xoy上的投影与坐标轴x轴的夹角,ψ∈(-π,π],水平时为0
°
,向上为正;n
τ
表示切向过载,切向过载n
τ
表示推力和阻力的合力对速度产生的影响,通过切向过载n
τ
改变无人机的速度,切向过载n
τ
的方向为无人机的速度方向,其中,阻力包含重力的分力作用;nf表示法向过载,μ表示滚转角,法向过载nf的方向为无人机的机顶的方向,滚转角μ表示无人机绕自身纵轴的转角,法向过载nf和滚转角μ可以改变无人机飞行的方向和飞行的高度。
[0098]
建立无人机在惯性坐标系中的运动学模型:
[0099][0100]
其中,x、y和z表示无人机在惯性坐标系下的坐标。
[0101]
步骤s200、根据无人机运动模型,基于马尔可夫决策过程,建立无人机空中格斗模型,其中,无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,无人机运动模型表示为无人机空中格斗模型中的状态转移函数。
[0102]
具体的,强化学习过程是一种“试错”过程,马尔可夫决策过程通常被用作描述是强化学习任务的模型框架。根据无人机运动模型,基于马尔可夫决策过程,建立无人机空中格斗模型,该无人机空中格斗模型用四元组(s,a,r,λ)表示,其中,s表示状态空间,a表示动作空间,r表示奖励函数,λ表示折扣率。假设环境给无人机反馈的即时奖励函数是r
t
=r
t
(s
t
,a
t
),则定义当前状态下无人机远期奖励λ表示折扣因子,折扣因子越大说明无人机越有“远见”。
[0103]
通过如下方式构建状态空间:
[0104]
设定敌方无人机和我方无人机的本身状态:
[0105]
s=[xr,yr,zr,xb,yb,zb,vr,vb,γr,γb,ψr,ψb,μr,μb]
[0106]
基于敌方无人机和我方无人机的本身状态,设定敌方无人机和我方无人机的相对状态:
[0107]srb
=[d,α,β,vr,vb,γr,γb,ψr,ψb,μr,μb]
[0108]
其中,xr,yr,zr表示我方无人机在三维空间中的坐标值,xb,yb,zb表示敌方无人机在三维空间中的坐标值,vr表示我方无人机的速度,vb表示敌方无人机的速度,γr表示我方无人机的航迹倾角,γb表示敌方无人机的航迹倾角,ψr表示我方无人机的航迹偏角,ψb表示敌方无人机的航迹偏角,μr表示我方无人机的滚转角,μb表示敌方无人机的滚转角,d表示敌方无人机和我方无人机之间的相对距离,水平视线偏角α表示敌方无人机和我方无人机的视线在水平面上投影与x轴的夹角,纵向视线偏角β表示敌方无人机和我方无人机的视线与水平面的夹角。
[0109]
本实施例中的状态空间不仅可以更加直观的描述战场态势,还可以减小状态空间的维度。
[0110]
状态转移函数设定为:在当前输入状态si且采取动作为ai的条件下,到达下一输入状态s
i+1
的概率。
[0111]
通过如下公式构建动作空间:
[0112]
a=[n
τ
,nf,ω]
[0113]
其中,n
τ
表示切向过载,nf表示法向过载,ω表示机体滚转角速度。
[0114]
奖励函数包括锁定奖励函数、角度优势函数、距离优势函数、高度优势函数以及速度优势函数,其中,锁定奖励函数为:
[0115][0116]
其中,d
*
表示我方无人机成功锁定敌方无人机时两机最小距离,p
*
表示满足锁定时我方无人机速度方向偏离指向敌方无人机质心方向的最大夹角,e
*
表示满足锁定时敌方无人机速度方向偏离我方无人机指向敌方无人机质心方向的最大夹角,d表示我方无人机和敌方无人机的相对距离,p表示我方无人机速度方向偏离指向敌方无人机质心方向的夹角,e表示敌方无人机速度方向偏离我方无人机指向其质心方向视线矢量的夹角;
[0117]
角度优势函数为:
[0118][0119]
距离优势函数为:
[0120][0121]
高度优势函数为:
[0122][0123]
速度优势函数为:
[0124][0125]
其中,p表示我方无人机速度方向偏离指向敌方无人机质心方向的夹角,e表示敌方无人机速度方向偏离我方无人机指向其质心方向视线矢量的夹角,d表示我方无人机和敌方无人机的相对距离,vr表示我方无人机的速度,vb表示敌方无人机的速度,d
max
表示无人机的最大探测距离,δh表示敌方无人机和我方无人机之间的高度差,v
max
表示无人机飞行速度的最大值,v
min
表示无人机飞行速度的最小值;
[0126]
无人机单步的奖励函数为:
[0127]
r=r
lock
+k1r1+k2r2+k3r3+k4r4[0128]
其中,k1至k4表示权值,并且k1至k4之和为1。
[0129]
本实施例中无人机单步的奖励函数包括锁定奖励函数、角度优势函数、距离优势函数、高度优势函数以及速度优势函数,该奖励函数能够解决稀疏奖励导致算法不易收敛的问题。
[0130]
步骤s300、根据无人机空中格斗模型,基于td3算法训练无人机学习机动策略。
[0131]
参照图3,为解决q值高估问题,采用td3算法,该td3算法包括一个执行器(actor)网络和两个评价器(critic)网络,使用两个critic网络估算q值,选择q值相对较小的网络作为更新的目标。基于td3算法使用神经网络训练我方无人机,使用神经网络训练的过程是对构造的策略梯度函数进行梯度下降,迭代收敛后获得最优的神经网络参数。例如,我方无人机在第i步时,输入我方无人机当前的状态空间si至actor网络μ(s|θ
μ
),actor网络根据当前的状态空间si输出我方无人机的当前机动动作ai,为增加无人机的探索性,对actor网络
引入随机噪声ni获得我方无人机当前动作ai=μ(s|θ
μ
)+ni。将当前的si和ai输入至交互环境中,通过状态转移函数获得奖励值ri和下一步状态s
i+1
,将当前的si、ai、ri以及s
i+1
存入经验池中,从经验池中随机抽取n个样本数据(minibatch采样)进行网络参数的学习更新。
[0132]
基于td3算法训练无人机学习机动策略包括:
[0133]
步骤s1、初始化两个评价器网络q1,q2、评价器网络的参数执行器网络的参数θ
μ
、目标网络参数θ'
μ
以及经验池;
[0134]
步骤s2、预设回合数,在每个回合中执行以下步骤:
[0135]
步骤s2-1、预设每个回合中无人机的最大限定步数;
[0136]
步骤s2-2、无人机根据当前状态和策略选择动作,并加上随机噪声;
[0137]
步骤s2-3、无人机执行动作,由状态转移函数获得下一状态并获得奖励;
[0138]
步骤s2-4、将步骤s2-2和步骤s2-3得到的当前状态、策略选择动作、奖励和由状态转移函数获得的下一状态转移至经验池;
[0139]
步骤s2-5、从经验池中随机抽取n个样本;
[0140]
步骤s2-6、通过两个评价器目标网络计算动作的期望回报,选择较小的q值,更新评价器网络的参数;
[0141]
步骤s2-7、通过确定性策略梯度更新执行器网络的参数;
[0142]
步骤s2-8、更新完评价器网络的参数和执行器网络的参数后,更新述目标网络的参数;
[0143]
步骤s2-9、直到步数达到最大限定步数,结束一个回合;
[0144]
步骤s3、在所有回合结束后,无人机学习机动策略的训练结束。
[0145]
其中,通过两个评价器目标网络计算动作的期望回报,选择较小的q值,更新评价器网络的参数,包括:
[0146]
学习更新评价器网络参数,其中,损失函数l的公式为:
[0147][0148]
其中,目标期望值yi根据当前真实奖励值ri与下一步输出值乘以折扣因子λ获得,目标期望值yi的公式为:
[0149][0150]
通过确定性策略梯度更新执行器网络的参数,包括:
[0151]
学习更新执行器网络参数,执行器网络的确定性策略梯度公式为:
[0152][0153]
其中,n表示从经验池中随机抽取的样本数,q(s,a|θq)表示评价器网络,θq表示评价器网络的参数,μ(s|θ
μ
)表示执行器网络,θ
μ
表示执行器网络的参数。
[0154]
本实施例基于td3算法训练无人机学习机动策略,该td3算法使用两个评价器网络计算q值,并且选择较小的q值计算评价器网络参数,能够防止q值高估的问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。
[0155]
为了更好说明,本实施例进行了仿真实验,训练仿真的环境和算法程序以python
语言编程,基于pytorch搭建深度强化学习框架,算法中的神经网络均采用全连接网络架构,激活函数是线性整流函数(relu)。
[0156]
红蓝双方无人机性能相同,初始时刻同高度,初始水平距离取固定值,初始速度相同,爬升角均为0,航向角取随机值。下一时刻红方无人机按照强化学习算法策略做出机动,蓝方无人机采用极小极大策略(minmax strategy)从7种基本机动中选择。每一步由环境根据双方的状态给予奖励,直到单次回合步数达上限或一方成功锁定对手,本回合结束。
[0157]
蓝方无人机有7种基本动作包括匀速平飞、加速、减速、爬升、下降、左转和右转,其参数选择如下表:
[0158][0159]
表1
[0160]
设置的无人机空中格斗仿真场景具体的实验参数如下表所示:
[0161][0162]
表2
[0163]
相关的神经网络参数和训练学习参数如下表所示:
[0164][0165]
表3
[0166]
根据上述的参数设计,基于td3算法训练100000回合无人机学习机动策略,记录每回合的累计奖励,并计算每200回合的平均奖励回报,获得训练过程中平均奖励随训练回合数增加的变化,参照图4,实验结果表明,随着训练回合的增加,无人机不停地通过尝试探索,学习经验策略,在约20000回合时趋于收敛。
[0167]
由于本实施例选择的算法是双延迟深度确定性策略梯度(td3算法),是深度确定性策略梯度(ddpg算法)的优化,因此,在不改变网络结构和训练参数的前提下,对比两种算法的训练过程,实验结果如图5所示,在相同的训练环境下,td3算法比ddpg算法以更快的速度收敛,且收敛后获得的稳定奖励值也略高于ddpg算法。
[0168]
仿真实验还记录了两架无人机在td3算法收敛时的运行轨迹,参照图6,基于td3算法训练我方无人机后,我方无人机能够自主做出机动决策,在和敌方无人机博弈过程中获得优势位置。
[0169]
为了验证td3算法的适应性,敌方无人机采用单步minmax机动策略在随机初始条件下进行了1000次蒙特卡罗仿真试验,仿真结果显示这1000次试验我方无人机的累积回报值均能维持较高优势态势,胜率在80%以上,表明td3算法具有较强的适应性。
[0170]
本实施例还进行了我方无人机和敌方无人机在不同态势下进行对抗的仿真,例如,在我方无人机分别在尾追敌方无人机的优势态势、被敌方无人机尾追的劣势态势和双
方相向接近的均势态势时,获取对抗仿真结果。
[0171]
我方无人机处于优势态势时,我方无人机和敌方无人机的初始状态信息如下表所示:
[0172][0173]
表4
[0174]
仿真结果参照图7,当我方无人机处于优势态势时,我方无人机在保持角度优势的同时,寻找机会逐渐缩减与敌方无人机的距离。在敌方无人机做出转弯下降机动动作欲摆脱锁定时,我方无人机以更合理的转弯时机和速度控制,自主机动达成攻击条件。
[0175]
我方无人机处于劣势态势时,我方无人机和敌方无人机的初始状态信息如下表所示:
[0176][0177]
表5
[0178]
仿真结果参照图8,当我方无人机处于劣势态势时,我方无人机无法通过速度摆脱对手,选择做出类似“s”型机动动作,不断改变航向以寻求摆脱对手追踪,通过减速使敌方无人机超越本身来改变不利态势。在初始时刻,我方无人机处于被敌方无人机尾追飞行态势,敌方无人机保持航向加速靠近我方无人机。我方无人机从初始时刻开始不断改变航向,试图摆脱敌方无人机的武器攻击角度,在我方无人机和敌方无人机的距离接近过程中敌方无人机始终无法成功锁定我方无人机,最终被我方无人机逆转态势占据更有利位置。
[0179]
我方无人机和敌方无人机处于均势态势时,我方无人机和敌方无人机的初始状态信息如下表所示:
[0180][0181]
表6
[0182]
仿真结果参照图9,当我方无人机和敌方无人机处于相向飞行的均势态势时,我方无人机依然可以以更合理的航迹规划与速度控制,通过自主机动获取战场位置优势。
[0183]
参照图10,本发明的一个实施例提供了一种基于深度强化学习td3算法的无人机格斗自主决策系统,包括:
[0184]
无人机运动模型建立单元,用于建立无人机运动模型;
[0185]
无人机空中格斗模型建立单元,用于根据无人机运动模型,基于马尔可夫决策过程,建立无人机空中格斗模型,其中,无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示;
[0186]
无人机学习机动策略训练单元,用于根据无人机空中格斗模型,基于td3算法训练无人机学习机动策略。
[0187]
需要说明的是,由于本实施例中的一种基于深度强化学习td3算法的无人机格斗决策系统与上述的一种基于深度强化学习td3算法的无人机格斗自主决策方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
[0188]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0189]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
技术特征:1.一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,包括步骤:建立无人机运动模型;根据所述无人机运动模型,基于马尔可夫决策过程建立无人机空中格斗模型,其中,所述无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,所述无人机运动模型表示所述无人机空中格斗模型中的状态转移函数;根据所述无人机空中格斗模型,基于td3算法训练无人机学习机动策略。2.根据权利要求1所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,所述无人机运动模型包括动力学模型和运动学模型,所述建立无人机运动模型包括:建立无人机在惯性坐标系中的动力学模型:其中,所述g表示重力加速度;所述v表示所述无人机的速度且所述v满足约束条件:v
min
≤v≤v
max
;航迹倾角γ表示v与水平面的夹角,γ∈[-π/2,π/2];航迹偏角ψ表示v在水平面上的投影与坐标轴x轴的夹角,ψ∈(-π,π];所述n
τ
表示切向过载;所述n
f
表示法向过载;所述μ表示滚转角;建立所述无人机在所述惯性坐标系中的运动学模型:其中,所述x、所述y和所述z表示所述无人机在所述惯性坐标系下的坐标。3.根据权利要求2所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,所述状态空间包括:敌方无人机和我方无人机的本身状态和相对状态。4.根据权利要求3所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,通过如下方式构建所述状态空间:设定所述敌方无人机和所述我方无人机的本身状态:s=[x
r
,y
r
,z
r
,x
b
,y
b
,z
b
,v
r
,v
b
,γ
r
,γ
b
,ψ
r
,ψ
b
,μ
r
,μ
b
]基于所述敌方无人机和所述我方无人机的本身状态,设定所述敌方无人机和所述我方无人机的相对状态:s
rb
=[d,α,β,v
r
,v
b
,γ
r
,γ
b
,ψ
r
,ψ
b
,μ
r
,μ
b
]其中,x
r
,y
r
,z
r
表示所述我方无人机在三维空间中的坐标值,x
b
,y
b
,z
b
表示所述敌方无人机在所述三维空间中的坐标值,所述v
r
表示所述我方无人机的速度,所述v
b
表示所述敌方
无人机的速度,所述γ
r
表示所述我方无人机的航迹倾角,所述γ
b
表示所述敌方无人机的航迹倾角,所述ψ
r
表示所述我方无人机的航迹偏角,所述ψ
b
表示所述敌方无人机的航迹偏角,所述μ
r
表示所述我方无人机的滚转角,所述μ
b
表示所述敌方无人机的滚转角,所述d表示所述敌方无人机和所述我方无人机之间的相对距离,水平视线偏角α表示所述敌方无人机和所述我方无人机的视线在水平面上投影与x轴的夹角,纵向视线偏角β表示所述敌方无人机和所述我方无人机的视线与水平面的夹角。5.根据权利要求2所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,通过如下公式构建所述动作空间:a=[n
τ
,n
f
,ω]其中,所述n
τ
表示切向过载,n
f
表示法向过载,ω表示机体滚转角速度。6.根据权利要求4所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,所述奖励函数包括锁定奖励函数、角度优势函数、距离优势函数、高度优势函数以及速度优势函数,其中,所述锁定奖励函数为:其中,所述d
*
表示我方无人机成功锁定敌方无人机时两机最小距离,所述p
*
表示满足锁定时我方无人机速度方向偏离指向敌方无人机质心方向的最大夹角,所述e
*
表示满足锁定时所述敌方无人机速度方向偏离所述我方无人机指向所述敌方无人机质心方向的最大夹角,所述d表示所述我方无人机和所述敌方无人机的相对距离,所述p表示所述我方无人机速度方向偏离指向所述敌方无人机质心方向的夹角,所述e表示所述敌方无人机速度方向偏离所述我方无人机指向其质心方向视线矢量的夹角;所述角度优势函数为:所述距离优势函数为:所述高度优势函数为:所述速度优势函数为:其中,所述v
r
表示所述我方无人机的速度,所述v
b
表示所述敌方无人机的速度,所述d
max
表示所述无人机的最大探测距离,所述δh表示所述敌方无人机和所述我方无人机之间的高度差,所述v
max
表示所述无人机飞行速度的最大值,所述v
min
表示所述无人机飞行速度的最小值;
所述无人机单步的奖励函数为:r=r
lock
+k1r1+k2r2+k3r3+k4r4其中,所述k1至k4表示权值,并且所述k1至k4之和为1。7.根据权利要求1所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,所述基于td3算法训练无人机学习机动策略包括:步骤s1、初始化两个评价器网络q1,q2、评价器网络的参数执行器网络的参数θ
μ
、目标网络参数θ'
μ
以及经验池;步骤s2、预设回合数,在每个回合中执行以下步骤:步骤s2-1、预设每个回合中所述无人机的最大限定步数;步骤s2-2、所述无人机根据当前状态和策略选择动作,并加上随机噪声;步骤s2-3、所述无人机执行动作,由状态转移函数获得下一状态并获得奖励;步骤s2-4、将所述步骤s2-2和所述步骤s2-3得到的所述当前状态、所述策略选择动作、所述奖励和由状态转移函数获得的所述下一状态转移至经验池;步骤s2-5、从所述经验池中随机抽取n个样本;步骤s2-6、通过所述两个评价器目标网络计算动作的期望回报,选择较小的q值,更新所述评价器网络的参数;步骤s2-7、通过确定性策略梯度更新所述执行器网络的参数;步骤s2-8、更新完所述评价器网络的参数和所述执行器网络的参数后,更新所述目标网络的参数;步骤s2-9、直到步数达到所述最大限定步数,结束一个回合;步骤s3、在所有回合结束后,所述无人机学习机动策略的训练结束。8.根据权利要求7所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,所述通过所述两个评价器目标网络计算动作的期望回报,选择较小的q值,更新所述评价器网络的参数,包括:学习更新评价器网络参数,其中,损失函数l的公式为:其中,所述s
i
表示当前状态,所述a
i
表示当前动作,目标期望值y
i
根据当前真实奖励值r
i
与下一步输出值乘以折扣因子λ获得,目标期望值y
i
的公式为:其中,s
i+1
表示下一步状态。9.根据权利要求8所述的一种基于深度强化学习td3算法的无人机格斗自主决策方法,其特征在于,所述通过确定性策略梯度更新执行器网络的参数,包括:学习更新执行器网络参数,执行器网络的确定性策略梯度公式为:其中,所述n表示从所述经验池中随机抽取的样本数,所述q(s,a|θ
q
)表示所述评价器网络,所述θ
q
表示所述评价器网络的参数,所述μ(s|θ
μ
)表示所述执行器网络,所述θ
μ
表示所述
执行器网络的参数。10.一种基于深度强化学习td3算法的无人机格斗自主决策系统,其特征在于,包括:无人机运动模型建立单元,用于建立无人机运动模型;无人机空中格斗模型建立单元,用于根据所述无人机运动模型,基于马尔可夫决策过程,建立无人机空中格斗模型,其中,所述无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示;无人机学习机动策略训练单元,用于根据所述无人机空中格斗模型,基于td3算法训练无人机学习机动策略。
技术总结本发明公开了一种基于深度强化学习TD3算法的无人机格斗自主决策方法,该方法通过建立无人机运动模型,根据无人机运动模型,基于马尔可夫决策过程建立无人机空中格斗模型,其中,无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,状态转移函数表示为无人机运动模型,根据无人机空中格斗模型,基于TD3算法训练无人机学习机动策略。本发明根据无人机空中格斗模型,基于TD3算法训练无人机学习机动策略,该TD3算法能够解决Q值高估问题,使得无人机学习到较好的机动策略,在作战中获得位置优势。在作战中获得位置优势。在作战中获得位置优势。
技术研发人员:高显忠 候中喜 金泉 王玉杰 邓小龙
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:2022.03.17
技术公布日:2022/7/5