本发明属于固定翼姿态控制,具体而言,涉及一种基于等变强化学习的固定翼姿态控制方法。
背景技术:
1、近年来,越来越多的研究开始应用强化学习解决固定翼姿态控制问题,与传统控制方法相比,强化学习不需要增益调度,可以在全包线范围内直接训练得到控制器,而且控制效果上限高。然而强化学习方法通过深度神经网络对策略和值函数进行拟合,存在样本利用效率低下的问题,需要大量仿真交互数据进行算法网络的训练,对于控制难度大的欠驱动固定翼飞行器,提高强化学习算法的训练效率,用最少的试验次数安全的完成学习至关重要。
2、等变指存在变换g,对于函数有:,则称关于g是等变的,即对一个函数的输入施加变换也会同样反应在输出上,等变强化学习旨在利用环境模型的等变特性,使智能体在面对等变环境变换时输出动作同样满足一定的变换性质,比如对于几何对称的环境,当状态空间发生对称变换时,为了保持环境整体的几何对称性,智能体的动作也需要进行对应的变换才能与状态空间一起保持一个不变的等价关系。
3、尽管该领域还处于研究阶段,但已有一些成果表明等变强化学习在提高模型泛化性和加快算法训练速度方面具有潜在优势,特别是在状态空间为图像的领域,发现并利用固定翼姿态控制中存在的等变结构,基于等变强化学习加快算法的训练速度,减少交互数据需求量是目前需要解决的问题。
技术实现思路
1、针对以上缺陷,本发明提供了一种基于等变强化学习的固定翼姿态控制方法,包括以下步骤:
2、s1:在平面地球假设下,基于固定翼运动学和动力学方程建立固定翼模型;
3、s2:设定假设条件,建立步骤s1中固定翼模型的近似航向镜面对称结构;
4、s3:定义强化学习的观测空间,动作空间,奖励函数;
5、s4:选择actor-critic架构强化学习算法作为训练算法,利用近似航向镜面对称结构设计强化学习神经网络结构;
6、s5:搭建仿真环境,训练强化学习算法,最终以强化学习算法中的actor神经网络模型作为控制器部署算法。
7、进一步地,所述步骤s1中的固定翼模型为平面地球假设下的六自由度固定翼模型。
8、进一步地,所述步骤s2的假设条件包括:
9、假设忽略发动机等转动部件产生的角动量;
10、假设气动力系数和力矩系数精确的符合物理规律,不存在误差。
11、进一步地,所述步骤s3中的强化学习的观测空间定义为:
12、,
13、上述式中,为固定翼空速为迎角,为侧滑角,为滚转角,为俯仰角,为滚转角速率,为俯仰角速率,为偏航角速率,为固定翼体轴坐标系下的高度,pa为实际推力水平,为滚转角误差,为俯仰角误差,为偏航角误差;
14、强化学习的动作空间定义为:
15、,
16、上述式中,为油门量,为升降舵偏角,为副翼偏角,为方向舵偏角;
17、强化学习的奖励函数定义为:
18、,
19、,
20、上述式中,,,
21、为最大期望控制输出增量,。
22、进一步地,所述步骤s4中所采用的actor-critic架构强化学习算法可以是任意的深度actor-critic算法。
23、进一步地,所述步骤s4中的actor-critic架构强化学习算法包括actor神经网络和critic神经网络,actor神经网络和critic神经网络仅对航向对称平面一侧的策略和值函数进行拟合,航向对称平面另一侧的策略和值函数则根据固定翼模型等变结构从拟合侧计算得到,actor 和 critic的工作过程分别为:
24、actor神经网络首先对输入进行判断,若,则直接将依次经过神经网络1和神经网络2计算得到输出,否则,对输入经过变换后得到依次经过神经网络1和神经网络3得到,再经过变换得到输出;
25、critic神经网络首先对输入进行判断,若,则直接将或者(,)输入神经网络4得到值函数,否则,对或者(,)经过变换后得到或者(,)输入神经网络4得到值函数;
26、其中变换用于将相关变量由航向对称平面一侧变换到另一侧;
27、神经网络1为按顺序包括两层节点数量为128的全连接神经网络和一层节点数量为128的gru神经网络,激活函数均为relu,神经网络2和神经网络3为两层节点个数为128的全连接神经网络,激活函数均为relu,神经网络4按顺序包括两层节点数量为128的全连接神经网络,一层节点数量为128的gru神经网络和两层节点数量为128的全连接神经网络,激活函数均为relu。
28、进一步地,所述步骤s4中的神经网络结构可以包括前馈神经网络和/或循环神经网络。
29、进一步地,所述步骤s5中的仿真环境包括用于强化学习和仿真环境参数设置的环境初始化模块、用于仿真训练的单局仿真环节和用于判断当前算法训练是否结束的对算法训练结束判断模块;
30、所述单局仿真环节包括环境重置模块、动作选择模块、模型解算模块、算法更新模块和当前仿真结束判断模块。
31、本发明与现有技术相比具有以下有益效果:
32、发现了固定翼控制中存在的近似航向镜面对称结构,并利用近似航向镜面对称结构带来的模型等变性质加快了强化学习的训练速度,缓解了强化学习样本效率低下的问题,能够和任意深度actor-critic强化学习算法相结合来加快其在固定翼控制问题中的训练速度。
1.一种基于等变强化学习的固定翼姿态控制方法,其特征在于:包括以下步骤:
2.如权利要求1所述的一种基于等变强化学习的固定翼姿态控制方法,其特征在于:所述步骤s1中的固定翼模型为平面地球假设下的六自由度固定翼模型。
3.如权利要求1所述的一种基于等变强化学习的固定翼姿态控制方法,其特征在于:所述步骤s2的假设条件包括:
4.如权利要求1所述的一种基于等变强化学习的固定翼姿态控制方法,其特征在于:所述步骤s3中的强化学习的观测空间定义为:
5.如权利要求1所述的一种基于等变强化学习的固定翼姿态控制方法,其特征在于:所述步骤s4中所采用的actor-critic架构强化学习算法可以是任意的深度actor-critic算法。
6.如权利要求5所述的一种基于等变强化学习的固定翼姿态控制方法,其特征在于:所述步骤s4中的actor-critic架构强化学习算法包括actor神经网络和critic神经网络,actor神经网络和critic神经网络仅对航向对称平面一侧的策略和值函数进行拟合,航向对称平面另一侧的策略和值函数则根据固定翼模型等变结构从拟合侧计算得到,actor 和critic的工作过程分别为:
7.如权利要求1所述的一种基于等变强化学习的固定翼姿态控制方法,其特征在于:所述步骤s4中的神经网络结构可以包括前馈神经网络和/或循环神经网络。
8.如权利要求1所述的一种基于等变强化学习的固定翼姿态控制方法,其特征在于:所述步骤s5中的仿真环境包括用于强化学习和仿真环境参数设置的环境初始化模块、用于仿真训练的单局仿真环节和用于判断当前算法训练是否结束的对算法训练结束判断模块;