本发明涉及一种基于知识抽取的发动机参数模型拟合建模方法,属于航天装备建模智能。
背景技术:
0、技术背景
1、人工智能领域的主要目标之一是解决未经处理的、高维的、感觉输入的复杂任务。通过将感知处理的深度学习与强化学习(rl)相结合,产生了“深度q网络”(dqn)算法,然而,dqn在解决高维观测空间的问题时,只能处理离散的、低维的行动空间。
2、对多指标任务尤其是发动机参数模型拟合任务,dqn不能直接应用于连续域,因为它依赖于寻找使动作-价值函数最大化的动作,而在连续值情况下,每一步都需要迭代优化过程。由于模拟发动机参数模型拟合复杂环境的状态空间和动作空间非常大,可以考虑使用rl中的函数逼近,并将其应用在算法设计和理论分析中。针对发动机参数模型的知识抽取问题是一类具有复杂状态和动作空间的问题,由于算法处理大型状态和动作空间的需求的增加,需要设计具有一般函数逼近功能的高效强化学习算法。
技术实现思路
1、本发明的技术解决问题是:本发明提出的一种基于知识抽取的发动机参数模型拟合建模方法,将发动机推力计算过程中影响计算速度的部分采用神经网络的方式进行拟合,进而提高计算速度。
2、本发明的技术解决方案是:一种基于知识抽取的发动机参数拟合模型建模方法,该方法采用ddpg算法进行数据拟合建模,步骤如下:
3、s0、构建ddpg算法中的策略网络、价值网络、目标策略网络与目标价值网络;所述目标策略网络与目标价值网络分别加倍扩展,对应的内部运算同步加倍扩展,加倍扩展后的两路并行计算过程通过第一假设类f与第二假设类g进行区分;
4、s1、初始化ddpg算法中的策略网络μ(s;θμ)、价值网络q(s,a;θq),以及第一假设类对应的目标策略网络μ(s;θμ′)、第二假设类对应的目标策略网络μ(s;θμ″),第一假设类对应的目标价值网络q(s,a;θq′)、第二假设类对应的q(s,a;θq″)的目标价值网络、经验池d大小为10000、价值学习率α与策略学习率β取0.1;外层循环迭代次数、内层循环迭代次数、训练循环迭代次数初始化为0;设定外层循环的最大回合数10000、内层循环的最大步数5000和训练循环的最大训练次数32;其中,s为输入状态、a为输入动作、θu指代策略网络参数,θq指代价值网络参数;θμ′指代第一假设类对应的目标策略网络参数,θμ″指代第二假设类对应的目标策略网络参数;θq′指代第一假设类对应的目标价值网络参数,θq″指代第二假设类对应的目标价值网络参数;
5、s2、获取发动机参数数组,将发动机参数数组作为参考状态空间数据,所述发动机参数数组包括不同油气比、高度和马赫数下的发动机推力数据;确定油气比、高度、马赫数和发动机推力的最大值和最小值后,根据[最小值,最大值]区间,将油气比、高度、马赫数和发动机推力均归一化到[0,1]区间内;然后进入外层循环,执行步骤s3;
6、s3、随机设置初始输入状态s0,并将初始输入状态s0作为第一假设类和第二假设类的初始输入状态,所述输入状态包括油气比、高度和马赫数;
7、s4、取内层循环步数t=0,进入内层循环,执行步骤s5;
8、s5、计算第一假设类f的四元组(sf,t,af,t,sf,t+1,rf,t)和第二假设类g的两个四元组(sg,t,ag,t,sg,t+1,rg,t);r为奖励值,下标f表示第一假设类,g表示第二假设类,t表示内层循环当前步数,t+1表示内层循环下一步;
9、s6、将第一假设类f的四元组(sf,t,af,t,sf,t+1,rf,t)和第二假设类g的两个四元组(sg,t,ag,t,sg,t+1,rg,t),存入经验池;
10、s7、将内层循环当前步数加1,内层循环当前步数与最大步数比较,如果内层循环当前步数达到最大步数,则进入训练循环,取训练循环次数n=0,执行步骤s8,否则重复执行步骤s5~s7;
11、s8、从经验池随机采集第一假设类f和第二假设类g的四元组,作为第一假设类训练样本(sf,i,af,i,sf,i+1,rf,i)和第二假设类训练样本(sg,j,ag,j,sg,j+1,rg,j),i,j∈[0,t-1]为被采集的四元组在经验池中的序号;t为经验池的长度;
12、s9、计算第一假设类训练样本(sf,i,af,i,sf,i+1,rf,i)对应的估计函数lf,i、第二假设类训练样本(sg,j,ag,j,sg,j+1,rg,j)对应的估计函数lg,j,i,j∈[0,t-1];
13、s10、更新价值网络;
14、s11、更新策略网络;
15、s12、更新目标策略网络和目标价值网络;
16、s13、将当前训练循环迭代次数加1,当前迭代次数与最大训练次数比较,如果当前迭代次数达到最大训练次数,则进入步骤s14,否则重复执行步骤s8~s13;
17、s14、将外层循环迭代次数加1,外层循环当前迭代次数与最大回合数比较,如果外层循环当前迭代次数达到最大回合数,则退出外层循环,否则重复执行步骤s3~s14。
18、优选地,所述步骤s6中,经验池满后,新进入的数据优先替换时序上最旧的数据。
19、优选地,第一假设类f和第二假设类g的四元组计算方法如下:
20、获取第一假设类的当前内层循环对应的输入状态sf,t,计算标准模型推力输出,利用第一假设类的策略网络μ(sf,t;θμ),计算第一假设类当前内层循环对应的推力输出af,t,根据标准模型推力输出和第一假设类当前内层循环对应的推力输出af,t,计算第一假设类当前内层循环对应的奖励函数rf,t,从第一假设类的当前输入状态sf,t的临近状态中随机选取一个,作为获得下一时刻的输入sf,t+1;
21、获取第二假设类的当前输入状态sg,t,计算标准模型推力输出,利用第二假设类的策略网络μ(sg,t;θμ),计算第二假设类当前内层循环对应的推力输出af,t,根据标准模型推力输出和第二假设类当前内层循环对应的推力输出af,t,计算第二假设类当前内层循环对应的奖励函数rg,t,从第二假设类的当前状态sg,t的临近状态中随机选取一个,作为下一时刻的输入状态sg,t+1。
22、优选地,所述第一假设类的当前状态sf,t的临近状态中的油气比、高度、马赫数至少一项相对于第一假设类的初始状态s0中对应的项发生偏移量,所述偏移量为对应项数值跨度的5%以内。
23、所述第二假设类的当前状态sg,t的临近状态中的油气比、高度、马赫数至少一项相对于第二假设类的初始状态s0中对应的项发生偏移量,所述偏移量为对应项数值跨度的5%以内。
24、优选地,第一假设类训练样本(sf,i,af,i,sf,i+1,rf,i)对应的估计函数lf,i为:
25、
26、第二假设类训练样本(sg,j,ag,j,sg,j+1,rg,j)对应的估计函数lg,j为:
27、
28、其中,q(sf,i,af,i;θq)为基于第一假设类训练样本中当前输入状态sf,i和当前输入动作af,i的价值网络,表示依据经验池中第一假设类f全部动作数据计算得到的目标价值网络期望值;μ(sf,i+1;θμ′)基于第一假设类训练样本中下一个步输入状态sf,i+1的目标策略网络;
29、q(sg,j,ag,j;θq)为基于第二假设类训练样本中当前输入状态sg,j和当前输入动作ag,j的价值网络,表示依据经验池中第二假设类g全部动作数据计算得到的目标价值网络期望值;μ(sg,i+1;θμ′)基于第二假设类训练样本中下一个步输入状态sg,i+1的目标策略网络;
30、af表示经验池中第一假设类f全部输入动作的集合,ag经验池中第一假设类g全部输入动作的集合。
31、优选地,所述更新后的价值网络参数为:
32、
33、其中,α为价值网络的学习率,θq为当前价值网络参数,为基于第一假设类训练样本中当前输入状态sf,i和当前输入动作af,i的价值网络q(sf,i,af,i;θq)对当前价值网络参数θq的偏导数,为基于第二假设类训练样本中当前输入状态sg,j和当前输入动作ag,j的价值网络q(sg,j,ag,j;θq)对当前价值网络参数θq的偏导数,和通过bp神经网络自动计算;l为第一假设类和第二假设类的耦合估计函数为
34、优选地,所述步骤s12中的更新后的策略网络参数为:
35、
36、其中,θμ为当前策略网络参数,β为策略网络的学习率,为第一假设类训练样本输入状态sf,i对应的策略网络μ(sf,i;θμ)对当前策略网络参数θμ的偏导数,为第一假设类训练样本对应的价值网络μ(sf,i;θμ)对第一假设类训练样本输入动作af,i的偏导数;
37、为第二假设类训练样本输入状态sg,j对应的策略网络μ(sg,j;θμ)对当前策略网络参数θμ的偏导数,为第二假设类训练样本对应的策略网络q(sg,j,ag,j;θq)对第二假设类训练样本输入动作ag,j的偏导数;
38、q(sg,j,ag,j;θq)一般通过bp神经网络自动计算。
39、优选地,更新后的第一假设类对应的目标价值网络参数θq′为:
40、τθq+(1-τ)θq′;
41、更新后的更新后的第一假设类对应的目标策略网络参数θμ′为:
42、τθμ+(1-τ)θμ′
43、更新后的第二假设类对应的目标价值网络参数θq″为:
44、τθq+(1-τ)θq″
45、更新后的第二假设类对应的目标策略网络参数θμ″为:
46、τθμ+(1-τ)θμ″
47、θq为当前价值网络参数,θq′为当前第一假设类对应的目标价值网络参数;θq″为当前第二假设类对应的目标价值网络参数;
48、θμ为当前策略网络参数,θμ′为当前第一假设类对应的目标价值网络参数;θμ″为当前第二假设类对应的目标价值网络参数;
49、τ为动量因子,取值0.1。
50、优选地,奖励函数采用细颗粒度下标准推力与opera-ddpg算法拟合推力的输出偏差取标准化均方差(mse)实现,标准推力与拟合推力可以写为:
51、astd=thruststandard=tcal(γ,height,ma),acal=thrustnet_output=μ(s;θμ)
52、奖励函数可以写为:
53、
54、本发明与现有技术相比的有益效果是:
55、(1)、本发明将这两个网络分别加倍扩展,对应的内部运算同步加倍扩展,加倍扩展后的两路并行计算过程通过第一假设类与第二假设类进行区分;上述两个假设类的计算结果,在更新策略网络和更新价值网络前,通过算术平均合并。有效地抑制目标策略网络与目标价值网络的过估计问题,减小了这两个网络的估计方差。
56、(2)、本发明提出的一种基于知识抽取的发动机参数模型拟合建模方法,针对发动机参数模型,通过网络对推力进行拟合,在保证拟合误差小于5%的前提下缩短了80%的计算时间。
1.一种基于知识抽取的发动机参数拟合模型建模方法,其特征在于采用ddpg算法进行数据拟合建模,步骤如下:
2.根据权利要求1所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于:所述步骤s6中,经验池满后,新进入的数据优先替换时序上最旧的数据。
3.根据权利要求1所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于:第一假设类f和第二假设类g的四元组计算方法如下:
4.根据权利要求3所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于:
5.根据权利要求3所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于:
6.根据权利要求1所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于:
7.根据权利要求1所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于,所述更新后的价值网络参数为:
8.根据权利要求1所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于:所述步骤s12中的更新后的策略网络参数为:
9.根据权利要求1所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于:
10.根据权利要求1所述的一种基于知识抽取的发动机参数模型拟合建模方法,其特征在于: