本申请涉及数据处理,特别是涉及一种用于兵棋推演平台的端云协同训练方法。
背景技术:
1、随着智能化浪潮的推进, 兵棋推演领域的研究引起学者的高度关注。然而,当前兵棋推演中的智能决策技术仍面临样本效率低、泛化迁移受限及模型部署困难等挑战。此外,传统基于知识或数据驱动的方法在计算复杂度、训练速度和泛化能力方面存在不足,且云端中心化的指控、训练模式的应用亦受通信延迟、数据安全和模型部署等问题的限制。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高兵棋推演平台训练准确率和效率的用于兵棋推演平台的端云协同训练方法。
2、一种用于兵棋推演平台的端云协同训练方法,所述方法应用于包括推演服务器和多个推演用户端的兵棋推演平台,包括:
3、将推演用户端作为协同工作的用户端,推演服务器通过作为云端服务器,用户端通过云端服务器的接口与云端服务器进行数据共享和协同处理构建端云协同框架;
4、对端云协同框架进行建模,将用户端建模为智能体,得到端云协同模型;
5、根据decider算法和预先获取的离线数据集对端云协同模型进行离线预训练,将得到的离线智能体对应的状态价值网络的网络参数和目标策略网络的网络参数及离线数据子集广播至推演用户端;
6、根据离线数据子集和用户端在线收集的数据对用户端进行在线训练,设置用户端上本地智能体模型对应的动作网络的目标函数和评价网络的损失函数,利用本地智能体模型对应的动作网络的目标函数和评价网络的损失函数对本地智能体模型进行训练,将训练得到的本地智能体模型上传至云端服务器;
7、在云端服务器的测试环境中利用训练得到的本地智能体模型输出的模型策略进行性能测试,根据不同模型策略对应的累计奖励值进行模型聚合,得到加权平均模型,作为当前轮次更新后的全局智能体模型,并广播至用户端。
8、本申请提出一种更为高效、安全的一种用于兵棋推演平台的端云协同训练方法来解决战术边缘终端的智能化发展问题,框架利用云端服务器强大的计算能力和易于大量存储离线经验样本的优势,增加了云端离线强化学习与用户端在线强化学习的混合训练方法,创新了知识与数据混合驱动的智能决策路径。同时,通过云端主动筛选高价值离线经验样本,并发送至边缘终端设备,进一步强化了先验知识对智能体训练的加速作用,使智能体能够更快速地适应在线环境,有效降低了因数据分布偏移造成的策略崩溃现象。decider采用的端云协同训练模式,不需要智能体向云端服务器或者智能体之间进行原始样本的传输与共享,对不同的任务环境具有较好的鲁棒性,有效克服了因通信延迟、数据泄露等原因造成的模型难以实际部署的弊端。
1.一种用于兵棋推演平台的端云协同训练方法,其特征在于,所述方法应用于包括推演服务器和多个推演用户端的兵棋推演平台,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据decider算法和预先获取的离线数据集对所述端云协同模型进行离线预训练,包括:
3.根据权利要求2所述的方法,其特征在于,所述智能体的状态价值网络的损失函数为
4.根据权利要求2所述的方法,其特征在于,所述智能体的状态-动作价值网络的更新公式为
5.根据权利要求2所述的方法,其特征在于,所述智能体的行为克隆网络的更新公式为
6.根据权利要求2所述的方法,其特征在于,所述智能体的目标策略网络的损失函数为
7.根据权利要求2所述的方法,其特征在于,根据所述训练好的智能体的状态价值网络计算数据集筛选的评价指标为
8.根据权利要求1所述的方法,其特征在于,设置用户端上本地智能体模型对应的动作网络的目标函数为
9.根据权利要求1所述的方法,其特征在于,设置用户端上本地智能体模型对应的评价网络的损失函数为
10.根据权利要求1所述的方法,其特征在于,根据不同模型策略对应的累计奖励值进行模型聚合,得到加权平均模型,包括:
