基于梯度方差减小和数据重排的模型训练方法

allin2026-03-01 48

本申请涉及计算机，尤其涉及的是一种基于梯度方差减小和数据重排的模型训练方法。

背景技术：

1、随着科学技术的发展，各种模型的应用越来越广泛，且可以应用在不同的领域和场景中，以解决不同的问题。在使用模型之前，需要先进行模型训练。

2、相关技术中的模型训练过程中，通常直接根据样本对应的模型参数计算样本对应的梯度，从而直接基于该梯度进行模型参数的更新。但针对部分模型，例如训练过程涉及非凸鞍点问题的模型，样本对应的梯度估计的方差较大，影响模型训练的收敛速度，从而不利于提高模型的训练速率和训练效果。

3、因此，相关技术还有待改进和发展。

技术实现思路

1、本申请的主要目的在于提供一种基于梯度方差减小和数据重排的模型训练方法，旨在解决相关技术中直接根据样本对应的模型参数计算样本对应的梯度，从而直接基于该梯度进行模型参数的更新时，样本对应的梯度估计的方差较大，影响模型训练的收敛速度，从而不利于提高模型的训练速率和训练效果的技术问题。

2、为了实现上述目的，本申请第一方面提供一种基于梯度方差减小和数据重排的模型训练方法，其中，上述基于梯度方差减小和数据重排的模型训练方法包括：

3、获取待训练模型对应的初始的模型参数，以及由多个样本构成的样本序列；

4、在每一个迭代周期开始时，对上述样本序列中的样本进行重新排序以更新上述样本序列；

5、针对模型训练的当前迭代周期，确定上述样本序列中的所有样本在上述当前迭代周期开始时的模型参数下的样本平均梯度；

6、依次选取上述样本序列中的样本作为目标样本，针对每一上述目标样本，确定上述目标样本在当前对应的模型参数下的样本当前梯度，根据上述样本平均梯度对上述样本当前梯度进行调整以获得上述目标样本对应的样本调整梯度，根据上述样本调整梯度更新上述模型参数，其中，基于上述样本调整梯度计算出的梯度方差小于基于上述样本当前梯度计算出的梯度方差；

7、若上述样本序列中的样本遍历完毕，则进入下一个迭代周期并返回执行上述在每一个迭代周期开始时，对上述样本序列中的样本进行重新排序以更新上述样本序列的步骤，直至满足预设的训练终止条件并获得训练完成时的模型参数。

8、可选的，上述对上述样本序列中的样本进行重新排序以更新上述样本序列，包括：

9、对各样本在上述样本序列中对应的样本索引进行随机重排，获得随机重排后的索引序列；

10、根据上述样本序列和随机重排后的索引序列，生成样本位置重新排序后的样本序列。

11、可选的，上述对上述样本序列中的样本进行重新排序以更新上述样本序列，包括：

12、获取初始序列，其中，上述初始序列是未经过任何迭代周期所对应的重新排序处理的样本序列；

13、对各样本在上述初始序列中对应的样本索引进行随机重排，获得随机重排后的初始索引序列；

14、根据上述初始序列和随机重排后的初始索引序列，生成样本位置重新排序后的样本序列。

15、可选的，任意两个迭代周期中样本序列所对应的样本排列顺序不相同。

16、可选的，上述根据上述样本平均梯度对上述样本当前梯度进行调整以获得上述目标样本对应的样本调整梯度，包括：

17、确定上述目标样本在上述当前迭代周期开始时的模型参数下对应的样本初始梯度；

18、根据上述样本初始梯度和上述样本平均梯度，对上述样本当前梯度进行调整，获得上述目标样本对应的样本调整梯度。

19、可选的，上述根据上述样本初始梯度和上述样本平均梯度，对上述样本当前梯度进行调整，获得上述目标样本对应的样本调整梯度，包括：

20、根据上述样本平均梯度与上述样本初始梯度的差值确定目标调整值；

21、将上述样本当前梯度与上述目标调整值之和作为上述目标样本对应的样本调整梯度。

22、可选的，上述方法还包括：

23、针对每一个迭代周期，在上述迭代周期结束时，基于预设的约束集对上述模型参数进行单次投影操作。

24、由上可见，本申请方案中，获取待训练模型对应的初始的模型参数，以及由多个样本构成的样本序列；在每一个迭代周期开始时，对上述样本序列中的样本进行重新排序以更新上述样本序列；针对模型训练的当前迭代周期，确定上述样本序列中的所有样本在上述当前迭代周期开始时的模型参数下的样本平均梯度；依次选取上述样本序列中的样本作为目标样本，针对每一上述目标样本，确定上述目标样本在当前对应的模型参数下的样本当前梯度，根据上述样本平均梯度对上述样本当前梯度进行调整以获得上述目标样本对应的样本调整梯度，根据上述样本调整梯度更新上述模型参数，其中，基于上述样本调整梯度计算出的梯度方差小于基于上述样本当前梯度计算出的梯度方差；若上述样本序列中的样本遍历完毕，则进入下一个迭代周期并返回执行上述在每一个迭代周期开始时，对上述样本序列中的样本进行重新排序以更新上述样本序列的步骤，直至满足预设的训练终止条件并获得训练完成时的模型参数。

25、与现有技术相比，本申请方案中并不是直接根据基于样本在当前对应的模型参数下的样本当前梯度进行模型参数的更新，而是先计算样本平均梯度，并依次基于全局的样本平均梯度对样本梯度进行调整获得样本调整梯度，进而根据样本调整梯度进行模型参数的更新。有利于减少用于进行模型参数调整的梯度的方差，从而有利于提高模型训练的收敛速度，进而有利于提高模型的训练速率和训练效果。并且，在每一个迭代周期开始时，对样本序列中的样本进行重新排序，能够避免模型训练过程中对固定顺序的样本序列的依赖，有利于提高模型的训练效果。

技术特征：

1.一种基于梯度方差减小和数据重排的模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于梯度方差减小和数据重排的模型训练方法，其特征在于，所述对所述样本序列中的样本进行重新排序以更新所述样本序列，包括：

3.根据权利要求1所述的基于梯度方差减小和数据重排的模型训练方法，其特征在于，所述对所述样本序列中的样本进行重新排序以更新所述样本序列，包括：

4.根据权利要求1所述的基于梯度方差减小和数据重排的模型训练方法，其特征在于，任意两个迭代周期中样本序列所对应的样本排列顺序不相同。

5.根据权利要求1所述的基于梯度方差减小和数据重排的模型训练方法，其特征在于，所述根据所述样本平均梯度对所述样本当前梯度进行调整以获得所述目标样本对应的样本调整梯度，包括：

6.根据权利要求5所述的基于梯度方差减小和数据重排的模型训练方法，其特征在于，所述根据所述样本初始梯度和所述样本平均梯度，对所述样本当前梯度进行调整，获得所述目标样本对应的样本调整梯度，包括：

7.根据权利要求1至6任意一项所述的基于梯度方差减小和数据重排的模型训练方法，其特征在于，所述方法还包括：

技术总结
本申请公开了基于梯度方差减小和数据重排的模型训练方法，涉及计算机技术领域，方法包括：获取待训练模型对应的初始的模型参数及样本序列；在迭代周期开始时，对样本序列进行重排；在当前迭代周期，确定样本序列中样本在当前迭代周期开始时的样本平均梯度；依次选取目标样本，确定目标样本在当前模型参数下的样本当前梯度，根据样本平均梯度调整样本当前梯度获得样本调整梯度，根据样本调整梯度更新模型参数；若样本遍历完毕，则进入下一个迭代周期并返回执行对样本序列进行重排的步骤，直至满足预设的训练终止条件并获得训练完成时的模型参数。如此，能提高模型训练的收敛速度、训练速率和训练效果。

技术研发人员：崔世晟,姜霞,黄缘媛,黄艺,徐勇,张言军
受保护的技术使用者：北京理工大学
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-27069.html

专利

最新回复(0)