一种模型训练及检索方法、计算机程序产品、设备、介质与流程

allin2026-03-01 38

本发明涉及人工智能，更具体地说，涉及一种模型训练及检索方法、计算机程序产品、设备、介质。

背景技术：

1、图像和文本对比学习是计算机视觉和自然语言处理领域的一个重要研究方向。其目标是通过将图像和文本进行联合学习，使计算机能够理解和推理两者之间的关系。

2、近年来，随着深度学习的快速发展，图像和文本对比学习取得了显著的进展。然而，在对图像文本识别模型进行训练的过程中，限制了进一步增强正样本对相似性和减小负样本对相似性的能力，使得图像文本识别模型精度差，无法准确对图像和文本进行关联性识别。其中，正样本对指的是由图像与对应的文本描述构成的图像-文本对，负样本对指的是由图像与其他不相关的文本描述构成的图像-文本对。

3、综上所述，如何准确对图像和文本进行识别是目前本领域技术人员亟待解决的问题。

技术实现思路

1、本发明的目的是提供一种模型训练方法，其能在一定程度上解决如何准确对图像和文本进行识别的技术问题。本发明还提供了一种检索方法、计算机程序产品、电子设备及计算机可读存储介质。

2、第一方面，提供一种模型训练方法，包括：

3、获取待训练的图像文本识别模型；

4、获取目标数量个训练样本，所述训练样本包括由图像和文本组成的图像文本对；

5、获取所述图像文本识别模型对所述训练样本的识别结果；

6、根据目标损失函数对所述识别结果进行处理，生成所述图像文本识别模型的损失值；

7、根据所述损失值更新所述图像文本识别模型；

8、其中，所述目标损失函数包括相似度损失项，所述相似度损失项用于约束正样本对的图像特征和文本特征之间的相似度趋近为1，且约束负样本对的图像特征和文本特征之间的相似度趋近为0。

9、另一方面，所述图像文本识别模型包括图像编码模块和文本编码模块；

10、获取所述图像文本识别模型对所述训练样本的识别结果，包括：

11、获取所述图像编码模块对所述训练样本中的图像进行提取后得到的图像嵌入向量，所述图像嵌入向量包括图像分类嵌入向量；

12、获取所述文本编码模块对所述训练样本中的文本进行提取后得到的文本嵌入向量，所述文本嵌入向量包括文本分类嵌入向量；

13、将所述图像嵌入向量和所述文本嵌入向量作为所述识别结果。

14、另一方面，根据目标损失函数对所述识别结果进行处理，生成所述图像文本识别模型的损失值，包括：

15、将所述目标数量个所述图像分类嵌入向量组成列向量；

16、将所述目标数量个所述文本分类嵌入向量组成行向量；

17、基于所述列向量和所述行向量组成相似度矩阵；

18、确定所述相似度矩阵中元素的目标维度；

19、生成行和列均为所述目标维度的第一矩阵，所述第一矩阵包括对角线为1且其它元素均为0的矩阵；

20、生成行和列均为所述目标维度的第二矩阵，所述第二矩阵包括对角线为0且其它元素均为1的矩阵；

21、基于所述第一矩阵和所述第二矩阵对所述相似度矩阵进行处理，生成所述相似度损失项的值；

22、根据目标损失函数对所述相似度损失项的值和所述识别结果进行处理，生成所述图像文本识别模型的损失值。

23、另一方面，基于所述第一矩阵和所述第二矩阵对所述相似度矩阵进行处理，生成所述相似度损失项的值，包括：

24、应用常量系数和f范数，基于所述第一矩阵和所述第二矩阵对所述相似度矩阵进行矩阵按位置相乘处理，生成所述相似度损失项的值。

25、另一方面，所述目标损失函数包括所述相似度损失项的约束项，所述约束项随着训练次数变化，且逐步最大化正样本对的相似度并最小化负样本对的相似度。

26、另一方面，根据目标损失函数对所述相似度损失项的值和所述识别结果进行处理，生成所述图像文本识别模型的损失值，包括：

27、确定当前对所述图像文本识别模型进行训练的周期序数；

28、确定以周期序数为自变量且单调增加的所述约束项；

29、基于所述约束项对当前周期序数进行处理，生成所述约束项的值；

30、根据目标损失函数对所述约束项的值、所述相似度损失项的值和所述识别结果进行处理，生成所述图像文本识别模型的损失值。

31、另一方面，基于所述约束项对当前周期序数进行处理，生成所述约束项的值，包括：

32、基于所述约束项对当前周期序数进行激活函数处理，生成所述约束项的值。

33、另一方面，根据目标损失函数对所述约束项的值、所述相似度损失项的值和所述识别结果进行处理，生成所述图像文本识别模型的损失值，包括：

34、根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个图像到所有文本的图像文本对比损失项；

35、根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个文本到所有图像的文本图像对比损失项；

36、根据所述图像文本对比损失项和所述文本图像对比损失项，生成目标对比损失项；

37、根据目标损失函数对所述目标对比损失项、所述约束项的值和所述相似度损失项的值进行处理，生成所述图像文本识别模型的损失值。

38、另一方面，根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个图像到所有文本的图像文本对比损失项，包括：

39、应用对数函数、指数函数、向量模长和对比损失的温度系数，根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个图像到所有文本的图像文本对比损失项。

40、另一方面，根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个文本到所有图像的文本图像对比损失项，包括：

41、应用对数函数、指数函数、向量模长和对比损失的温度系数，根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个文本到所有图像的文本图像对比损失项。

42、另一方面，根据所述图像文本对比损失项和所述文本图像对比损失项，生成目标对比损失项，包括：

43、应用常量系数，对所述图像文本对比损失项和所述文本图像对比损失项进行加权平均，生成目标对比损失项。

44、另一方面，根据目标损失函数对所述目标对比损失项、所述约束项的值和所述相似度损失项的值进行处理，生成所述图像文本识别模型的损失值，包括：

45、根据目标损失函数对所述目标对比损失项、所述约束项的值和所述相似度损失项的值进行加乘处理，生成所述图像文本识别模型的损失值。

46、第二方面，提供一种检索方法，包括：

47、获取待检索对象，所述待检索对象包括文本或图像；

48、获取候选匹配对象；且当所述待检索对象为文本时，所述候选匹配对象为图像，当所述待检索对象为图像时，所述候选匹配对象为文本；

49、通过训练好的图像文本识别模型对所述待检索对象进行处理，得到所述待检索对象的特征；

50、通过所述图像文本识别模型对所述候选匹配对象进行处理，得到所述候选匹配对象的特征；

51、计算所述待检索对象的特征与每个所述候选匹配对象的特征间的相似度值；

52、将大于等于预设阈值的所述相似度值作为目标值；

53、将所述目标值对应的所述候选匹配对象确定为所述待检索对象的检索结果；

54、其中，所述图像文本识别模型的训练过程包括：获取目标数量个训练样本，所述训练样本包括由图像和文本组成的图像文本对；获取所述图像文本识别模型对所述训练样本的识别结果；根据目标损失函数对所述识别结果进行处理，生成所述图像文本识别模型的损失值；根据所述损失值更新所述图像文本识别模型；其中，所述目标损失函数包括相似度损失项，所述相似度损失项用于约束正样本对的图像特征和文本特征之间的相似度趋近为1，且约束负样本对的图像特征和文本特征之间的相似度趋近为0。

55、第三方面，提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上任一所述方法的步骤。

56、第四方面，提供一种电子设备，包括：

57、存储器，用于存储计算机程序；

58、处理器，用于执行所述计算机程序时实现如上任一所述方法的步骤。

59、一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

60、本发明提供的一种模型训练方法，获取待训练的图像文本识别模型；获取目标数量个训练样本，训练样本包括由图像和文本组成的图像文本对；获取图像文本识别模型对训练样本的识别结果；根据目标损失函数对识别结果进行处理，生成图像文本识别模型的损失值；根据损失值更新图像文本识别模型；其中，目标损失函数包括相似度损失项，相似度损失项用于约束正样本对的图像特征和文本特征之间的相似度趋近为1，且约束负样本对的图像特征和文本特征之间的相似度趋近为0。本发明的有益效果是：对图像文本识别模型的训练过程中，在计算损失值的目标损失函数中设置相似度损失项，以借助相似度损失项约束正样本对的图像特征和文本特征之间的相似度趋近为1、约束负样本对的图像特征和文本特征之间的相似度趋近为0，使得正负样本对的相似度不同，从而将正样本对与负样本对的相似度解耦开来，实现了对正样本对和负样本对相似性进行针对性的准确控制，从而可以训练出高精度的图像文本识别模型，进而可以准确对图像和文本进行识别。本发明提供的一种检索方法、计算机程序产品、电子设备和计算机可读存储介质也解决了相应技术问题。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述图像文本识别模型包括图像编码模块和文本编码模块；

3.根据权利要求2所述的模型训练方法，其特征在于，根据目标损失函数对所述识别结果进行处理，生成所述图像文本识别模型的损失值，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，基于所述第一矩阵和所述第二矩阵对所述相似度矩阵进行处理，生成所述相似度损失项的值，包括：

5.根据权利要求4所述的模型训练方法，其特征在于，所述目标损失函数包括所述相似度损失项的约束项，所述约束项随着训练次数变化，且逐步最大化正样本对的相似度并最小化负样本对的相似度。

6.根据权利要求5所述的模型训练方法，其特征在于，根据目标损失函数对所述相似度损失项的值和所述识别结果进行处理，生成所述图像文本识别模型的损失值，包括：

7.根据权利要求6所述的模型训练方法，其特征在于，基于所述约束项对当前周期序数进行处理，生成所述约束项的值，包括：

8.根据权利要求7所述的模型训练方法，其特征在于，根据目标损失函数对所述约束项的值、所述相似度损失项的值和所述识别结果进行处理，生成所述图像文本识别模型的损失值，包括：

9.根据权利要求8所述的模型训练方法，其特征在于，根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个图像到所有文本的图像文本对比损失项，包括：

10.根据权利要求9所述的模型训练方法，其特征在于，根据所述文本分类嵌入向量和所述图像分类嵌入向量，生成所述训练样本中每个文本到所有图像的文本图像对比损失项，包括：

11.根据权利要求10所述的模型训练方法，其特征在于，根据所述图像文本对比损失项和所述文本图像对比损失项，生成目标对比损失项，包括：

12.根据权利要求11所述的模型训练方法，其特征在于，根据目标损失函数对所述目标对比损失项、所述约束项的值和所述相似度损失项的值进行处理，生成所述图像文本识别模型的损失值，包括：

13.一种检索方法，其特征在于，包括：

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至13任一项所述方法的步骤。

15.一种电子设备，其特征在于，包括：

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至13任一项所述方法的步骤。

技术总结
本发明公开了一种模型训练及检索方法、计算机程序产品、设备、介质，涉及人工智能技术领域，获取待训练的图像文本识别模型；获取目标数量个训练样本，训练样本包括由图像和文本组成的图像文本对；获取图像文本识别模型对训练样本的识别结果；根据目标损失函数对识别结果进行处理，生成图像文本识别模型的损失值；根据损失值更新图像文本识别模型；其中，目标损失函数包括相似度损失项，相似度损失项用于约束正样本对的图像特征和文本特征之间的相似度趋近为1，约束负样本对的图像特征和文本特征之间的相似度趋近为0。本发明将正样本对与负样本对的相似度解耦开来，实现了对正样本对和负样本对相似性的精确控制，可以准确对图像和文本进行识别。

技术研发人员：温东超,梁玲燕
受保护的技术使用者：苏州元脑智能科技有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-27065.html

专利

最新回复(0)