一种基于双向语义对齐的跨模态行人检索方法

allin2026-02-04  6


本发明涉及计算机视觉,具体涉及一种基于双向语义对齐的跨模态行人检索方法。


背景技术:

1、在基于文本检索图像的跨模态行人检索技术领域中,研究人员面临将语言描述与视觉内容精确对齐的挑战。cuhk-pedes数据集的引入为这一任务提供了数据基础,允许研究者们集中于如何通过先进的计算模型来增强文本和视觉数据间的一致性。初始的研究方法聚焦于利用经典的深度学习架构,例如vgg用于视觉特征抽取,lstm用于序列文本处理,这为更高级的文本-视觉对齐策略打下了基础。这些早期的尝试展示了整合视觉和文本表示的潜力,为跨模态数据之间语义鸿沟的桥接提供了希望。

2、在文本到图像的跨模态行人检索技术中,目前存在的技术方案可以分为两个主要方向:跨模态对齐与表征学习。跨模态对齐的研究集中于将视觉特征和文本特征映射到同一嵌入空间,以实现两种模态之间的对齐。初期研究依赖于全局对齐,然后逐步发展到多粒度对应,即不仅在全局层面上进行对齐,还在局部层面上捕捉更细微的特征信息,如通过行人解析、姿态估计和自然语言工具来提取更为精细的信息。这样的进展还包括了自适应的语义对齐技术,能够更智能地处理模态间的对应关系。表征学习则关注于创建模态不变的特征表示,即在不同模态间提取出能够代表同一概念的共同特征。一些研究通过构建双向细粒度的跨模态关联,显式地利用颜色信息来增强模型的表征能力。还有研究则注意到依赖颜色可能导致的问题,因而提出色彩剥夺和遮蔽模块,以捕获除颜色之外的全面信息。此外,粒度统一的表征学习框架的提出旨在缓解两种模态间的粒度差异问题。

3、经检索,申请号为:cn202310328349.7,申请日为:2023年07月21日,发明名称为:隐式关系推理对齐的文本图像跨模态行人检索方法及系统。该申请使用了屏蔽语言模型(mlm)损失的方法,通过模糊文本中的选定单词来提高预测精度,这种侧重于单词级别预测的方法可能无法全面解决复杂的文本-图像关系问题。其次,现有技术中提到的方法虽然关注图像和文本之间的复杂关系,增强了全局特征的可见性,但它们主要集中在单词级别的预测上。从而导致在处理更为复杂的文本-图像关系时能力不足,如不能充分利用文本描述中的上下文信息和细微的视觉细节。

4、现有技术在基于文本检索图像的跨模态行人检索任务中虽然取得了一定的进展,但仍然面临着一些客观缺点。首先,尽管传统的全局匹配方法试图通过跨模态匹配损失函数对齐视觉和文本,这种方法往往忽略了中层相互作用的重要性。这意味着在处理具有丰富中层语义(如特定动作或复杂背景下的行人描述)的文本和图像时,全局匹配可能无法充分捕捉到这些细节信息。因此,即使是使用了屏蔽语言模型(mlm)损失的方法,通过模糊文本中的选定单词来提高预测精度,这种侧重于单词级别预测的方法也可能无法全面解决复杂的文本-图像关系问题。其次,现有技术中提到的方法虽然关注图像和文本之间的复杂关系,增强了全局特征的可见性,但它们主要集中在单词级别的预测上。这导致了在处理需要更广泛理解和深入分析的复杂文本-图像关系时的不足,如不能充分利用文本描述中的上下文信息和细微的视觉细节。

5、上述问题亟待解决,为此,本发明提出一种基于双向语义对齐的跨模态行人检索方法。


技术实现思路

1、本发明所要解决的技术问题在于:如何深化文本和图像之间关系的理解,并提高处理的准确性和效率,进而克服现有技术中存在的关于个人身份差异、视觉与语言模式内在差异以及姿势、视角和光照条件变化导致的挑战,提供了一种基于双向语义对齐的跨模态行人检索方法,提出了一种双向语义对齐机制,该机制不仅关注直接的词汇匹配,而且还考虑了文本和图像之间的上下文关联。通过采用不完整的图像特征和完整的文本特征(或者完整的图像特征和不完整的文本特征),以预测缺失的信息,该方法能够在一个扩展的特征空间中运行,无缝集成了来自文本和图像的多维语义和结构属性。与现有技术相比,该双向语义对齐策略能够实现更精确、更深刻的文本-图像对齐,能够捕获文本描述中的细微视觉细节和更深层的语义层次,特别适合于基于文本的图像检索任务。

2、本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:

3、s1:随机掩蔽

4、对输入的文本数据t和图像数据i进行随机掩蔽,生成掩蔽文本tmask和掩蔽图像imask;

5、s2:数据预处理

6、对文本数据t和掩蔽文本tmask进行预处理,同时对图像数据i和掩蔽图像imask进行预处理;

7、s3:特征提取

8、利用clip文本编码器和clip图像编码器,分别对预处理后的文本数据t和掩蔽文本tmask、图像数据i和掩蔽图像imask提取特征向量,对应得到原始文本特征向量vt与随机掩蔽文本特征向量vt_mask、原始图像特征向量vi与随机掩蔽图像特征向量vi_mask;

9、s4:双向语义对齐

10、在文本到图像的语义对齐中,将随机掩蔽文本特征向量vt_mask作为查询q,而原始图像特征向量vi则同时作为键k和值v;在图像到文本的语义对齐中,将随机掩蔽图像特征向量vi_mask作为查询q,而原始文本特征向量vt则同时作为键k和值v;通过注意力机制对缺失的文本信息、缺失的图像信息进行预测,生成对应的预测特征向量;并分别计算预测特征向量与对应的原始文本特征向量vt、原始图像特征向量vi之间的l1损失;

11、s5:模型优化

12、基于预测特征向量与对应的原始文本特征向量vt、原始图像特征向量vi之间的l1损失设计综合损失函数,并确定优化算法,基于上述综合损失函数、优化算法在训练过程中对模型进行优化;

13、s6:迭代更新

14、模型通过反复迭代训练过程,逐步优化参数以达到最佳性能;在每次迭代中,模型根据当前的综合损失函数值和优化算法调整参数,同时根据学习率调整策略调整学习率;最后得到训练后的行人检索模型;

15、s7:行人检索

16、将给定的文本描述输入到行人检索模型中,获取最匹配的行人图像。

17、更进一步地,在所述步骤s1中,对文本数据t进行随机掩蔽时,选取10%-20%的文本单元进行随机掩蔽,生成掩蔽文本tmask,文本数据的掩蔽操作通过替换选中的文本单元为特定的掩蔽标记来实现;对图像数据i进行随机掩蔽时,在20%-30%的范围内随机选取图像区域进行掩蔽,生成掩蔽图像imask,图像数据的掩蔽操作通过将选中的像素区域设置为均一的颜色或噪声来实现。

18、更进一步地,在所述步骤s2中,对文本数据t和掩蔽文本tmask进行的预处理工作包括文本清洗、大小写统一化、分词处理;对图像数据i和掩蔽图像imask进行的预处理工作包括尺寸调整、归一化。

19、更进一步地,在所述步骤s3中,文本数据t经过特征提取后得到原始文本特征向量:

20、vt=ft(t)

21、掩蔽文本tmask经过特征提取后得到随机掩蔽文本特征向量:

22、vt_mask=ft(tmask)

23、其中,ft(·)表示clip文本编码器。

24、更进一步地,在所述步骤s3中,图像数据i经过特征提取后得到原始图像特征向量:

25、vi=fi(i)

26、掩蔽图像imask经过特征提取后得到随机掩蔽图像特征向量:

27、vi_mask=fi(imask)

28、其中,fi表示clip图像编码器。

29、更进一步地,在所述步骤s4中,通过文本预测编码器对缺失的文本信息进行预测,生成对应的预测特征向量,具体处理过程如下:

30、vt_pred=et_pred(q=vt_mask,k=vi,v=vi)

31、其中,et_pred(·,·,·,)表示文本预测编码器;

32、通过计算预测特征向量vt_pred、原始文本特征向量vt之间的l1损失来优化模型:

33、losst=l1(vt_pred,vt)。

34、更进一步地,在所述步骤s4中,通过图像预测编码器对缺失的图像信息进行预测,生成对应的预测特征向量,具体处理过程如下:

35、vi_pred=ei_pred(q=vi_mask,k=vt,v=vt)

36、其中ei_pred(·,·,·,)表示图像预测编码器;

37、通过计算预测特征向量vi_pred、原始图像特征向量vi之间的l1损失来优化模型:

38、lossi=l1(vi_pred,vi)。

39、更进一步地,在所述步骤s5中,综合损失函数具体如下:

40、losstotal=α*losst+β*lossi

41、其中,α和β作为权重系数,用于平衡文本和图像在综合损失函数中的贡献。

42、更进一步地,在所述步骤s5中,优化算法为adam算法。

43、本发明相比现有技术具有以下优点:该基于双向语义对齐的跨模态行人检索方法,通过深入分析文本和图像之间的中层语义,为缩小在全局匹配方法中所忽略的细粒度语义层面差距,提供更为丰富的语义理解;通过引入一种双向特征预测机制,即通过使用不完整的图像特征与完整的文本特征(或者完整的图像特征与不完整的文本特征)相结合,以预测并重构缺失的信息,实现更准确的文本-图像跨模态对齐;在一个扩展的特征空间内,无缝集成来自文本和图像的多维语义和结构属性,以捕捉更细微的视觉细节和更深层的语义内容;提高了基于文本的图像检索任务的匹配精度和效率,使之能够在各种复杂的环境和条件下,有效识别和检索行人图像。


技术特征:

1.一种基于双向语义对齐的跨模态行人检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s1中,对文本数据t进行随机掩蔽时,选取10%-20%的文本单元进行随机掩蔽,生成掩蔽文本tmask,文本数据的掩蔽操作通过替换选中的文本单元为特定的掩蔽标记来实现;对图像数据i进行随机掩蔽时,在20%-30%的范围内随机选取图像区域进行掩蔽,生成掩蔽图像imask,图像数据的掩蔽操作通过将选中的像素区域设置为均一的颜色或噪声来实现。

3.根据权利要求1所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s2中,对文本数据t和掩蔽文本tmask进行的预处理工作包括文本清洗、大小写统一化、分词处理;对图像数据i和掩蔽图像imask进行的预处理工作包括尺寸调整、归一化。

4.根据权利要求1所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s3中,文本数据t经过特征提取后得到原始文本特征向量:

5.根据权利要求4所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s3中,图像数据i经过特征提取后得到原始图像特征向量:

6.根据权利要求5所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s4中,通过文本预测编码器对缺失的文本信息进行预测,生成对应的预测特征向量,具体处理过程如下:

7.根据权利要求6所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s4中,通过图像预测编码器对缺失的图像信息进行预测,生成对应的预测特征向量,具体处理过程如下:

8.根据权利要求7所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s5中,综合损失函数具体如下:

9.根据权利要求1所述的一种基于双向语义对齐的跨模态行人检索方法,其特征在于,在所述步骤s5中,优化算法为adam算法。


技术总结
本发明公开了一种基于双向语义对齐的跨模态行人检索方法,属于计算机视觉技术领域。本发明通过深入分析文本和图像之间的中层语义,为缩小在全局匹配方法中所忽略的细粒度语义层面差距,提供更为丰富的语义理解;通过引入一种双向特征预测机制,即通过使用不完整的图像特征与完整的文本特征(或者完整的图像特征与不完整的文本特征)相结合,以预测并重构缺失的信息,实现更准确的文本‑图像跨模态对齐;在一个扩展的特征空间内,无缝集成来自文本和图像的多维语义和结构属性,以捕捉更细微的视觉细节和更深层的语义内容;提高了基于文本的图像检索任务的匹配精度和效率,使之能够在各种复杂的环境和条件下,有效识别和检索行人图像。

技术研发人员:陈峰,何结龙,陈彬,黄俊
受保护的技术使用者:马鞍山学院
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-26201.html

最新回复(0)