多模态场景自适应提示的开放词汇目标检测方法及装置

allin2025-06-05  90


本发明涉及一种多模态场景自适应提示的开放词汇目标检测方法,同时也涉及相应的开放词汇目标检测装置,属于计算机视觉。


背景技术:

1、识别和定位图像中的视觉目标是计算机视觉技术中的一个基本需求,因为它是许多下游应用的前提条件,如场景理解、自动驾驶和智能机器人等。之前的研究表明,如果在训练中有足够的标注信息,基于深度神经网络的目标检测模型能够取得良好的性能。然而,目前主流的目标检测方法依赖于封闭世界假设,即测试数据与训练数据共享相同的底层类标签空间。然而,在许多现实的场景中,这个假设并不成立,因为真实世界任务的动态变化性质,新的类别可能是层出不穷的。此外,在开放标签空间中获得大量注释训练数据是昂贵和费时的。

2、为了解决上述问题,人们开始引入开放词汇目标检测(open-vocabulary objectdetection,简写为ovd)来突破封闭世界假设。近年来,开放词汇目标检测技术具有大量的研究成果。其中,一种典型的方法是clip(contrastive language-image pre-training,即基于对比文本-图像对的预训练)模型。它将大规模预先训练的视觉和语言模型的知识,通过特征嵌入和蒸馏学习迁移到检测器。其中,采用图像裁剪区域的嵌入来提取视觉特征,用文本嵌入替换分类器的权重。这些文本嵌入是通过提供提示模板生成的,例如“一张[类]的照片”,填充到clip模型的文本编码器中。然而,这些提示模板需要针对不同的任务构造,并且泛化能力不足。当使用提示模板或在单一模态中共享可学习的提示时,现有技术中没有同时考虑类分布的共性和多样性。诸如此类的问题导致预先训练好的视觉和语言知识转移到检测器的效率比较低。

3、在申请号为202311233461.9的中国专利申请中,公开了一种目标检测模型的训练方法,包括如下步骤:获取用于目标检测的、成对的图像样本和文本样本;将图像样本和文本样本输入冻结的多模态子模型,生成初始图像特征和初始文本特征;基于初始图像特征和初始文本特征,通过目标检测子模型的检测头,生成待检测对象对应的目标对象检测框和目标对象检测框的目标分类结果;基于目标对象检测框、目标分类结果和图像样本对应的目标检测真值进行模型迭代训练,直至达到模型收敛条件。该技术方案能够在对检测头进行训练的同时避免多模态子模型中的知识被破坏以及模型出现过拟合,提高了开放词汇目标检测的模型训练的速度和效率。


技术实现思路

1、本发明所要解决的首要技术问题在于提供一种多模态场景自适应提示的开放词汇目标检测方法。

2、本发明所要解决的另一技术问题在于提供一种多模态场景自适应提示的开放词汇目标检测装置。

3、为实现上述的发明目的,本发明采用下述的技术方案:

4、根据本发明实施例的第一方面,提供一种多模态场景自适应提示的开放词汇目标检测方法,包括如下步骤:

5、(1)利用场景自适应提示生成器构造多模态提示,根据输入实例动态选择针对不同的训练类别的场景提示,自适应地学习所述场景提示以得到场景提示集合;为每个类别选择合适的提示,得到自适应多模态提示损失函数;

6、(2)利用区域提示符从全局特征中提取位置信息,然后将所述位置信息转移到区域特征;同时通过网络映射将文本提示整合到视觉特征中,以实现在区域层面上的视觉和语言知识的对齐,得到区域感知多模态损失函数;

7、(3)结合所述自适应多模态提示损失函数和所述区域感知多模态损失函数得到总体训练函数,通过经过总体训练函数训练后的目标检测模型进行开放词汇目标检测。

8、其中较优地,所述多模态提示包括所有类别共享的通用提示与每个场景的个性化提示。

9、其中较优地,为每个场景设计了两组提示:一组是通用提示,被构建来捕捉不同类别间共有的特征;另一组是每个场景的个性化提示,利用低秩分解方法来提炼每个场景的独特信息。

10、其中较优地,每个场景提示作为一个值关联到一个可学习的键,使用余弦相似度函数评估特征嵌入和每个可学习的键之间的相似度,并利用权重向量确定每个提示的贡献。

11、其中较优地,所述目标检测模型计算输入图像特征嵌入与每个可学习的键之间的相似性,然后根据相似性分数选择最相关的提示。

12、其中较优地,通过可学习的权重矩阵将输入特征映射成查询向量,然后通过softmax函数计算出注意力权重;所述注意力权重用于加权和聚合输入特征,以生成一个综合不同区域信息的输出特征。

13、其中较优地,使用多层感知器和sigmoid激活函数对视觉特征进行调制,以学习视觉和文本信息之间的关系;然后,将调制后的视觉特征与文本提示的特征进行交互,生成融合了视觉和语言信息的特征表示。

14、其中较优地,对齐多种模态特征,将文本提示融合到输出端的视觉特征中。

15、根据本发明实施例的第二方面,提供一种多模态场景自适应提示的开放词汇目标检测装置,包括处理器和存储器,所述存储器与所述处理器耦接;其中,

16、所述存储器用于存储计算机程序,当该计算机程序被所述处理器执行时,用于实现上述的多模态场景自适应提示的开放词汇目标检测方法。

17、与现有技术相比较,本发明实施例提供的多模态场景自适应提示的开放词汇目标检测方法及装置,根据输入实例动态选择相应的场景提示,针对不同的训练类别自适应地学习这些场景提示,实现对类别知识的自适应迁移。通过在融合过程中结合位置和文本信息,可以动态学习视觉提示和区域提示,所获得的区域特征具有更强的可移动性,能够提高目标检测模型对未知类别的分类精确度。



技术特征:

1.一种多模态场景自适应提示的开放词汇目标检测方法,其特征在于包括如下步骤:

2.一种多模态场景自适应提示的开放词汇目标检测方法,其特征在于包括如下步骤:

3.如权利要求1或2所述的开放词汇目标检测方法,其特征在于:

4.如权利要求3所述的开放词汇目标检测方法,其特征在于:

5.如权利要求4所述的开放词汇目标检测方法,其特征在于:

6.如权利要求5所述的开放词汇目标检测方法,其特征在于:

7.如权利要求1或2所述的开放词汇目标检测方法,其特征在于:

8.如权利要求7所述的开放词汇目标检测方法,其特征在于:

9.如权利要求8所述的开放词汇目标检测方法,其特征在于:

10.一种多模态场景自适应提示的开放词汇目标检测装置,其特征在于包括处理器和存储器,所述存储器与所述处理器耦接;其中,


技术总结
本发明公开了一种多模态场景自适应提示的开放词汇目标检测方法及装置。该方法根据输入实例动态选择相应的场景提示,针对不同的训练类别自适应地学习这些场景提示,实现对类别知识的自适应迁移。通过在融合过程中结合位置和文本信息,可以动态学习视觉提示和区域提示,所获得的区域特征可以具有更强的可移动性,能够提高目标检测模型对未知类别的分类精确度。

技术研发人员:刘祥龙,马宇晴,赵晓薇,王多瑞
受保护的技术使用者:北京航空航天大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-21844.html

最新回复(0)