基于多模态信息交互的零样本视觉定位方法、装置及设备

allin2024-04-21  99



1.本发明涉及视觉定位技术领域,特别涉及一种基于多模态信息交互的零样本视觉定位方法、装置及设备。


背景技术:

2.视觉定位是跨模态领域中的的基础任务,目的是找到图片中与查询语句相关的对象,它可以应用到其他许多跨模态任务当中,例如:视觉问答和图像检索,是跨模态领域学者和工作者的研究热点。目前视觉定位的方法可按照阶段分为传统的二阶段方法和最近出现的一阶段方法。二者的区别在于是否有提议框生成这个过程。二阶段方法在前一个阶段会先生成提议框,得到目标框的粗略的位置、大小、前景概率,在后一个阶段的匹配过程进行二次分类、回归得到更为精确的结果;而一阶段方法直接分类回归得到预测的目标框。二阶段方法更精确但更耗时,同时由于使用目标检测器作为预处理步骤来得到提议框和roi池化特征会局限于检测器的类别中。这在零样本设置下是相当不利的,极有可能在定位新目标的过程中将其划分成背景类,并在模型中将这个错误传递下去。一阶段方法速度快但不如二阶段方法精确。
3.零样本定位是视觉定位在零样本设置下的扩展,旨在定义图片中与新的查询语句相关的目标,该目标不曾在训练集中出现。目前的零样本定位工作极少,存在着许多改进的空间。2019年,arka sadhu介绍了零样本定位(zsg)的任务,概述了四个零样本定位的案例,以进行更精细的分析,还解决了以往系统的局限性,提出了一种简单而有效的zsgnet体系结构。arka sadhu的工作是开创性的,他给我们指出了一个新的方向,然而,模型还有许多可改进的地方,视觉、文本特征的表示对视觉、文本信息的利用还不够,并且多模态特征之间缺少交互。
4.虽然通常传统的视觉定位的效果远远要好于零样本视觉定位的效果,但是在传统视觉任务中,训练阶段和测试阶段的类别是相同的,每次为了识别新类别的样本需要在训练集中加入这种类别的数据。一些类别的样本收集代价大,即使收集到足够的训练样本,也需要对整个模型进行重新训练,这都会加大识别系统的成本。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种定位精确、成本较低的基于多模态信息交互的零样本视觉定位方法、装置及设备。
6.本发明一实施例提供一种基于多模态信息交互的零样本视觉定位方法,所述方法包括:
7.导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理;
8.获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;
9.获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;
10.将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;
11.将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;
12.根据所述多模态融合特征,分类回归并计算损失函数和准确率。
13.在一种实施方式中,所述对所述数据集中的数据进行预处理包括:
14.将所述数据集中的文本内容转换为张量的形式;
15.将所述数据集中的图像转换成张量的形式,并统一成相同尺寸大小。
16.在一种实施方式中,所述获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征包括:
17.获取查询语句文本;
18.基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征。
19.在一种实施方式中,所述获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征包括:
20.获取图像;
21.基于预处理后的数据和所述图像提取双向多尺度的视觉特征,并生成不同尺度网格;
22.将所述不同尺度网格的中心坐标作为位置特征。
23.在一种实施方式中,所述基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征包括:
24.获得所述查询语句文本中单词的上下文特征表示和短语的上下文特征表示,将短语的上下文特征表示作为粗粒度的文本特征;
25.计算每个单词的上下文特征表示在所述单词所属短语中的重要程度;
26.选取重要程度高的单词的上下文特征表示作为细粒度的文本特征。
27.在一种实施方式中,所述基于预处理后的数据提取所述图像的视觉特征和位置特征包括:
28.获取所述图像编码后的多尺度图像特征;
29.将所述编码后的多尺度图像特征进行双向交叉尺度连接和加权特征融合,得到所述图像的视觉特征。
30.在一种实施方式中,所述将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征,包括:
31.将所述粗粒度的文本特征与所述视觉特征做元素积,得到粗粒度的多模态交互特征;
32.将所述细粒度文本的文本特征与所述视觉特征做元素积,得到细粒度的多模态交互特征。
33.在一种实施方式中,所述将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征,包括:
34.将所述粗粒的的多模态交互特征、所述细粒度的多模态特征和所述位置特征拼接成融合向量,得到多模态融合特征。
35.本发明一实施例提供一种基于多模态信息交互的零样本视觉定位装置,所述装置包括:
36.预处理模块,用于导入零样本视觉定位数据集,并对所述数据集中的数据进行预
处理;
37.文本特征提取模块,用于获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;
38.图像特征提取模块,用于获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;
39.交互模块,用于将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;
40.融合模块,用于将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;
41.分类回归模块,用于根据所述多模态融合特征,分类回归并计算损失函数和准确率。
42.本发明一实施例提供一种计算机可读存储介质,其上存储有计算机指令,
43.该指令被处理器执行时实现上述基于多模态信息交互的零样本视觉定位方法的步骤。
44.本发明一实施例提供一种基于多模态信息交互的零样本视觉定位设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,
45.所述处理器执行所述程序时实现上述基于多模态信息交互的零样本视觉定位方法的步骤。
46.综上所述,本发明提供的一种基于多模态信息交互的零样本视觉定位方法、装置及设备,通过导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理;获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;根据所述多模态融合特征,分类回归并计算损失函数和准确率;解决了传统的视觉定位方式成本较高而零样本视觉定位精度低的技术问题,实现了更加精确、成本更低的进行视觉定位的技术效果,实现了更加精确、成本更低的进行视觉定位的技术效果。
附图说明
47.为了更清楚地说明本发明实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1为本发明一个实施例中基于多模态信息交互的零样本视觉定位方法整体框架图;
49.图2为本发明一个实施例中基于多模态信息交互的零样本视觉定位方法流程图;
50.图3为本发明另一个实施例中基于多模态信息交互的零样本视觉定位方法流程图;
51.图4为本发明又一个实施例中基于多模态信息交互的零样本视觉定位方法流程图;
52.图5为本发明再一个实施例中基于多模态信息交互的零样本视觉定位方法流程图;
53.图6为本发明消融实验结果图;
54.图7为本发明方案的视觉定位方法与zsgnet方法在四个零样本定位数据集上的对比实验数据图;
55.图8为本发明一个实施例中基于多模态信息交互的零样本视觉定位装置示意图;
56.图9为本发明一个实施例中基于多模态信息交互的零样本视觉定位设备的硬件示意图。
具体实施方式
57.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
58.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
59.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
60.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
61.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
62.实施例一
63.请参考图1和图2,本发明一实施例提供了一种基于多模态信息交互的零样本视觉定位方法,方法包括:
64.s100,导入零样本视觉定位数据集,并对数据集中的数据进行预处理。
65.本方案在进行视觉定位时,首先导入零样本视觉定位数据集,并对零样本视觉定位数据集中的内容进行预处理。
66.在一种实施方式中,请参考图3,步骤s100中对数据集中的数据进行预处理包括以下步骤:
67.s110,将数据集中的文本内容转换为张量的形式。
68.使用spacy工具包加载英语语言模型,将数据集中的文本内容向量化,表示成同样长短的格式,并转换成张量的形式,便于分批次输入本发明提出的整体模型。
69.s120,将数据集中的图像转换成张量的形式,并统一成相同尺寸大小。
70.通过pil工具包,将零样本视觉定位数据集中的图像转换成张量的形式,并统一成相同尺寸大小,便于分批次输入本发明提出的整体模型。
71.s200,获取查询语句文本,并基于预处理后的数据提取查询语句文本的文本特征。
72.在本发明中,首先获取查询语句文本,并基于步骤s100预处理后的数据和查询语句文本,分别提取查询语句文本的粗粒度和细粒度的文本特征。
73.在一种实施方式中,请参考图4,步骤s200包括以下步骤:
74.s210,获得查询语句文本中单词的上下文特征表示和短语的上下文特征表示,将短语的上下文特征表示作为粗粒度的文本特征。
75.对于查询语句文本中的单词序列(即短语)信息使用bi-lstm网络作为编码器,将上述单词序列作为输入,分别得到查询语句文本中多个单词的上下文特征表示和短语的上下文特征表示这里的短语的上下文特征表示作为粗粒度文本表示。
76.s220,计算每个单词的上下文特征表示在单词所属短语中的重要程度。
77.将查询语句文本中短语的上下文特征表示重塑为对(2.1)中的每个单词的特征表示计算其在句子中的重要程度a,计算公式为:a=softmax(w*sr.t)。
78.s230,选取重要程度高的单词的上下文特征表示作为细粒度的文本特征。
79.选取重要程度最高的nw个单词上下文特征表示作为细粒度文本特征
80.s300,获取图像,并基于预处理后的数据提取图像的视觉特征和位置特征。
81.在本发明中,首先获取需要进行视觉定位的图像,依据步骤s100预处理后的数据和获取的图像,提取双向多尺度的视觉特征,并生成不同尺度网格,随后将不同尺度网格的中心坐标作为位置特征。
82.在一种实施方式中,请参考图5,步骤s300包括以下步骤:
83.s310,获取图像编码后的多尺度图像特征。
84.对于给定的图像信息使用resnet50网络作为编码器,输出编码后的多尺度图像特征
85.s320,将编码后的多尺度图像特征进行双向交叉尺度连接和加权特征融合,得到图像的视觉特征。
86.由于步骤s310编码后的图像特征的尺度与bifpn要求的输入不符,在进行双向交叉尺度连接的过程中会出现错误,于是本发明重新调整了bifpn的上下采样操作的输入输出尺度,使其能够处理resnet50输出的多尺度图像特征。将编码后的多尺度图像特征输入改动后适应于resnet50输出的多尺度图像特征的 bifpn网络结构进行有效的双向交叉尺度连接和加权特征融合得到所需的视觉特征表示多尺度图像特征
87.s330,生成不同尺度网格,将不同尺度网格的中心坐标作为位置特征。
88.对每层不同尺度的特征图,会划分出对应的网格区域,这些网格的中心也称锚窗中心,我们将其中心坐标作为位置特征g∈r
2,h,w

89.s400,将文本特征和视觉特征进行交互,得到多模态的交互特征。
90.在本发明中,基于上述步骤获得的粗粒度和细粒度的文本特征和视觉特征进行交
互,得到多模态的交互特征。
91.在一种实施方式中,步骤s400包括以下步骤;
92.s410,将粗粒度的文本特征与视觉特征做元素积,得到粗粒度的多模态交互特征。
93.将粗粒度文本特征重塑为然后与视觉特征特征做元素积(设置 cq=cv=c),得到粗粒度的多模态交互特征
94.s420,将细粒度文本的文本特征与视觉特征做元素积,得到细粒度的多模态交互特征。
95.将细粒度文本特征重塑为同时将视觉特征重塑为二者做元素积(设置cq=cv=c),得到细粒度的多模态交互特征并重塑为
96.s500,将位置特征和多模态的交互特征进行融合,得到多模态融合特征。
97.在一种实施方式中,将粗粒的的多模态交互特征、细粒度的多模态特征和位置特征拼接成融合向量,得到多模态融合特征。
98.具体的,将粗粒度的多模态交互特征细粒度的多模态交互特征以及位置特征 g∈r
2,h,w
拼接成一个融合向量
99.s600,根据多模态融合特征,分类回归并计算损失函数和准确率。
100.具体的,首先我们为每个不同尺度的融合特征图的每个索引匹配由大小,比率,规模参数生成的九个候选框,然后将其输入全卷积网络得到代表每个框分类和回归参数的五维输出,我们根据分类的一维参数,使用焦点损失(focal loss)函数计算分类的损失值l
classify
;根据四维回归参数,使用平滑l1损失(smooth-l1loss)函数计算回归的损失值l
regress
,最终的损失函数为l=l
classify
+l
regress
.在后续的候选框匹配过程中我们设置阈值iou=0.5,即目标预测框与目标真实框的交并比为0.5及以上时为识别准确。
101.请参考图6,图6为本发明消融实验结果图。在图中,zsgnet是本文对比的baseline方法,bifpn是改动后适应于resnet50输出的多尺度图像特征的双向特征图金字塔网络结构模块,mmfi是多模态特征交互模块,word-level是在原baseline仅有的句子级文本特征的基础上新加入的单词级文本特征模块,cflbii 是本发明一种基于多模态信息交互的零样本视觉定位方法。由图中的实验结果可知,本发明的基于多模态信息交互的零样本视觉定位方法定位效果最为精确。
102.请参考图7,图7为本发明方案的视觉定位方法与zsgnet方法在四个零样本定位数据集上的对比实验数据。由图7中的数据可知,本发明方案的视觉定位方法定位精度优于zsgnet方法。
103.综上所述,本发明提供的一种基于多模态信息交互的零样本视觉定位方法、装置及设备,通过导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理;获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;根据所述多模态融合特征,分类回归并计算损失函数和准确率;解决了传统
的视觉定位方式成本较高而零样本视觉定位精度低的技术问题,实现了更加精确、成本更低的进行视觉定位的技术效果,实现了更加精确、成本更低的进行视觉定位的技术效果。
104.实施例二
105.请参考图8,本发明一实施例提供一种基于多模态信息交互的零样本视觉定位装置,该装置包括:
106.预处理模块100,用于导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理。
107.文本特征提取模块200,用于获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征。
108.图像特征提取模块300,用于获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征。
109.交互模块400,用于将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征。
110.融合模块500,用于将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征。
111.分类回归模块600,用于根据所述多模态融合特征,分类回归并计算损失函数和准确率。
112.在一种实施方式中,预处理模块100用于:将所述数据集中的文本内容转换为张量的形式,将所述数据集中的图像转换成张量的形式,并统一成相同尺寸大小。
113.在一种实施方式中,文本特征提取模块200用于:获取查询语句文本,基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征。
114.在一种实施方式中,图像特征提取模块300用于:获取图像,基于预处理后的数据和所述图像提取双向多尺度的视觉特征,并生成不同尺度网格,将所述不同尺度网格的中心坐标作为位置特征。
115.在一种实施方式中,文本特征提取模块200用于:
116.获得所述查询语句文本中单词的上下文特征表示和短语的上下文特征表示,并将短语的上下文特征表示作为粗粒度的文本特征;
117.计算每个单词的上下文特征表示在所述单词所属短语中的重要程度;
118.选取重要程度高的单词的上下文特征表示作为细粒度的文本特征。
119.在一种实施方式中,图像特征提取模块300用于:
120.获取所述图像编码后的多尺度图像特征;
121.将所述编码后的多尺度图像特征进行双向交叉尺度连接和加权特征融合,得到所述图像的视觉特征。
122.在一种实施方式中,交互模块400用于:
123.将所述粗粒度的文本特征与所述视觉特征做元素积,得到粗粒度的多模态交互特征;
124.将所述细粒度文本的文本特征与所述视觉特征做元素积,得到细粒度的多模态交互特征。
125.在一种实施方式中,融合模块500用于:
126.将所述粗粒的的多模态交互特征、所述细粒度的多模态特征和所述位置特征拼接成融合向量,得到多模态融合特征。
127.实施例三
128.本发明实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现实施例一中的方法的步骤。该存储介质上还存储有信息。其中,存储介质可为磁碟、光盘、只读存储记忆体 (read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flashmemory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
129.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。
130.实施例四
131.本实施例提供一种基于多模态信息交互的零样本视觉定位设备,如图9所示,包括存储器920、处理器 910及存储在存储器920上并可在处理器910上运行的计算机程序,处理器910执行程序时实现实施例一中方法的步骤。
132.图9是本发明实施例提供的执行基于多模态信息交互的零样本视觉定位方法的设备的硬件结构示意图,如9所示,该系统包括一个或多个处理器910以及存储器920,图9中以一个处理器910为例。
133.执行基于多模态信息交互的零样本视觉定位方法的设备还可以包括:输入装置930和输出装置940。
134.处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。
135.处理器910可以为中央处理器(central processing unit,cpu)。处理器910还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit, asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
136.显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
137.在本说明书的描述中,参考术语“有些实施例”、“其他实施例”、“理想实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特征包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性描述不一定指的是相同的实施例或示例。
138.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实
施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
139.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

技术特征:
1.一种基于多模态信息交互的零样本视觉定位方法,其特征在于,所述方法包括:导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理;获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;根据所述多模态融合特征,分类回归并计算损失函数和准确率。2.根据权利要求1所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述对所述数据集中的数据进行预处理包括:将所述数据集中的文本内容转换为张量的形式;将所述数据集中的图像转换成张量的形式,并统一成相同尺寸大小。3.根据权利要求1或2所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征包括:获取查询语句文本;基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征。4.根据权利要求3所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征包括:获取图像;基于预处理后的数据和所述图像提取双向多尺度的视觉特征,并生成不同尺度网格;将所述不同尺度网格的中心坐标作为位置特征。5.根据权利要求4所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征包括:获得所述查询语句文本中单词的上下文特征表示和短语的上下文特征表示,将短语的上下文特征表示作为粗粒度的文本特征;计算每个单词的上下文特征表示在所述单词所属短语中的重要程度;选取重要程度高的单词的上下文特征表示作为细粒度的文本特征。6.根据权利要求5所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述基于预处理后的数据提取所述图像的视觉特征和位置特征包括:获取所述图像编码后的多尺度图像特征;将所述编码后的多尺度图像特征进行双向交叉尺度连接和加权特征融合,得到所述图像的视觉特征。7.根据权利要求6所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征,包括:将所述粗粒度的文本特征与所述视觉特征做元素积,得到粗粒度的多模态交互特征;将所述细粒度文本的文本特征与所述视觉特征做元素积,得到细粒度的多模态交互特征。8.根据权利要求7所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征,包括:
将所述粗粒的的多模态交互特征、所述细粒度的多模态特征和所述位置特征拼接成融合向量,得到多模态融合特征。9.一种基于多模态信息交互的零样本视觉定位装置,其特征在于,所述装置包括:预处理模块,用于导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理;文本特征提取模块,用于获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;图像特征提取模块,用于获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;交互模块,用于将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;融合模块,用于将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;分类回归模块,用于根据所述多模态融合特征,分类回归并计算损失函数和准确率。10.一种基于多模态信息交互的零样本视觉定位设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任一项所述的基于多模态信息交互的零样本视觉定位方法的步骤。

技术总结
本发明涉及本发明提供的一种基于多模态信息交互的零样本视觉定位方法、装置及设备,通过导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理;获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;根据所述多模态融合特征,分类回归并计算损失函数和准确率;解决了传统的视觉定位方式成本较高而零样本视觉定位精度低的技术问题,实现了更加精确、成本更低的进行视觉定位的技术效果,实现了更加精确、成本更低的进行视觉定位的技术效果。果。果。


技术研发人员:金晶 杨超
受保护的技术使用者:湖南大学
技术研发日:2022.03.28
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-13469.html

最新回复(0)