跨模态细粒度属性对齐的行人智能查找方法、存储介质

allin2023-03-21  126



1.本发明涉及人工智能技术领域,具体涉及一种跨模态细粒度属性对齐的行人智能查找方法。


背景技术:

2.近年来,行人查找在视频监控、寻找失踪人员等有着广泛的应用。特别是在拥有行人照片的情况下进行以图搜图,由于数据库和查询库是同源的,使得行人查找任务变得相对简单,如果无法获得行人的图片,只能通过目击者口述的语言描述进行查找行人图片,由于数据库和查询库是非同源的,算法不能直接转移到跨域、跨模态的行人查找任务中,使得行人查找的任务难度大大增加。
3.而且,一些行人图片并不能显示他的整体全貌,只能看到他的局部样貌。所以应该在匹配全局特征的情况下,更加关注行人的局部关键特征,即行人属性特征。目前,一些相关工作已经克服了上述挑战。特别是2020年zhe wang等人在《vitaa:visual-textual attributes alignment in person search by natural language》提出的方法利用语义分割网络将人体分成五个部分,然后将这五个部分与语言描述提炼出来的五部分名词短语进行一一匹配,最后得到粗略的局部匹配结果。但是,它仍然解决不了属性特征细粒度下的精确匹配,精确匹配问题仍然亟待解决。
4.具体来说,如图1所示,对于视觉文本的属性特征是否相似的默认方法是计算两者之间的相似度,当相似度大于0.6,说明视觉和文本之间的属性特征是相似的,如果小于0.4则是不相似的,然后再把这些属性特征的相似度相加求平均值得到平均相似度,以此作为行人总属性是否相似的判断依据。问题也就随之而来,正如图1所述,当有一个相似度特别高的视觉文本属性特征对出现,从而导致本来不匹配的视觉文本对的平均相似度大于0.4,这就可能会让网络模型误解为匹配的视觉文本对,降低了根据描述文本查找相似特征的图片的准确率。


技术实现要素:

5.本发明提出的一种跨模态细粒度属性对齐的行人智能查找方法,可解决上述问题,如图1所示,通过跨模态的细粒度属性对齐,在根据文本查找行人图像之前,对于行人属性特征赋予文本中关于行人的信息关联度,从而获得细粒度的属性特征,然后再进行精确匹配,从而降低了误判的概率。
6.为实现上述目的,本发明采用了以下技术方案:
7.一种跨模态细粒度属性对齐的行人智能查找方法,包括:
8.包括以下步骤,
9.s1、对数据集中的行人图像以及文本进行全局和属性特征提取;
10.s2、对提取的行人文本特征和图像特征进行全局匹配;
11.s3、将提取的行人视觉属性特征和全局文本特征作为输入,通过语义共同注意机
制得到细粒度的行人视觉属性特征;
12.s4、将得到的细粒度的行人属性特征和文本属性特征进行一一匹配,计算总损失函数,进行相似度计算,最后得到匹配结果。
13.进一步的,所述步骤s1包括:
14.用resnet-50残差网络来提取行人图像全局特征,利用已经预训练好的语义分割网络hrnet作为辅助工具,将人体分为五个部分:头部、上身、下身、鞋子、包;
15.之后提取行人的图像属性特征,与此同时,利用bi-lstm提取全局文本特征,然后通过stanford pos tagger工具解析文本中的名词短语,并根据行人的五个部分进行分类处理,提取行人文本属性特征。
16.进一步的,所述步骤s2包括:
17.将提取到的行人文本和视觉全局特征构成三元组《vi,t
+
,t-》作为输入,其中,i代表第i个身份的人,+即正样本代表与第i个身份的行人视觉特征相关的文本特征,-即负样本则代表不相关,通过三元组损失函数使得文本描述和行人图像一致的,公式如下所示:
[0018][0019]
其中,s代表着视觉特征和文本特征之间的相似度,计算公式为:正样本的相似度则用s
+
表示,反之则用s-表示,τ
p
,τn,α,β为固定常数,α则是控制正样本的相似度的下限,大于0.6,β则是控制负样本的上限,不相关的视觉和文本特征小于0.4。
[0020]
进一步的,步骤s3中的语义共同注意机制由自我注意机制模块和关系注意模块组成;
[0021]
其中,自我注意机制包括一个多头注意和由两个全连接层以及relu激活函数组成的前反馈层,自我注意模块的输入包含查询q、键k和值v;按比例缩放的点积注意机制用以下公式表示:
[0022][0023]
其中,dk代表值v的维度,为了获取各种各样的特征表示,通过多种的线性变换获取多组变换后的v,k,q,然后实现包含h个平行头的多头注意,多头注意的公式如下所示:
[0024]
headi=attention(qw
iq
,kw
ik
,vw
iv
)
[0025]
multihead(q,k,v)=concat(head1,...,headh)wo[0026]
其中,他们都属于第i个头的变换矩阵,d是原始输入特征的维度,dh是从每一个头获取的输出特征的维度。
[0027]
进一步的,所述步骤s4包括:
[0028]
将得到的细粒度的行人属性特征和文本属性特征进行一一对齐,属于正属性的就按照如下公式进行计算:否则就按照该公式计算:
[0029]
最后将整个网络模型以端到端的方式进行,总的损失函数公式如下:
[0030][0031]
其中,l
id
是使用交叉熵损失函数来帮助学习每一个身份的行人鲜明特征,l
seg
则是语义分割网络的损失函数,另外两个分别是针对全局特征和属性特征匹配设计的三元组损失函数。
[0032]
另一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
[0033]
由上述技术方案可知,本发明的跨模态细粒度属性对齐的行人智能查找方法,通过语义共同注意机制获得细粒度属性特征,使得相似的属性特征相似度更高,反之则更低,这样改进后的平均相似度就会解决因为单个相似度过高导致平均相似度过高的问题,大大提升了根据描述文本查询相似图片的准确率。
附图说明
[0034]
图1是跨模态细粒度属性对齐的示例即行人查找中存在的问题示例;
[0035]
图2是本发明的整体框架结构示意图;
[0036]
图3是本发明中的语义共同注意机制示意图;
[0037]
图4是自我注意力机制模块示意图;
[0038]
图5是关系注意模块示意图;
[0039]
图6是模型运行流程图;
[0040]
图7是根据文本描述检索到的前10名图像的示例图。
具体实施方式
[0041]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
[0042]
如图2所示,本实施例所述的跨模态细粒度属性对齐的行人智能查找方法,包括:
[0043]
s1、对数据集中的行人图像以及文本进行全局和属性特征提取;
[0044]
s2、对提取的行人文本特征和图像特征进行全局匹配;
[0045]
s3、将提取的行人视觉属性特征和全局文本特征作为输入,通过语义共同注意机制得到细粒度的行人视觉属性特征;
[0046]
s4、将得到的细粒度的行人属性特征和文本属性特征进行一一匹配,计算总损失函数,进行相似度计算,最后得到匹配结果。
[0047]
进一步,所述步骤s1的过程如下:
[0048]
用resnet-50残差网络来提取行人图像全局特征,利用已经预训练好的语义分割网络hrnet作为辅助工具,将人体分为五个部分:头部、上身、下身、鞋子、包。之后提取行人的图像属性特征。与此同时,利用bi-lstm提取全局文本特征,然后通过stanford pos tagger工具解析文本中的名词短语,并根据行人的五个部分进行分类处理,提取行人文本属性特征。
[0049]
进一步,所述步骤s2的过程如下:
[0050]
将提取到的行人文本和视觉全局特征构成三元组《vi,t
+
,t-》作为输入,其中,i代表第i个身份的人,+(正样本)代表与第i个身份的行人视觉特征相关的文本特征,-(负样本)则代表不相关。通过三元组损失函数使得文本描述和行人图像一致的,二者之间的相似度尽可能高,反之,则尽可能地低。公式如下所示:
[0051][0052]
其中,s代表着视觉特征和文本特征之间的相似度,计算公式为:正样本的相似度则用s
+
表示,反之则用s-表示。τ
p
,τn,α,β为固定常数,分别为10、40、0.6、0.4。α则是控制正样本的相似度的下限,至少要大于0.6,β则是控制负样本的上限,不相关的视觉和文本特征至少要小于0.4。
[0053]
进一步,所述步骤s3的过程如下:
[0054]
所述的语义共同注意机制如图3所示,具体主要由自我注意机制(sa)模块和关系注意(ra)模块组成。自我注意机制如图4所示,它包括一个多头注意(multi-head attention)和由两个全连接层以及relu激活函数组成的前反馈层,这里的多头注意机制引用的是2017年谷歌发表的《attention is all you need》中的注意力机制,自我注意模块的输入包含查询(q)、键(k)和值(v)。按比例缩放的点积注意机制可以用以下公式表示:
[0055][0056]
其中,dk代表值v的维度,为了获取各种各样的特征表示,我们可以通过多种的线性变换获取多组变换后的v,k,q,然后实现包含h个平行头的多头注意,多头注意的公式如下所示:
[0057]
headi=attention(qw
iq
,kw
ik
,vw
iv
)
[0058]
multihead(q,k,v)=concat(head1,...,headh)wo[0059]
其中,他们都属于第i个头的变换矩阵。d是原始输入特征的维度,dh是从每一个头获取的输出特征的维度。
[0060]
这里使用的头数为8,dropout为0.1。它的输入查询(query)、键(key)和值(value)都是特征本身,方便捕捉特征的内部结构。当获得注意后的特征并将其作为前反馈层的输入。期间使用残差连接和层规范化作用于多头注意的输出,以促进优化。如图3所示,在编码器(encoder)中,将2个sa模块用于文本特征变换,第一次是为了学习句子中单词的依赖关系,即单词之间的语义关系,第二次则是总结这些语义关系,寻找句子之间的语义关系。同时,还对视觉属性特征使用sa模块,以便了解每个视觉特征的内部关系。而关系注意模块如图5所示,内部结构与sa模块类似,但是有两组输入,一组是获得注意后的文本特征,另一组是视觉属性特征,经过ra模块的跨模态共同注意在视觉属性特征和相关文本内容之间建立联系,得到细粒度的行人属性特征。
[0061]
进一步,所述步骤s4的过程如下:
[0062]
将得到的细粒度的行人属性特征和文本属性特征进行一一对齐,属于正属性的就
按照如下公式进行计算:否则就按照该公式计算:
[0063]
最后将整个网络模型以端到端的方式进行,总的损失函数公式如下:
[0064][0065]
其中,l
id
是使用交叉熵损失函数来帮助学习每一个身份的行人鲜明特征,l
seg
则是语义分割网络的损失函数,另外两个分别是针对全局特征和属性特征匹配设计的三元组损失函数。训练100个epoch之后,损失函数收敛,然后输入一段关于行人的语言描述进行测试,通过该网络模型得到十张与该语言描述相似度最大的图片,并依次展示。该网络模型的框架图如图2所示,模型运行图如图6所示,本发明利用语义共同注意机制(见图3)生成更加细粒度的属性特征,从而得到更加精确的相似度,因此也提升了查询的准确率。
[0066]
综上所述,本发明实施例通过对数据集中的行人图像以及文本进行全局和属性特征提取,对提取的行人文本特征和图像特征进行全局匹配,将提取的属性特征和全局文本特征作为输入,通过语义共同注意机制得到细粒度的行人属性特征。将得到的细粒度的行人属性特征和文本属性特征进行精确匹配,计算总损失函数,进行相似度计算,最后得到匹配结果。
[0067]
本发明设计了语义共同注意机制,有效生成更加细粒度的行人属性特征,从而促进了行人文本描述和图像之间的精准匹配,提高了查询行人的正确率。通过设计自我注意模块,有效捕捉到词与词、句子与句子之间的语义关系,提取到更加鲜明的文本特征。通过设计关系注意模块,缓解了跨模态的行人查找中跨域、跨模态的任务难度,从而建立了文本和视觉之间存在的内在联系,大大提高了行人智能查找的速度。
[0068]
为了验证该方法的有效性,我们将行人查找的测试结果可视化。如图7所示,第一个例子中的前三张图片都与样例文本中描述的属性短语一致,而第二个示例与第一个示例相比,除了没有人的正脸照以外,还存在一定的亮度干扰。即使在这样的情况下仍然可以成功地检测指定行人图像。不仅如此,值得一提的是,某些属性上的对齐也可以在其他失败的情况下找到。第二个例子清楚地表明,几乎所有不匹配的人都具有白衬衫、黑裤子和黑包的属性。第一个样例最后七张错误的图片在一定程度上也与文本中的相关属性一致,第四张、第八张和第十张图片均具有绿色裤子的属性,第五张和第七张图片都拥有条纹背心的属性,第九张图片则拥有粉色鞋子的属性,至于第六张图片模型可能是被红地毯这个因素所误导。总之,该模型在细粒度属性对齐方面表现出优良的性能。
[0069]
又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述任一方法的步骤。
[0070]
再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一方法的步骤。
[0071]
在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法的步骤。
[0072]
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
[0073]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以
通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0074]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0075]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种跨模态细粒度属性对齐的行人智能查找方法,其特征在于,包括以下步骤,s1、对数据集中的行人图像以及文本进行全局和属性特征提取;s2、对提取的行人文本特征和图像特征进行全局匹配;s3、将提取的行人视觉属性特征和全局文本特征作为输入,通过语义共同注意机制得到细粒度的行人视觉属性特征;s4、将得到的细粒度的行人属性特征和文本属性特征进行一一匹配,计算总损失函数,进行相似度计算,最后得到匹配结果。2.根据权利要求1所述的跨模态细粒度属性对齐的行人智能查找方法,其特征在于:所述步骤s1包括:用resnet-50残差网络来提取行人图像全局特征,利用已经预训练好的语义分割网络hrnet作为辅助工具,将人体分为五个部分:头部、上身、下身、鞋子、包;之后提取行人的图像属性特征,与此同时,利用bi-lstm提取全局文本特征,然后通过stanford pos tagger工具解析文本中的名词短语,并根据行人的五个部分进行分类处理,提取行人文本属性特征。3.根据权利要求2所述的跨模态细粒度属性对齐的行人智能查找方法,其特征在于:所述步骤s2包括:将提取到的行人文本和视觉全局特征构成三元组<v
i
,t
+
,t->作为输入,其中,i代表第i个身份的人,+即正样本代表与第i个身份的行人视觉特征相关的文本特征,-即负样本则代表不相关,通过三元组损失函数使得文本描述和行人图像一致的,公式如下所示:其中,s代表着视觉特征和文本特征之间的相似度,计算公式为:正样本的相似度则用s
+
表示,反之则用s-表示,τ
p
,τ
n
,α,β为固定常数,α则是控制正样本的相似度的下限,大于0.6,β则是控制负样本的上限,不相关的视觉和文本特征小于0.4。4.根据权利要求3所述的跨模态细粒度属性对齐的行人智能查找方法,其特征在于:步骤s3中的语义共同注意机制由自我注意机制模块和关系注意模块组成;其中,自我注意机制包括一个多头注意和由两个全连接层以及relu激活函数组成的前反馈层,自我注意模块的输入包含查询q、键k和值v;按比例缩放的点积注意机制用以下公式表示:其中,d
k
代表值v的维度,为了获取各种各样的特征表示,通过多种的线性变换获取多组变换后的v,k,q,然后实现包含h个平行头的多头注意,多头注意的公式如下所示:head
i
=attention(qw
iq
,kw
ik
,vw
iv
)multihead(q,k,v)=concat(head1,...,head
h
)w
o
其中,他们都属于第i个头的变换矩阵,d是原始输入
特征的维度,d
h
是从每一个头获取的输出特征的维度。5.根据权利要求3所述的跨模态细粒度属性对齐的行人智能查找方法,其特征在于:所述步骤s4包括:将得到的细粒度的行人属性特征和文本属性特征进行一一对齐,属于正属性的就按照如下公式进行计算:否则就按照该公式计算:最后将整个网络模型以端到端的方式进行,总的损失函数公式如下:其中,l
id
是使用交叉熵损失函数来帮助学习每一个身份的行人鲜明特征,l
seg
则是语义分割网络的损失函数,另外两个分别是针对全局特征和属性特征匹配设计的三元组损失函数。6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

技术总结
本发明的一种跨模态细粒度属性对齐的行人智能查找方法、存储介质,包括以下步骤,对数据集中的行人图像以及文本进行全局和属性特征提取;对提取的行人文本特征和图像特征进行全局匹配;将提取的属性特征和全局文本特征作为输入,通过语义共同注意机制得到细粒度的行人属性特征;将得到的细粒度的行人属性特征和文本属性特征进行一一匹配,计算总损失函数,进行相似度计算,最后得到匹配结果。本发明通过语义共同注意机制对属性特征进行强化,使得相似的属性特征相似度更高,反之则更低,这样改进后得到更加细粒度的行人属性,使得拥有相同身份的行人和文本特征更容易匹配,大大提升了根据描述文本查询相似图片的准确率。了根据描述文本查询相似图片的准确率。了根据描述文本查询相似图片的准确率。


技术研发人员:胡珍珍 王浩
受保护的技术使用者:合肥工业大学
技术研发日:2022.03.21
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-7044.html

最新回复(0)