基于目标引导哈希网络的多粒度无监督图像检索方法

allin2025-05-27  104


本技术属于图像检索,具体涉及一种基于目标引导哈希网络的多粒度无监督图像检索方法。


背景技术:

1、图像检索是计算机视觉领域的重要任务。随着互联网、社交媒体、移动设备等的普及发展,图像数据的规模正在迅速扩大。数据量的飞速增长大大增加了计算的复杂度,给图像检索任务带来了新的挑战。近似最近邻搜索(anns)作为一种在大数据集上快速查找最相似数据点的方法,被广泛应用在大规模图像检索领域。哈希作为anns算法的一种,通过将高维的图像数据映射为低维的二进制哈希码,而有效地解决了传统图像检索方法中存在的“维度灾难”问题,利用汉明距离的度量方式缩短了检索时间,提高了检索效率,成为目前图像检索领域的一大研究热点。

2、哈希学习的重点在于将输入数据映射为哈希码,使低维的哈希码尽可能的保留原始数据间的相似关系。传统哈希算法大多利用手工提取的特征作为输入,往往容易受到主观因素的影响,随着深度学习的出现及其所表现出的强大学习能力,将哈希算法与深度神经网络相结合的深度哈希算法俨然成为研究的主流。深度哈希算法在提高了检索精度的同时也增强了模型的泛化性和鲁棒性。

3、现有的深度哈希检索算法主要可以分为有监督和无监督两大类,其主要区别在于训练数据是否带有标签。有监督的深度哈希算法使用带有标签的数据进行训练,目标明确,因此往往能够取得更佳的精度。但有监督算法需要大量的标记数据,这可能需要大量的人力、物力和时间成本。深度无监督哈希算法则利用大量的未标记数据进行训练,大大节省了数据标注的时间和成本,并且能够自主发掘数据的内部结构和模式,在节省了成本的同时也更具普适性。

4、现有的深度无监督方法主要可以分为三类:基于相似度重建的方法、基于伪标签的方法和自监督方法。基于相似度重建的方法一般利用预训练的模型来获取图像的语义特征,并通过相似度度量(如余弦相似度)来构建相似度矩阵。基于伪标签的方法主要是通过聚类产生伪标签,将无监督转化为监督的方式训练哈希网络。ssdh(基于语义结构的深度无监督哈希算法)利用预训练模型得到的深度特征计算余弦相似度并利用高斯分布生成的约束重建相似度矩阵。pluddh(基于伪标签的深度无监督哈希算法)利用预训练的vgg模型生成伪标签,利用伪标签设置分类损失和量化损失指导哈希网络学习。上述两类方法实质都是利用预训练模型获得数据之间的模式和结构,而自监督则关注于利用数据中的内在信息,通过预测数据中的某些属性来生成训练信号,从而实现自主学习。cfn(基于拼图解决视觉表征的无监督学习算法)将图像切割成块并随机打乱它们。通过回答图像和完成谜题来训练网络。simclr(对比学习视觉表征算法)通过随机变换生成各种视图,并训练模型以保持视图之间的相似性。spq(基于自监督量化的无监督图像检索算法)进行了两种数据增强,并设计了映射结果与原始特征之间的交叉量化对比学习,增强了模型的理解能力。

5、尽管现有的无监督哈希方法已取得了诸多进展,但仍存在诸多问题。首先,不管是利用预训练模型得到的特征重建相似度矩阵还是获得伪标签都可能含有背景信息的干扰,从而导致错误的正负样本判断。其次,基于自监督学习的方法通常只将图像的增强视图作为正例,将同一批中的所有其他图像作为负例,这忽略了大量潜在的正例,并引入错误的负例。此外,现有的无监督哈希方法缺乏挖掘多粒度相似性关系来更全面地引导哈希网络学习。


技术实现思路

1、为了克服现有技术中存在的一些问题,本技术提供了一种基于目标引导哈希网络的多粒度无监督图像检索方法。本技术的具体技术方案为:

2、本技术第一方面提供了一种基于目标引导哈希网络的多粒度无监督图像检索方法,包括以下步骤:

3、待训练图像的获取:获取多个待训练图像;

4、伪标签的获得:利用目标检测模型获得各个待训练图像中包含的主体,构造各个待训练图像的伪标签并保存;

5、图像分批次:将所有待训练图像分为多个批次,每个批次包含多张图像;

6、主体匹配度矩阵的获得:根据当前批次图像的伪标签构建当前批次图像的主体匹配度矩阵;

7、第一相似度矩阵的获得:将当前批次图像输入预训练图像模型,获取当前批次图像的深度特征和哈希码,并基于该深度特征重建第一相似度矩阵;

8、第二相似度矩阵的获得:利用所述的主体匹配度矩阵优化所述第一相似度矩阵,得到优化后的第二相似度矩阵;

9、目标损失函数的获得:从多粒度构造当前批次图像的目标损失函数,得到目标损失函数值;

10、图像检索模型的获得:判断目标损失函数的获得步骤中处理的当前批次图像是否为最后批次图像;若否,将当前批次图像的目标损失函数值反馈至第一相似度矩阵的获得步骤中的预训练图像模型,对其进行更新,然后输入下一批次图像至主体匹配度矩阵的获得步骤中和更新预训练图像模型后的第一相似度矩阵的获得步骤中,进行迭代;若是,则输出训练完成的预训练图像模型作为图像检索模型。

11、在一实施例中,所述图像检索方法还包括图像检索步骤:将待检索的图像输入得到的图像检索模型中,输出检索结果,完成图像检索。

12、在一实施例中,所述目标检测模型选择faster-rcnn模型、fast-rcnn模型、yolo模型中的一种。

13、在一实施例中,所述预训练图像模型选择vit模型、深度卷积网络中的一种;优选vit模型。

14、在一实施例中,所述待训练图像的获取步骤中,选取数据集,采用其中的n个图像作为待训练图像,n为大于0的正整数;

15、所述伪标签的获得步骤中,所有待训练图像中的任意一张图像xt经过目标检测模型,通过检测出的目标类别得到图像xt的伪标签lt∈{0,1}m,其中,m代表所有待训练图像的伪标签的总数;采用l表示所有待训练图像的伪标签的有序集合,计算各个待训练图像的伪标签对应的伪标签集合,其中:

16、

17、其中,ot表示图像xt的伪标签对应的伪标签集合,t∈[1,n],从而得到所有待训练图像的各自的伪标签集合;l(p)代表l中的第p个类别;代表one-hot向量lt第p位的值,p∈[1,m];

18、所述主体匹配度矩阵的获得步骤中,当前批次图像包含n张图像,利用所述伪标签集合,对当前批次图像构造主体匹配度矩阵so;其中,当前批次图像的任意两张图像xi和xj的匹配度表示如下:

19、

20、其中,oi表示图像xi的伪标签对应的伪标签集合,oj表示图像xj的伪标签对应的伪标签集合;i∈[1,n],j∈[1,n];

21、所述第一相似度矩阵的获得步骤中,通过预训练图像模型输出深度特征u;通过在预训练图像模型后面添加至少一个全连接层,得到哈希网络;再通过tanh激活函数得到当前批次图像的连续的哈希码h;利用输出的深度特征u计算余弦相似度,以重建第一相似度矩阵sd;其中,任意两张图像xi和xj的余弦相似度表示如下:

22、

23、其中,ui和uj分别为当前批次图像中的图像xi和xj的深度特征u;

24、所述第二相似度矩阵s的获得步骤中,若当前批次图像的两个图像xi和xj共享完全相同的主体,设定其为正对,s=1;若两个图像没有共同的主体,设定其为负对,s=-1;否则,s=sd;其中,任意两张图像xi和xj的相似度表示如下:

25、

26、在一实施例中,所述多粒度包括自身重建损失lr,成对相似性保持损失lp,对比损失lcon,哈希中心相似度损失lc,以及量化损失lq。

27、在一实施例中,所述目标损失函数的获得步骤包括所述自身重建损失lr的计算,所述成对相似性保持损失lp的计算,所述对比损失lcon的计算,所述哈希中心相似度损失lc的计算,以及所述量化损失lq的计算;具体地:

28、①对原始图像xi作图像增强处理,得到增强后的图像xi′;将增强后的图像也输入第一相似度矩阵的获得步骤中的预训练图像模型获取深度特征ui′和哈希码hi′,使其与原始图像获取的深度特征ui和哈希码hi接近;从而计算自身重建损失lr;

29、

30、②根据第二相似度矩阵s,设计成对相似性保持损失lp:

31、

32、其中,k代表哈希码的长度;

33、③利用第二相似度矩阵s构造正负样本集m+,m-:

34、

35、然后基于正负样本集,设计对比损失lcon:

36、

37、其中,xj′为xj的增强后的图像;τ为温度系数,hi′为增强后的图像xi′的哈希值;

38、④获得当前批次图像中每张图像对应的最终哈希中心ci′,表示为:

39、

40、其中,cp表示有序集合l中第p个类别的哈希中心,p∈[1,m];代表图像xi中包含伪标签对应的索引集合;

41、然后基于最终哈希中心,设计哈希中心相似度损失lc:

42、

43、其中,和分别代表ci’的第g位的哈希中心值和hi的第g位的哈希值,以实现逐位对齐;i∈[1,n],g∈[1,k];

44、⑤设计量化损失lq:

45、

46、⑥结合所述lr、lp、lcon、lc和lq,得到所述的目标损失函数:

47、

48、其中,α,β,γ,δ和λ分别为权重值,均大于零。

49、在一实施例中,采用哈达玛矩阵得到哈希中心,然后采用多数投票策略得到最终哈希中心。

50、在一实施例中,所述图像检索方法还包括对所有待训练图像进行多轮训练的步骤,每轮包括所有待训练图像的多个批次;各轮之间的待训练图像的顺序不同;每轮的最后批次的目标损失函数值反馈至处理下一轮的第一批次图像的第一相似度矩阵的获得步骤中,以更新预训练图像模型和哈希网络;最后一轮的最后批次图像迭代后的哈希网络作为图像检索模型的获得步骤中的图像检索模型。

51、本技术第二方面提供了一种计算机设备,包括处理器以及存储有计算机程序指令的存储器;所述处理器通过读取并执行存储器中存储的计算机程序指令,以实现前文任一实施例中所述的基于目标引导哈希网络的多粒度无监督图像检索方法。

52、本技术第三方面提供了一种计算机可读存储介质;该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现前文任一实施例中所述的基于目标引导哈希网络的多粒度无监督图像检索方法。

53、本技术的优点和技术成果:

54、本技术至少一种实施方式所述的图像检索方法,采用目标检测模型得出的主体匹配度矩阵优化预训练图像模型重建的相似度矩阵,来突出图像中主体的作用,弱化背景的影响。

55、本技术至少一种实施方式所述的图像检索方法,通过主体匹配度优化了对比学习,扩充了正例,净化了负例;从图像内部、图像两两之间以及图像集群之间多层次、多粒度挖掘了隐藏的结构信息。综合利用多种损失,指导哈希网络的学习。


技术特征:

1.一种基于目标引导哈希网络的多粒度无监督图像检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的图像检索方法,其特征在于,所述待训练图像的获取步骤中,选取数据集,采用其中的n个图像作为待训练图像,n为大于0的正整数;

3.根据权利要求2所述的图像检索方法,其特征在于,所述多粒度包括自身重建损失lr,成对相似性保持损失lp,对比损失lcon,哈希中心相似度损失lc,以及量化损失lq。

4.根据权利要求3所述的图像检索方法,其特征在于,所述目标损失函数的获得步骤包括所述自身重建损失lr的计算,所述成对相似性保持损失lp的计算,所述对比损失lcon的计算,所述哈希中心相似度损失lc的计算,以及所述量化损失lq的计算;具体地:

5.根据权利要求4所述的图像检索方法,其特征在于,采用哈达玛矩阵得到哈希中心,然后采用多数投票策略得到最终哈希中心。

6.根据权利要求2-5中任一项所述的图像检索方法,其特征在于,还包括对所有待训练图像进行多轮训练的步骤,每轮包括所有待训练图像的多个批次;各轮之间的待训练图像的顺序不同;每轮的最后批次的目标损失函数值反馈至处理下一轮的第一批次图像的第一相似度矩阵的获得步骤中,以更新预训练图像模型和哈希网络;最后一轮的最后批次图像迭代后的哈希网络作为图像检索模型的获得步骤中的图像检索模型。

7.根据权利要求1-5中任一项所述的图像检索方法,其特征在于,还包括图像检索步骤:将待检索的图像输入得到的图像检索模型中,输出检索结果,完成图像检索。

8.根据权利要求1-5中任一项所述的图像检索方法,其特征在于,所述目标检测模型选择faster-rcnn模型、fast-rcnn模型、yolo模型中的一种;所述预训练图像模型选择vit模型、深度卷积网络中的一种。

9.一种计算机设备,包括处理器以及存储有计算机程序指令的存储器;所述处理器通过读取并执行存储器中存储的计算机程序指令,以实现权利要求1-8中任一项所述的基于目标引导哈希网络的多粒度无监督图像检索方法。

10.一种计算机可读存储介质;该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现权利要求1-8中任一项所述的基于目标引导哈希网络的多粒度无监督图像检索方法。


技术总结
本申请提供了一种基于目标引导哈希网络的多粒度无监督图像检索方法,包括待训练图像的获取;伪标签的获得;图像分批次;主体匹配度矩阵的获得:根据当前批次图像的伪标签构建主体匹配度矩阵;第一相似度矩阵的获得:将当前批次图像输入预训练图像模型,获取深度特征和哈希码,并基于该深度特征重建第一相似度矩阵;第二相似度矩阵的获得:利用主体匹配度矩阵优化第一相似度矩阵,得到优化后的第二相似度矩阵;目标损失函数的获得:从多粒度构造当前批次图像的目标损失函数;以及图像检索模型的获得:判断目标损失函数的获得步骤中处理的当前批次图像是否为最后批次图像;若否,将当前批次图像的目标损失函数值反馈至预训练图像模型,对其进行更新,然后输入下一批次图像,进行迭代;若是,则输出训练完成的预训练图像模型作为图像检索模型。

技术研发人员:曹媛,徐雪,孟凡蕾,黄作金
受保护的技术使用者:中国海洋大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-21529.html

最新回复(0)