一种基于因果干预的多特征增强型图像描述方法

allin2025-04-23  23


本发明涉及图像描述,具体为一种基于因果干预的多特征增强型图像描述方法。


背景技术:

1、图像描述旨在为给定的图像生成一段文字描述,是一项基于计算机视觉和自然语言处理的多模态任务。其模型结构以编码器-解码器架构为主,由编码器提取输入图片的视觉特征;由解码器将视觉特征和已生成的文本特征转换为语言描述。

2、现有的图像描述技术大多集中于在大规模数据集下取得良好的表现,但是缺乏对实际应用的考虑。大多数图像描述模型采用了目标检测技术提取区域特征并与其它视觉特征融合来增强视觉表示以获得更精细的文本描述。但此方法导致了模型参数量、浮点运算次数的大量增加,降低了模型的推理速度,且忽略了图像目标间位置信息的重要影响,造成位置关系的缺失。此外,区域特征不能进行端到端训练,难以实际应用。

3、图像描述在实际应用的过程中,更需要模型在中小型的数据集上的性能表现,而混淆因素易在中小型数据集的训练的过程中产生,会对用户产生极大的误导。例如,当一个人在晴天打遮阳伞时,由于数据集的数据集中于在雨天打雨伞,模型也倾向于生成此结果,从而引起较大的偏差,造成用户对场景的误解。因此在保持推理速度的同时,消除混淆因素也是模型实际部署的关键所在。

4、基于此,本发明提供了一种基于因果干预的多特征增强型图像描述方法,在保持细节描述和模型效率的同时可能多的消除混淆因素。


技术实现思路

1、为了解决上述问题,本发明提出了一种基于因果干预的特征增强型图像描述方法,该方法在编码阶段通过融合图像的网格特征和浅层特征,并为特征赋予位置信息以生成更细节的描述;在解码阶段通过切断图像特征和语言特征间的虚假因果关系以去除混淆效应。

2、本发明采用如下技术方案:一种基于因果干预的特征增强型图像描述方法,通过图像描述网络模型,生成对应的文本描述,图像描述模型的训练过程包括以下步骤:

3、步骤1:图像特征提取:对于图像的网格特征,使用深度卷积网络resnext152提取图像网格特征xg;对于图像的边缘、纹理信息,使用单一卷积层对图像编码得到包含此类信息的浅层特征xs;

4、步骤2:加入几何信息:在transformer自注意力的操作过程中,加入位置相关信息的运算使得其运算包含了图像的几何信息。并分别将网格特征xg和浅层特征xs通过此模块获得带有位置相关信息的特征x′g和x′s;

5、步骤3:特征融合并编码得到最后视觉特征使用扩展序列模块融合具有几何信息的网格特征和浅层特征来得到最终的视觉图像特征

6、步骤4:对图像特征的解码过程中加入因果调整模块并预测输出:初始化语义向量w,联合最终视觉图像特征作为transformer解码块的输入,在解码过程中通过因果调整模块去除视觉和语义之间的混杂因素,并通过层归一化和softmax层逐步生成文本描述l=[l1,l2,...,ln],其中li是句子中的第i个单词,n表示句子的长度。

7、步骤5:损失函数计算:定义图像描述损失函数为

8、

9、其中θ表示模型的可学习参数集合,通过训练过程不断优化,以最小化损失函数并提高模型的预测性能,li是句子中的第i个单词,l1:i-1表示从第1个到第i-1个位置的所有词,n表示句子的长度,p(li|l1:i-1)代表生成第i个单词的概率。

10、具体地,步骤2中加入位置信息的transformer执行过程如下步骤包括:

11、对于输入x的第m个网格和第n个网格,使用点的中心坐标为(xm,xn)和(ym,yn)代表其位置关系,并使用曼哈顿距离来表示其之间的距离dm,n为:

12、dm,n=|xm-xn|+|ym-yn|,

13、再使用单调函数将相对位置投影获得位置相关指数rm,并通过相关指数来调整自注意力机制中的注意权重,最后通过在注意力的计算过程中加入相关指数,使模型能够获得图像的相关位置信息,具体计算过程如下:

14、

15、

16、relu(x)=max(0,x),

17、xg′=ln(xg+mha′(q,k,v)),

18、xs′=ln(xs+mha'(q,k,v)),

19、其中αm,βm是通过迭代优化训练过程,在使损失函数最小化的条件下得到的可学习参数,exp代表自然指数运算,head′为单头注意力机制中的注意力头,d为输入图像的维度,softmax为激活函数,使输出值的总和为1,q,k,v分别代表注意力计算中的查询,键和值,⊙表示矩阵的点乘,relu(x)为激活函数,将输入x与零进行比较,输出两者中较大的值,从而为神经网络引入非线性并加速训练过程,并有效缓解梯度消失的问题。ln为transformer块中的层归一化操作,mha′为transformer块中加入距离信息且单头计算方式为head′的多头注意力机制操作。

20、具体地,步骤3中使用扩展序列模块融合多特征的步骤包括:

21、扩展序列模块的输入为具有相对位置信息的网格特征xg′和浅层特征xs′拼接而成的图像特征x′。首先通过给定的扩展因子ne来计算扩展查询qe和扩展偏置be,并通过线性投影矩阵ke计算参与前向扩展和后向扩展过程的变换矩阵m,随后通过m计算出前向扩展和后向扩展并经归一化处理的中间状态和最后通过线性投影矩阵ve计算正向展开序列ffw和反向展开序列bbw,bbw即为最终视觉图像特征整个过程计算如下:

22、qe=c+(eqtωe)t,

23、be=c+(ebtωe)t,

24、ke=x′wkve=x′wv,

25、

26、

27、

28、

29、

30、

31、其中,c是通过对输入x′进行加权和偏置处理而得到的线性投影,eq,eb是维度与ne相关通过迭代优化训练过程,在使损失函数最小化的条件下学习得到的可学习参数矩阵,ωe定义为维度为ne的单位矩阵,t为矩阵的转置,wk,wv,分别为线性投影矩阵ke,ve的可学习参数矩阵,rn(x)i,j为对x的逐行归一化操作,作用是将矩阵每一行的范数置位1以确保模型更加稳定,其中i,j分别为矩阵的行索引和列索引,xi,k为x的第i行第k列的元素,n为x的总列数,ε为极小值以避免分母为零。

32、具体地,步骤4中,逐步生成文本描述l时,transformer解码块的计算过程为:

33、w=ln(mha(h,h,h)+h),

34、

35、其中ln为transformer中的层归一化运算,mha为transformer中的多头注意力机制计算,h表示语言上下文语义特征,w为经过transformer模块中多头自注意力计算后的上下文语义特征,为联合视觉信息和语义信息的特征。

36、具体地,步骤4中,逐步生成文本描述l时,因果调整模块的计算过程为:

37、

38、

39、

40、

41、其中l表示最终输出即单词的预测,ca为本方法所提出的基于因果干预的因果调整模块,代表进行因果干预后生成文本l的概率,指对特征进行主动因果干预,e表示数学期望,表示为在给定分布下x的期望值,表示为在给定条件下的期望值,表示通过加权和的形式对和进行线性变换。

42、与现有的技术相比,本发明的有益技术效果是:本发明避免使用类似目标检测器提取复杂视觉特征,使模型可以端到端的训练;本发明在提取网格特征和浅层特征后,通过带有位置信息的transformer块弥补了transformer块无法包含距离信息的缺点;本发明提出了因果调整模块,通过因果干预的方法去除混淆因素,有效的令模型快速准确的生成周围环境的语言描述。


技术特征:

1.一种基于因果干预的多特征增强型图像描述方法,通过图像描述网络模型,生成对应的文本描述;图像描述模型的训练过程,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于因果干预的多特征增强型图像描述方法,其特征在于,步骤2中加入位置信息的transformer执行过程如下步骤包括:

3.根据权利要求1所述的一种基于因果干预的多特征增强型图像描述方法,其特征在于,步骤3中使用扩展序列模块融合多特征的步骤包括:

4.根据权利要求1所述的一种基于因果干预的多特征增强型图像描述方法,其特征在于,步骤4中,逐步生成文本描述l时,transformer解码块的计算过程为:

5.根据权利要求1所述的一种基于因果干预的多特征增强型图像描述方法,其特征在于,步骤4中,逐步生成文本描述l时,因果调整模块的计算过程为:


技术总结
本发明涉及图像描述技术领域,公开了一种基于因果干预的多特征增强型图像描述方法。首先使用深度卷积层和单一卷积层分别提取输入图像的网格特征和浅层特征。其次,设计带有位置信息增强的注意力模块,获取包含几何信息的网格特征和浅层特征。再次,构建扩展序列模块融合网格特征和浅层特征以获得完整的视觉特征。最后,提出因果调整解码块,通过切断视觉特征和语言特征间的虚假因果关系去除混淆效应,并联合视觉特征和文本特征进行解码,生成图像的自然语言描述。本发明解决了现有图像描述方法缺乏细节表述、易产生混淆的问题,有利于模型在实际场景下的部署和应用。

技术研发人员:曹政才,夏霁,牟洪民,孙伊扬,马哲
受保护的技术使用者:哈尔滨工业大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-20578.html

最新回复(0)