面向遥感视觉问答的位置和语义优化方法及系统

allin2025-07-01  11


本发明属于视觉问答,特别涉及面向遥感视觉问答的位置和语义优化方法及系统。


背景技术:

1、视觉问答是指根据图像回答每个图像对应的问题,主要包括两个重要步骤:其一,对遥感图像和文本进行特征提取,挖掘其深层/高级/语义表征。其二,基于提取的深层/高级/语义表征对问题答案进行预测。针对过程一,目前主要采用深度神经网络表征模型,如:基于卷积的深度神经网络特征提取器,例如:空洞卷积、可变形卷积、词嵌入等。针对过程二,目前主要采用级联、门控、注意力机制等方法获得鲁棒的多模态表征。

2、但是,现有遥感视觉问答方法用于海洋遥感图像中存在以下问题:

3、(1)无法自适应地应对复杂噪声累积,难以建立稳定的视觉问答模型。海洋遥感图像包含大量复杂噪声(如遥感器对表面均匀目标(如水体)探测产生的条带现象、海洋表面的浪花、海洋的水体不均)。现有的视觉问答方法在原始图像基础上实施特征提取、上下文挖掘、反卷积等操作生成特征表示,但这些特征表示只能描述低阶信息,如颜色、形状、区域等。当遇到复杂噪声,例如海洋中的条带现象、海洋的水体不均,会导致图像颜色、形状等低阶特征表现并不稳定,不能自适应地消除/缓解复杂噪声,甚至放大噪声的影响,降低了视觉问答模型的准确度。

4、(2)海洋遥感图像和自然语言的语义鸿沟。现有的视觉问答方法在原始图像基础上实施特征提取、上下文挖掘、反卷积等操作生成特征表示,并将其直接和文本特征通过级联、门控抑或注意力机制融合在一起。但这些多模态特征表示,本身存在语义鸿沟的问题。当遥感图像前景背景失衡,自然语言非语义词元过多时,极易引发表征的不鲁棒特性,更扩大了海洋遥感视觉特征和文本特征的语义鸿沟,降低了视觉问答模型的准确度。

5、(3)多模态表征冗余信息的积累。以往的研究大多只是简单地串联多模态(海洋遥感图像和文本)表示,导致冗余信息的积累和模式之间有限的上下文交互作用。当遇到复杂噪声,例如海洋中的条带现象、海洋的水体不均,会导致图像颜色、形状等特征表现并不稳定,不能自适应地消除/缓解复杂噪声,甚至放大噪声的影响,更扩大了海洋遥感视觉特征和文本特征的语义鸿沟,降低了视觉问答模型的准确度。此外,其他工作只考虑简单的语境特征,忽略了语义线索,导致对遥感视觉问答的语义连贯性和多模态语义共指的一致性捕捉不足。


技术实现思路

1、针对现有技术存在的不足,本发明提供面向遥感视觉问答的位置和语义优化方法及系统,遵循双塔网络的结构,分别为文本流和海洋遥感图像流,首先,设计了一种交叉模态位置约束模块,该模块通过跨模态的位置约束注意来整合文本和海洋遥感图像信息,该模块考虑了单模态语义和跨模态语义关联的影响。其次,本专利设计了一个语义推理模块,提取有效的语义特征和上下文信息,包括上下文信息和多模态对象的交互关系。

2、为了解决上述技术问题,本发明采用的技术方案是:

3、首先,本发明提供一种面向遥感视觉问答的位置和语义优化方法,分为文本流和海洋遥感图像流,包括以下步骤:

4、步骤s1、输入海洋遥感图像和文本;

5、步骤s2、跨模态语境融合:通过交叉模态位置约束注意力机制来整合文本和海洋遥感图像信息,生成交叉模态特征;具体如下:

6、步骤s21、单模态表征:

7、将海洋遥感图像和文本数据分别通过图像编码器和文本编码器提取图像和文本特征,表示为xi,然后xi通过基于transformer的多头注意力机制和残差机制进行编码,得到单模态表征,其中i表示模态,图像模态采用表示,文本模态采用表示;

8、s22、多模态融合:

9、对于步骤s21得到的图像模态表征和文本模态表征,通过交叉模态位置约束注意力机制进行加权约束,输出约束后的多模态表征xc,xc与图像模态表征、文本模态表征进行融合,得到交叉模态特征,用于后续图建模;

10、所述交叉模态位置约束注意力机制通过图像和文本的交叉注意力和类别位置信息加权约束注意力lca实现,其中,类别位置信息加权约束注意力lca通过遥感图像的类别信息sa和位置信息rp运算后获得,具体来说:将遥感图像的类别信息sa和位置信息rp与传统注意力机制的权重矩阵进行元素级乘法,得到最终的注意力权重矩阵,作为类别位置信息加权约束;

11、步骤s3、语义推理:

12、首先,将步骤s2得到的交叉模态特征通过关系图卷积网络进行图建模,获得语义图gs;然后,计算语义编码和相对位置编码,并输入到语义图transformer,通过语义图transformer提取语义图gs中的语义信息,得到最后的细化语义信息;最后输出预测分类头,得到预测答案。

13、进一步的,步骤s21具体如下:xi通过transformer的注意力机制得到单个注意头的注意权值的注意图,并利用这些注意权值计算加权和,得到输出;最后添加一个残差连接和一个层范数,得到单模态表征;

14、(1);

15、 (2);

16、其中i表示第i个输入特征的序号,、、分别代表第h个注意力头的查询、键、和值向量,这些向量由输入的特征xi通过线性变换获得,softmax为softmax 函数,用于将注意力权重矩阵转换为概率分布,确保所有权重之和为1,k表示键向量矩阵的维度,用于缩放键向量矩阵;

17、表示第h个注意力头输出的加权求和结果,n表示多头注意力的总数,,,...,分别代表第1,2...,n个注意力头输出的加权求和结果,表示元素级别的加法运算,w是一个可学习的权重矩阵,用于将拼接后的矩阵映射到原始特征维度。

18、进一步的,步骤s22中,所述交叉模态位置约束注意力机制通过图像和文本的交叉注意力和类别位置信息加权约束注意力lca实现,其中,类别位置信息加权约束注意力lca通过遥感图像的类别信息sa和位置信息rp运算后获得,具体来说:将遥感图像的类别信息sa和位置信息rp与传统注意力机制的权重矩阵进行元素级乘法,得到最终的注意力权重矩阵,作为类别位置信息加权约束。

19、进一步的,步骤s22中,类别信息sa由图像类别和图像中的实体类别决定,位置信息rp由相对位置决定;具体来说:

20、类别信息sa用于聚焦于当前遥感图像的类别语义,并模拟类别信息对当前遥感图像的语义惯性:

21、(3);

22、其中,sm是当前遥感图像的图像类别,sn是遥感图像中的实体类别,即类信息,是当前遥感图像的图像类别和实体类别之间的关联强度,取值为1表示表征不变,取值0表示舍弃;

23、位置信息rp是通过计算图像区域um和un之间的视觉距离来表示,视觉距离近,则语义度量rp值大,表示图像区域um和un之间的相对重要性高。

24、进一步的,步骤s22中,图像模态表征和文本模态表征通过交叉模态位置约束注意力机制进行加权约束是通过以下方式实现:首先,和进行互相交叉注意力加权;然后,加权后的表征再通过类别位置信息加权约束注意力lca加权,输出约束后的视觉表征和文本表征,两者相加得到约束后的多模态表征xc;

25、其中,步骤s22中,和进行互相交叉注意力加权是通过图像和文本两流交叉模态进行交叉注意力模拟两种模态之间的交互,交叉注意力将多模态的图像和文本信息结合起来,利用图像模态的表征对文本特征进行转换;

26、对于单个注意力头,交叉模态位置约束注意力机制表示如下:

27、(4);

28、其中,表示传统transformer中的权重矩阵,lca表示类别位置信息加权约束注意力,是一个类别信息和位置信息约束的注意力矩阵,用于强调局部上下文信息,表示第j个值向量,表示经过交叉模态位置约束注意力机制计算后,第i个查询向量q和第j个键向量k对应的输出值;表示逐元素相乘运算符,将传统transformer注意力权重和局部约束注意力权重结合起来,·表示矩阵乘法运算符,将最终权重与值向量相乘,得到输出值。

29、进一步的,步骤s3具体如下:

30、步骤s31、构建语义图:

31、交叉模态特征通过关系图卷积网络构建语义图gs是将文本和图像映射到一个实体空间作为点,语义图的图结构中包括点和边,点代表图像实体和文本实体的语义;边代表实体的交互关系,包括文本和文本的关系、文本和图像的关系、文本和多模态表征的关系、多模态表征和图像的关系、文本和图像的关系;

32、步骤s32、语义信息细化:

33、通过实体的特征向量计算语义编码和相对位置编码,输入到语义图transformer得到最后的细化语义信息;

34、步骤s33、预测分类头。

35、进一步的,步骤s31具体如下:

36、定义一个语义图,每个实体由一个节点表示,不同的连接边表示有向关,vs表示一组实体节点,表示实体之间语义相似度的一组关系,定义为公式(5),

37、(5);

38、其中,表示实体m和实体n之间的语义相似度,和分别表示实体m和实体n的特征向量,t表示转置,表示欧氏范数,即向量的长度;arccos是反余弦函数,用于将余弦值转换为角度值。

39、进一步的,步骤s32具体如下:

40、步骤s321、确定语义和位置编码信息:

41、给定语义图gs的节点特征,分别代表语义图的第1,2...,n个节点特征;定义两个编码来表示语义图gs中两个节点之间的语义关系,第一个是相对位置编码,代表实体在语义图gs中的相对位置信息,中的每个向量表示节点之间的距离,并通过一个sigmoid 函数进行归一化,使其位于[0, 1]范围内;第二个是语义编码,由公式(10)计算的来表示,通过计算两个节点特征的余弦相似度得到,并将其转换为[0, 1]范围内的值;中的每个向量表示它们在两个节点之间的最短路径距离所代表的拓扑关系,和两者进行加法运算得到语义位置编码,使用向量来表示两个节点之间最短路径的距离,从而体现它们之间的语义相似度;

42、步骤s322、语义图transformer将节点特征和语义位置编码结合起来,通过语义图transformer从节点特征中提取语义信息,得到细化语义表征即更新后的节点特征,具体来说:

43、将语义图gs的节点特征转换为注意力机制的查询向量q、键向量k、值向量v,计算节点间的语义相似度和注意力分数,并与语义位置编码结合,计算,公式如下:

44、(6);

45、(7);

46、(8);

47、公式(6)中,表示节点i和节点j之间的注意力分数,和 是可学习的权重矩阵,用于将节点特征和转换为查询和键向量,d是预定义的维度,用于标准化注意力分数;是节点ij的语义和位置信息项,表示节点i和节点j之间的语义相似度,表示计算查询向量和键向量之间的点积,用于衡量节点i和节点j之间的相似度;

48、公式(8)中,表示更新后的节点特征,表示节点j的特征向量,表示归一化后的注意力分数,gn表示相邻节点的数量,操作表示相邻节点的特征向量,添加了位置编码和语义信息。

49、本发明还提供一种面向遥感视觉问答的位置和语义优化系统,用于实现如前所述的面向遥感视觉问答的位置和语义优化方法,所述系统采用双塔网络的结构,分别为文本流和海洋遥感图像流,包括单模态表征模块、交叉模态位置约束模块和语义推理模块,

50、所述单模态表征模块,包括视觉嵌入块和文本嵌入块,分别包括编码器、基于transformer的多头注意力机制和残差机制,编码器包括图像编码器和文本编码器,分别用于提取遥感图像和文本数据的图像和文本特征xi,xi通过基于transformer的多头注意力机制和残差机制处理后,输出图像和文本的单模态表征;

51、所述交叉模态位置约束模块,利用交叉模态位置约束注意力机制对图像模态表征和文本模态表征进行加权约束和融合,整合文本和海洋遥感图像信息,生成交叉模态特征,用于后续图建模;

52、所述语义推理模块,用于构建语义图并进行图语义信息细化,输出预测分类头。

53、与现有技术相比,本发明优点在于:

54、(1)自适应地消除/缓解了噪声干扰。设计了交叉模态位置约束模块,通过跨模态的位置约束注意来整合文本和海洋遥感图像信息,学习互引导下的多模态特征,起到消除歧义和去噪的作用。通过利用有效类信息和交叉注意力,构建一个由类关系约束的更稳定、更准确的鲁棒表征。

55、(2)提高了单模态特征的紧凑性同时扩大了多模态特征的判别性。定义了一个语义图来建模相邻话语之间的关系,并采用了一个基于语义图的推理编码器来捕获全局底层语义,使得模型,对于类内、类间表征具备更敏感的感知。

56、(3)提高了特征的鲁棒性。设计了一个语义推理模块,提取有效的语义特征和上下文信息,包括上下文信息和多模态对象的交互关系;通过位置编码加权加入推理机制,实现了空间位置和多模态特征的交互,引入额外加权的同时,进一步提升了特征的鲁棒性。设计语义信息细化子模块:通过引入拓扑关系监督信息,旨在增强问答系统的对多阶知识的感知,继而增强模型的推理能力。


技术特征:

1.面向遥感视觉问答的位置和语义优化方法,其特征在于,分为文本流和海洋遥感图像流,包括以下步骤:

2.根据权利要求1所述的面向遥感视觉问答的位置和语义优化方法,其特征在于,步骤s21具体如下:xi通过transformer的注意力机制得到单个注意头的注意权值的注意图,并利用这些注意权值计算加权和,得到输出;最后添加一个残差连接和一个层范数,得到单模态表征;

3.根据权利要求1所述的面向遥感视觉问答的位置和语义优化方法,其特征在于,步骤s22中,所述交叉模态位置约束注意力机制通过图像和文本的交叉注意力和类别位置信息加权约束注意力lca实现,其中,类别位置信息加权约束注意力lca通过遥感图像的类别信息sa和位置信息rp运算后获得,具体来说:将遥感图像的类别信息sa和位置信息rp与传统注意力机制的权重矩阵进行元素级乘法,得到最终的注意力权重矩阵,作为类别位置信息加权约束。

4.根据权利要求3所述的面向遥感视觉问答的位置和语义优化方法,其特征在于,步骤s22中,类别信息sa由图像类别和图像中的实体类别决定,位置信息rp由相对位置决定;具体来说:

5.根据权利要求4所述的面向遥感视觉问答的位置和语义优化方法,其特征在于,步骤s22中,图像模态表征和文本模态表征通过交叉模态位置约束注意力机制进行加权约束是通过以下方式实现:首先,和进行互相交叉注意力加权;然后,加权后的表征再通过类别位置信息加权约束注意力lca加权,输出约束后的视觉表征和文本表征,两者相加得到约束后的多模态表征xc;

6.根据权利要求1所述的面向遥感视觉问答的位置和语义优化方法,其特征在于,步骤s3具体如下:

7.根据权利要求6所述的面向遥感视觉问答的位置和语义优化方法,其特征在于,步骤s31具体如下:

8.根据权利要求7所述的面向遥感视觉问答的位置和语义优化方法,其特征在于,步骤s32具体如下:

9.面向遥感视觉问答的位置和语义优化系统,其特征在于,用于实现如权利要求1-8任一项所述的面向遥感视觉问答的位置和语义优化方法,所述系统采用双塔网络的结构,分别为文本流和海洋遥感图像流,包括单模态表征模块、交叉模态位置约束模块和语义推理模块,


技术总结
本发明属于视觉问答技术领域,公开了面向遥感视觉问答的位置和语义优化方法及系统,分为文本流和海洋遥感图像流,包括以下步骤:步骤S1、输入海洋遥感图像和文本;步骤S2、跨模态语境融合:通过交叉模态位置约束注意力机制来整合文本和海洋遥感图像信息,生成交叉模态特征;步骤S3、语义推理:通过语义图Transformer提取语义图Gs中的语义信息,得到最后的细化语义信息;最后输出预测分类头,得到预测答案。通过本发明增强视觉问答系统的对多阶知识的感知,增强推理能力,获得准确的预测结果。

技术研发人员:聂婕,赵恩源,张泽,万紫意,梁馨月,叶敏
受保护的技术使用者:中国海洋大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-22673.html

最新回复(0)