用于图像分割的基于文本的贝叶斯零样本域适应训练方法

allin2025-04-18  18


本发明属于计算机视觉中的零样本域适应领域。


背景技术:

1、自动驾驶技术的发展迅速,但其应用环境中的路况复杂多变,给技术的实际应用带来了巨大的挑战。在真实的驾驶场景中,车辆可能会遇到各种复杂的路况和交通情况,包括但不限于夜间驾驶、雨雪天气、乡村道路、城市高峰期交通等。这些情况不仅增加了自动驾驶系统的难度,也对其感知、决策和控制能力提出了更高的要求。

2、然而,尽管自动驾驶系统在常见路况下表现优异,但在一些罕见场景中却可能表现不佳。这些罕见场景的数据往往难以收集,因为它们发生的频率低,且涉及的场景复杂多变。例如,极端天气条件下的驾驶数据、特定地理位置的交通状况数据等,这些数据往往需要大量的人力和物力进行采集和标注,成本高昂且效率低下。这种情况下,如何在没有足够数据的条件下,提升自动驾驶系统在这些罕见场景中的表现,成为了一个亟待解决的问题。

3、为了解决这一问题,零样本域适应(zero-shot domain adaptation,zsda)方法逐渐受到研究人员的关注。零样本域适应方法的核心思想是,通过构建一个能够在未见过的数据域中也能表现良好的模型,使其能够在缺乏特定场景数据的情况下,对于目标域的数据依然具备较高的泛化能力。这一方法的优势在于,它不需要对目标域数据,降低了数据采集和标注的成本,从而提升自动驾驶系统在复杂场景中的表现。

4、现有的zsda方法主要集中在优化经验风险最小化(empirical riskminimization,erm)目标上。erm目标旨在通过最小化模型在训练数据上的误差,来提升模型的整体性能。然而,这种方法通常依赖于离散的提示词(prompt),即通过为模型提供一些特定的、离散的提示信息,来引导其在未见过的数据域中进行预测。尽管这种方法在某些情况下表现良好,但在面对复杂的目标域时,其效果往往不尽如人意。具体为:

5、首先,离散提示词的方法难以捕获目标域的复杂性。自动驾驶场景中的罕见情况往往具有高度的复杂性和多样性,简单的离散提示词难以全面地描述这些情况。例如,在夜间驾驶的情况下,光线条件、交通状况、路面情况等因素都会对驾驶安全产生重要影响,而这些因素之间的相互作用复杂多变,单一的提示词无法全面覆盖。这导致模型在面对这些复杂情况时,容易出现预测偏差,降低了其性能。

6、其次,基于erm的方法在优化过程中通常会受到训练数据的影响,容易产生过拟合现象,即模型在训练数据上表现良好,但在未见过的数据域中表现不佳。这进一步限制了其在自动驾驶场景中的应用。

7、综上,现有的零样本域适应方法(zsda方法)主要集中于优化经验风险最小化目标,通常依赖于基于有限提示的离散增强训练,难以充分捕捉目标域的复杂性,从而削弱了迁移模型的有效性,以上问题亟需解决。


技术实现思路

1、本发明目的是为了解决现有的零样本域适应方法主要集中于优化经验风险最小化目标,通常依赖于基于有限提示的离散增强训练,难以充分捕捉目标域的复杂性,从而削弱了迁移模型的有效性的问题;本发明提供了一种用于图像分割的基于文本的贝叶斯零样本域适应训练方法。

2、用于图像分割的基于文本的贝叶斯零样本域适应训练方法,该方法包括如下步骤:

3、从贝叶斯的角度考虑图像分割任务下域适应相关模型的参数的学习过程,具体为:通过可学习分布对源域图像和目标域图像之间的残差进行概率性建模,得到残差分布模型用于域适应;残差分布模型和语义分割头构成图像分割模型;所述残差分布模型中包括t个不同文本描述的残差分布;

4、第一训练阶段对残差分布模型训练:

5、设置残差分布模型的优化目标、及构建第一训练阶段损失后,基于监督给定的n个标注数据对残差分布模型训练;

6、第二训练阶段对残差分布模型和语义分割头同时训练:

7、构建第二训练阶段损失基于利用给定的n个标注数据对残差分布模型和语义分割头进行训练,从而完成对图像分割模型的训练。

8、优选的是,n个标注数据中,xi为第i个输入数据,ii为第i个源域图像,yi为第i个语义标注后的源域图像真值,r*是理论最优的残差分布,为由t个目标域图像文本描述构成的集合,ps为源域图像文本描述;

9、残差分布模型中每个残差分布的优化目标r*为:

10、

11、p(yi|xi,rj)为在rj和标注数据xi约束的前提下yi的条件概率,为以xi,yi为随机变量的数学期望,rj为从第j个残差分布采样出来的l个特征的集合,且每个特征为目标域图像特征与对应的源域图像特征间的残差,j=1,2,……t。

12、优选的是,

13、其中,为距离损失,为与分布优化相关的损失。

14、优选的是,

15、其中,λ为权重,为交叉熵损失和骰子损失之和,为kl散度,dφ(rj)为rj服从标准正态分布,dγ(rj)为rj服从可学习的高斯分布,j=1,2,……t。

16、优选的是,

17、

18、为对比损失,为kl散度,dφ(rj)为rj服从标准正态分布,dγ(rj)为rj服从可学习的高斯分布,j=1,2,……t。

19、优选的是,

20、

21、为和间的余弦损失,vs为源域图像的深层特征,为利用残差分布合成的目标域图像深层特征集合,为利用vs与文本描述特征合成的目标域图像深层特征,|| ||1为曼哈顿距离,|| ||2为欧氏距离。

22、优选的是,

23、

24、

25、

26、rj~dγ(rj);

27、其中,为将文本描述特征编码为特征向量,为t个目标域的文本描述特征构成的集合,为源域的文本描述特征,为对f进行深层特征提取,f为源域图像的浅层特征,r为r1至rt构成的集合。

28、优选的是,

29、

30、其中,τ为温度系数,为中第i个利用残差分布合成的目标域图像深层特征,为中第i个目标域的文本描述特征,为中第k个目标域的文本描述特征。

31、优选的是,基于监督给定的n个标注数据对残差分布模型训练的具体过程包括:

32、a1、通过图像浅层特征提取器对各输入数据xi进行浅层特征提取,得到源域图像浅层特征f;

33、a2、通过残差分布模型获取rj,表示均值为μj、方差为σj的高斯分布;

34、a3、将r1至rt分别与f相加后送入图像深层特征提取器进行深层特征提取,得到利用残差分布合成的目标域图像深层特征集合

35、将f送入图像深层特征提取器进行深层特征提取,得到源域图像的深层特征vs;

36、a4、通过文本编码器对ps进行编码,得到源域的文本描述特征通过文本编码器对进行编码,得到t个目标域的文本描述特征构成的集合

37、a5、通过中的监督和之间的余弦距离,中的监督和之间的特征相似程度、以及监督dφ(rj)和dγ(rj)之间的相似程度,来更新残差分布模型的参数,实现对残差分布模型的训练。

38、优选的是,基于利用给定的n个标注数据对残差分布模型和语义分割头进行训练的具体过程为:

39、b1、通过图像浅层特征提取器对各输入数据xi进行浅层特征提取,得到源域图像浅层特征f;

40、b2、通过残差分布模型获取rj,表示均值为μj、方差为σj的高斯分布;

41、b3、将r1至rt分别与f相加后送入图像深层特征提取器进行深层特征提取,得到利用残差分布合成的目标域图像深层特征集合

42、b4、通过语义分割头对利用残差分布合成的目标域图像深层特征集合进行预测,预测出各标注数据xi所对应的分割结果,通过监督各标注数据xi所对应的分割结果与语义标注后的源域图像真值yi之间差值,更新残差分布模型和语义分割头的参数,实现对残差分布模型和语义分割头的训练。

43、本发明带来的有益效果是:

44、本发明框架由主要由残差分布模型、语义分割头、第一训练阶段损失第二训练阶段损失构成。可训练的残差分布模型表示为正态分布,其均值与方差通过网络反向传播学习。整个残差分布模型通过基于文本描述的损失函数端到端训练,该损失更准确地对齐了学习分布与目标域和源域之间的实际残差分布,高效地让模型适应了目标域图片,提升了模型在目标域的性能。

45、本发明提出了用于图像分割的基于文本的贝叶斯零样本域适应训练方法(progba),该方法从贝叶斯角度将零样本域适应中的参数的学习过程视为变分推理问题。通过对源域和目标域之间的残差进行概率性的建模,引入与域间隙相关的不确定性,进而减少了模型对特定权重的依赖,从而提高模型在目标域的性能。具体来说,本发明通过对源域和目标域之间的残差进行概率性的建模,得到残差分布模型。该残差分布模型经过第一训练阶段损失与第二训练阶段损失监督训练后,实现了对源域特征和目标域特征之间的残差的特征空间的有效覆盖。例如,从与文本描述“雨天驾驶”对应的残差分布进行采样,可以得到与不同降水量对应的残差特征,例如“大雨”、“中雨”、“小雨”,而现有技术中基于经验风险最小化目标训练的域适应方法对于“雨天驾驶”的文本描述只能得到一种降水量对应的残差特征。

46、在第二阶段训练时,本发明利用贝叶斯方法的正则化能力来优化域适应表示空间。即与源域图像的浅层特征f相加的残差特征是通过在残差分布rj随机采样获得,这种带有噪声的随机采样在第二阶段训练过程中引入与域间隙相关的不确定性,进而减少了模型对特定权重的依赖,有助于缓解图像分割模型过拟合风险,从而提高模型在目标域的性能。

47、本发明方法的核心在于两项主要创新:

48、首先,将从源域到目标域的域迁移建模为概率分布,而不是固定的离散变化。这种建模方式通过捕捉域迁移的随机性和不确定性,降低了过拟合的风险,使得模型能够更广泛地适应不同域之间的变化,进而提升了模型的泛化能力。在实际应用中,这意味着模型能够更有效地处理未见过的目标域,表现出更强的鲁棒性。

49、其次,本发明提出了一种基于变分下界(evidence lower bound,elbo)的新型损失函数该损失函数促进可学习的残差分布紧密逼近实际的域间隙,从而在优化过程中更准确地反映域之间的关系。通过这种方式,模型在训练过程中能够有效地捕捉域间隙并适应目标域,从而实现更高效的零样本域适应。


技术特征:

1.用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,n个标注数据中,xi为第i个输入数据,ii为第i个源域图像,yi为第i个语义标注后的源域图像真值,r*是理论最优的残差分布,为由t个目标域图像文本描述构成的集合,ps为源域图像文本描述;

3.根据权利要求2所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,

4.根据权利要求2所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,

5.根据权利要求3所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,

6.根据权利要求3所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,

7.根据权利要求6所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,

8.根据权利要求5所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,

9.根据权利要求6所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,基于监督给定的n个标注数据对残差分布模型训练的具体过程包括:

10.根据权利要求2所述的用于图像分割的基于文本的贝叶斯零样本域适应训练方法,其特征在于,基于利用给定的n个标注数据对残差分布模型和语义分割头进行训练的具体过程为:


技术总结
用于图像分割的基于文本的贝叶斯零样本域适应训练方法,属于计算机视觉中的零样本域适应领域。解决了现有的零样本域适应方法主要集中于优化经验风险最小化目标,通常依赖于基于有限提示的离散增强训练,难以充分捕捉目标域的复杂性,从而削弱了迁移模型的有效性的问题。本发明从贝叶斯角度将零样本域适应中的参数的学习过程视为变分推理问题,具体通过对源域和目标域之间的残差进行概率性的建模,引入与域间隙相关的不确定性,进而减少了模型对特定权重的依赖,从而提高模型在目标域的性能。本发明主要用于对图像进行语义分割。

技术研发人员:杨光磊,邹建,杨大成,蒋孝渊,左旺孟
受保护的技术使用者:哈尔滨工业大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-20382.html

最新回复(0)