适用极端天气下基于迁移学习的单目相机3D目标检测方法

allin2025-04-27  108


本发明属于计算机视觉和机器学习领域,具体涉及适用极端天气下基于迁移学习的单目相机3d目标检测方法。


背景技术:

1、在恶劣的弱可视天气条件下,雨、雪、雾会遮挡部分视野,导致图像中出现不同形状的遮挡区域。同时,雨、雪、雾在光线照射下会产生反射和散射,增加图像的对比度和亮度变化,导致图像中的物体边缘模糊,降低图像的清晰度和对比度,使得物体识别和跟踪变得更加困难。再者,雨、雪、雾在图像中是动态的,这会干扰运动检测和跟踪算法。因此这些天气条件会引入多种视觉干扰,降低图像质量,从而影响基于视觉的自动驾驶车辆性能。


技术实现思路

1、本发明所为了解决背景技术中存在的技术问题,目的在于提供了适用极端天气下基于迁移学习的单目相机3d目标检测方法,利用机器学习范畴内的域适应迁移学习方法提升相应的单目相机在雨雪雾天气下的3d目标检测效果。

2、为了解决技术问题,本发明的技术方案是:

3、适用极端天气下基于迁移学习的单目相机3d目标检测方法,所述方法包括:

4、s1:获取图像源域source domain数据和目标域target domain数据,构建网络模型,采用resnet-50或resnet-101作为模型的主干网络backbone,以提取基础图像特征;把基础图像特征中下采样倍数最高的抽象特征作为图像的视觉特征,通过深度预测器depthpredictor,结合多层级特征融合方法获得输入图像的深度特征;

5、s2:对输入图像的视觉特征信息和深度特征信息分别通过视觉编码器visualencode和深度编码器depth encode进行编码,得到进一步的视觉特征和深度特征;

6、s3:利用深度交叉注意层depth cross-attention融合目前查询query与深度特征;利用交叉查询自注意力层inter-query self-attention,捕获序列中不同元素间的复杂关系;最后通过视觉交叉注意层visual cross-attention融合视觉特征和上一步生成的目标查询query与深度特征;

7、s4:把查询结果输入到前馈神经网络ffn中,细化特征表示,并输入到头部网络head中,所述头部网络包括至少一个多层感知器mlp,生成目标预测结果;

8、s5:将所述目标预测结果和数据集中的标注真实值输入到损失函数中,更新模型参数,即得到优化后的目标检测模型。

9、进一步,所述图像源域数据包括:cityscapes、nuscenes和kitti数据集;所述目标域数据包括:cityscapes-foggy、nuscenes-c和kitti-c数据集。

10、进一步,所述深度预测器为目标检测提供深度信息支持,通过双线性池化,将不同尺度的三级特征调整到相同的下采样比,并通过逐元素加法进行多尺度特征融合;通过应用两个3×3卷积层进一步提炼深度特征,得到输入图像的深度特征;

11、所述visual encode和depth encode分别采用:一个自注意力层层和一个前馈神经网络ffn层;

12、自注意力层在序列内部建立元素间的依赖关系,捕捉上下文信息;前馈神经网络对每个位置独立应用非线性变换,增强特征表达能力;两者协同提升序列数据的处理效果。

13、进一步,所述深度交叉注意层包括:

14、输入特征:

15、查询特征q:随机初始化的查询特征;深度特征通过深度编码得到的深度特征;

16、线性变换:

17、对查询特征应用线性变换:qq=linear(q);对深度特征应用线性变换,分别得到键和值:

18、计算注意力权重ad:

19、计算查询特征和深度特征的点积,得到的矩阵进行缩放并通过softmax函数:这个过程计算了查询特征和深度特征之间的注意力权重矩阵,c是特征维度,用于缩放以稳定数值计算;

20、计算加权输出q′:

21、使用注意力权重ad对深度特征中的值进行加权求和:q′=linear(advd),通过线性变换将加权求和的结果映射回初始特征空间,得到更新后的查询特征q′。

22、进一步,所述利用交叉查询自注意力层inter-query self-attention,捕获序列中不同元素间的复杂关系;包括:

23、首先,计算注意力分数attention scores:对于序列中的每一对查询即每个输入元素,通过比较它们之间的相似度来计算一个分数;接着,归一化注意力分数normalizeattention scores:使用softmax函数处理之前计算的分数,使得每个查询对其他所有查询的分数之和为1;最后,计算加权和weighted sum:根据归一化后的注意力分数,为每个查询计算一个加权和,这个加权和反映了其他所有查询对当前查询的贡献,从而最终得到更新后的查询特征q″。

24、进一步,所述视觉交叉注意层包括:

25、输入特征:

26、更新后的查询特征q″:从深度交叉注意结果得到的特征;视觉特征通过视觉编码得到的视觉特征;

27、线性变换:

28、对更新后的查询特征应用线性变换:qq″=q″;对视觉特征应用线性变换,分别得到键和值:

29、计算注意力权重av:

30、计算更新后的查询特征和视觉特征的点积,得到的矩阵进行缩放并通过softmax函数:计算了更新后的查询特征和视觉特征之间的注意力权重;

31、计算加权输出q″′:

32、使用注意力权重av对视觉特征中的值进行加权求和:q″=linear(avvv);通过线性变换将视觉特征与查询特征融合,将结果映射回初始特征空间,得到进一步更新的查询特征q″′。

33、进一步,所述前馈神经网络ffn:由两个线性变换层和一个非线性激活函数组成,用于对特征进行细化和非线性变换;

34、所述头部网络head:基于多层感知器multi-layer perceptron,由一个或多个全连接层组成,这些层对输入特征进行非线性变换,以生成目标检测结果。

35、进一步,所述损失函数具体包括:

36、考虑所述模型为端到端网络,所有部分都根据复合loss函数进行联合训练并拟合参数,该函数由以下几部分不同的loss组成:

37、总的loss函数:

38、

39、其中:ngt表示地面实况物体的数量;

40、λ:权重平衡参数,根据训练效果决定,λ8、λ9是平衡主干网络损失和域适应损失的训练权重;

41、图像级域适应损失,域分类器的二进制交叉熵损失:

42、

43、其中:i∈{1,...,n}表示n个训练图像,gi∈{1,0}是第i个训练图像中域标签的基本真实值,1和0分别代表源域和目标域,pi是域分类器的预测;

44、对象级域适应损失,域分类器的二元交叉熵损失:

45、

46、其中:j∈{1,...,m}是第i个图像中检测到的第j个对象,pi,j是第i个图像中第j个区域建议的对象级域分类器的预测,gi,j是源域和目标域的对应二进制真值标签;

47、2d对象损失:

48、l2d=λ1lclass+λ2l2dsize+λ3lxy3d+λ4lgiou

49、具体来说,2d对象损失l2d使用局部损失函数focal loss来估计物体类别,绝对误差损失函数l1损失来估计2d尺寸(l、r、t、b)和投影3d中心(x3d、y3d),泛化的交并比损失函数giou损失来估计对于2d盒子的交并比iou;

50、"l r t b"通常代表四个方向的边界尺寸,具体含义如下:

51、l:left,表示左边界的坐标或距离;

52、r:right,表示右边界的坐标或距离;

53、t:top,表示上边界的坐标或距离;

54、b:bottom,表示下边界的坐标或距离;

55、投影3d中心(x3d、y3d)可以理解为三维空间中某个点的x和y坐标,这个点经过投影变换后在二维平面上的中心位置;

56、focal loss:

57、focalloss(pt)=-αt(1-pt)γlog(pt)

58、pt是模型对于真实类别t预测的概率;

59、αt是平衡正负样本的权重,是超参数;

60、γ是调节易分样本权重的聚焦参数focusing parameter,也是超参数;

61、(1-pt)γ是调整因子,当pt接近1时,即样本分类正确且分类器越自信,这个因子就会减小,导致该样本的损失也随之减小;这样,模型就可以在训练过程中更多地关注那些难以分类或分类错误的样本;

62、l1 loss:

63、

64、i∈{1,...,n}表示n个训练图像,yi是第i个样本的真实值,是模型对第i个样本的预测值,然后求出预测值和真实值之间的差的绝对值,并对所有样本的差的绝对值求平均;

65、giou loss:

66、

67、c是包含a和b的最小凸多边形,通常是一个外接矩形;

68、|c∩(a∪b)|是c与a和b并集的交集面积;

69、|c\(a∪b)|是c中除去a和b并集的部分的面积;

70、3d物体损失:

71、l3d=λ5l3dsize+λ6langle+λ7ldepth

72、具体来说:3d物体损失包括预测3d尺寸(h3d、w3d、l3d)、方向角α和深度;

73、预测深度,利用拉普拉斯算术不确定性损失函数:

74、

75、‖dgt-dpre‖1:这是真实深度值和预测深度值之间的绝对差值(l1范数);l1范数衡量的是两个向量之间的元素级绝对差值之和;

76、这是一个缩放因子,用于根据预测的不确定性σ来调整预测误差的权重;σ越大,预测误差的权重越小;σ越小,预测误差的权重越大;

77、log(σ):这个项用于惩罚高不确定性;当σ较大时,log(σ)的值也会较大,从而增加损失函数的值,促使模型减少不确定性;

78、其中:使用三个深度值的平均值来表示预测的深度dpre;

79、dreg,dgeo,dmap分别代表回归深度(dreg)、几何深度(dgeo)和地图深度(dmap);

80、

81、预测3d尺寸:

82、

83、这是绝对误差损失函数l1 loss基础形式的一种改进形式,s=[h3d、w3d、l3d]是实际测量或估计的三维尺寸,s*是理想或目标的三维尺寸;

84、预测方向角α:

85、假设整个方向角被分为n个bins,每个bin有一个中心角度,模型的任务是预测每个实例的方向角属于哪个bin即分类任务,以及在该bin内的具体角度值即回归任务;考虑12个不重叠的相等bins,loss函数如下:

86、

87、分类:这里αβ都设置为1,用c表示实际的bin索引,p(c)表示模型预测的概率分布,这是一个交叉熵损失,用于评估模型预测的概率分布与实际bin的一致性;

88、回归:假设θ是实际的方向角偏移量,相对于所属bin的中心角度,是模型预测的偏移量,是l1损失,也可以选择其他形式的损失如l2损失;

89、深度图损失:

90、深度图损失采用预测分类前景深度图dfg的focal loss表示;

91、原理和作用:为了将有效的深度信息整合到深度特征中,通过卷积层在深度特征之上预测了前景深度图dfg,仅通过离散的对象深度标签来监督深度图,而没有额外的密集深度注释;通过聚焦对象深度值,网络可以更好地捕捉前景空间结构和对象间深度关系,从而为后续的深度引导变压器生成信息丰富的深度特征;

92、前提:同一2d边界框中的像素被指定为相应对象的相同深度标签,对于多个框内的像素,选择最接近相机的物体的深度标签,这与图像的视觉外观一致;

93、第一步:在这里将深度离散为k+1条柱,其中第一个序数k条柱表示前景深度,最后一个表示背景,并将前景深度值限制在[dmin,dmax]内,把第k个箱中的真值深度设为d;

94、第二步:采用基于dbscan聚类算法的离散化方法,将连续变量的值分为若干类,每类代表一个区间,通过密度聚类来自动确定数据点的簇,从而实现连续数据的离散化,以确定不同的d具体流程为:选择合适的ε和minpts,通过k-距离图并使用肘部法则来选择合适的ε值,minpts选择k+1;然后将dbscan应用到深度数据上,得到每个数据点的簇标签;最后将每个簇分配一个唯一的离散标签,对于噪声点,可选择单独的标签或者将其归为最近的簇。

95、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述中任一项所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法。

96、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述中任一项所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法。

97、与现有技术相比,本发明的优点在于:

98、1.作为一种基于transformer的深度学习网络,本发明可以在不依赖其他信息的基础上,不受非最大抑制(nms)或基于规则的标签分配的影响,只使用对象标签进行监督,而不使用辅助数据,例如密集深度图或激光雷达。

99、2.保持对于不同的天气状态目标检测感知的鲁棒性。


技术特征:

1.适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述图像源域数据包括:cityscapes、nuscenes和kitti数据集;所述目标域数据包括:cityscapes-foggy、nuscenes-c和kitti-c数据集。

3.根据权利要求1所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述深度预测器为目标检测提供深度信息支持,通过双线性池化,将不同尺度的三级特征调整到相同的下采样比,并通过逐元素加法进行多尺度特征融合;通过应用两个3×3卷积层进一步提炼深度特征,得到输入图像的深度特征;

4.根据权利要求1所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述深度交叉注意层包括:

5.根据权利要求1所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述利用交叉查询自注意力层inter-query self-attention,捕获序列中不同元素间的复杂关系;包括:

6.根据权利要求1所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述视觉交叉注意层包括:

7.根据权利要求1所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述前馈神经网络ffn:由两个线性变换层和一个非线性激活函数组成,用于对特征进行细化和非线性变换;

8.根据权利要求1所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法,其特征在于,所述损失函数具体包括:

9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至8中任一项所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1至8中任一项所述的适用极端天气下基于迁移学习的单目相机3d目标检测方法。


技术总结
本发明公开了适用极端天气下基于迁移学习的单目相机3D目标检测方法,利用迁移学习将正常天气和雨雪雾天气数据集中训练,首先获取图像源域和目标域的数据,利用Resnet‑50或Resnet‑101等主干网络提取基础图像特征,并使用深度预测器获取输入图像的深度特征。随后,通过自注意力层和前馈神经网络对图像的视觉信息和深度信息进行编码,得到视觉特征和深度特征。利用深度交叉注意层和视觉交叉注意层融合不同特征,并通过交叉查询自注意力层捕获序列中的复杂关系。将这些关系输入到前馈神经网络细化特征表示,并通过头部网络生成目标预测结果。最后,通过将目标预测结果和数据集标注真实值输入到预设的损失函数中,使得模型在源域和目标域中均取得良好的检测效果。

技术研发人员:李浩宇,孙超,赵跃然,钟佳儒,陈子童,岳超
受保护的技术使用者:北京理工大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-20708.html

最新回复(0)