一种多模态特征融合目标检测模型及检测方法

allin2026-03-04 42

本发明涉及特征融合目标检测模型及检测方法，具体涉及一种基于yolov8s的多模态特征融合目标检测模型及检测方法。

背景技术：

1、遥感技术能够获取多种类型的图像，包括可见光图像、红外图像、雷达图像和高光谱图像等。然而，由于光照、大气、地形和目标尺寸等多种因素的影响，单一类型的图像往往难以提供准确的预测结果，限制了其应用效果。为了克服这些限制，研究者们开始探索使用不同谱段的图像进行信息融合，以实现优势互补，从而在各种复杂环境下（如夜晚、雾天、遮挡等）有效进行目标检测。

2、红外图像和可见光图像由于能够呈现物体的不同特征且易于获取，常被用于图像融合研究。红外探测器可以检测物体的热辐射信息，适用于发现隐蔽目标，且具有全天候、全时段工作的能力，但其图像分辨率较低，相对模糊，缺乏颜色和纹理信息。可见光探测器能够提供丰富的颜色和纹理细节，但易受光照和天气等环境因素的干扰。因此，如何有效地融合红外图像和可见光图像，以获得更多信息，是当前的重要研究方向。

技术实现思路

1、本发明的目的是解决现有目标检测中单一模态的可见光图像或红外图像无法有效地获取图像中目标信息，从而无法提供准确的预测结果的不足之处，而提供一种多模态特征融合目标检测模型及检测方法。

2、为了解决上述现有技术所存在的不足之处，本发明提供了如下技术解决方案：

3、一种多模态特征融合目标检测模型，其特殊之处在于：包括提取分支网络backbone1、提取分支网络backbone2、三个多模态特征融合模块，以及输出输入依次连接的融合特征提取模块和目标预测模块；

4、所述提取分支网络backbone1用于从可见光图像中提取低层次、中层次、高层次的可见光图像特征；所述提取分支网络backbone2用于从红外图像中提取低层次、中层次、高层次的红外图像特征；

5、每个所述多模态特征融合模块用于将同一层次的可见光图像特征和红外图像特征划分为初始相似特征和初始特定特征，并对初始相似特征进行去冗余处理得到相似特征，对初始特定特征进行去冗余且加强特征处理得到特定特征，然后对相似特征和特定特征进行逐元素求和输出对应层次的多模态融合特征；

6、所述融合特征提取模块用于上采样高层次的多模态融合特征并与中层次的多模态融合特征拼接，提取和融合拼接后的特征输出特征a，对特征a上采样后与低层次的多模态融合特征拼接，进一步提取和融合拼接后的特征输出第一特征至目标预测模块；并且用于对第一特征进行卷积、批归一化和激活操作，与特征a进行拼接，然后经过特征提取和融合后输出第二特征至目标预测模块；以及用于对第二特征进行卷积、批归一化和激活操作，与高层次的多模态融合特征进行拼接，然后经过特征提取和融合后输出第三特征至目标预测模块；

7、所述目标预测模块用于根据第一特征、第二特征和第三特征，得到预测结果，预测结果包括目标的边界框、类别和置信度。

8、进一步地，所述提取分支网络backbone1和提取分支网络backbone2结构相同，均包括输出输入依次连接的cbs(convolution + batch normalization + activationfunction，卷积 + 批归一化 + 激活函数)、cbs、c2f(csp（cross stage partial）bottleneck with 2 fusion，带有 2 次融合的 csp（跨阶段部分网络）瓶颈结构)、cbs、c2f、cbs、c2f、cbs、c2f、sppf(spatial pyramid pooling – fast，快速空间金字塔池化)。

9、进一步地，所述多模态特征融合模块包括特征划分部分、第一注意力模块、第二注意力模块和融合部分p4；所述特征划分部分p1的输出端分别连接第一注意力模块、第二注意力模块的输入端，第一注意力模块、第二注意力模块的输出端均连接融合部分的输入端；

10、所述特征划分部分的工作原理如下：

11、步骤a1、通过特征划分部分计算第层可见光图像特征和红外图像特征的第个通道之间余弦相似度，如下：

12、

13、其中，表示第层特征中的第个通道，表示第个通道中的第个像素，取值为1~，表示第层得到的可见光图像特征的第个通道中第个像素的值，表示第层得到的红外图像特征的第个通道中第个像素的值；余弦相似度取值为[-1,1]；

14、步骤a2、通过计算第层每个通道的余弦相似度，生成一个相似度矩阵c；

15、步骤a3、在提取初始相似特征时，将相似度矩阵c中大于0的值全都置为1，小于等于0的值全都置为0，得到新的相似度矩阵，将相似度矩阵分别与原始输入的可见光图像特征和红外图像特征相乘得到的初始相似特征和初始相似特征，公式如下：

16、

17、；

18、在提取初始特定特征时，将相似度矩阵c中大于0的值全都置为0，小于0的值全都置为1，得到新的相似度矩阵，将相似度矩阵分别与原始输入的可见光图像特征和红外图像特征相乘得到初始特定特征和初始特定特征，公式如下：

19、

20、；

21、所述第一注意力模块用于对初始相似特征和初始相似特征进行去冗余处理，输出相似特征至融合部分；

22、所述第二注意力模块用于对初始特定特征进行去冗余且加强特征处理，输出特定特征至融合部分；

23、所述融合部分用于对相似特征和特定特征进行逐元素求和，输出对应层次的多模态融合特征。

24、进一步地，所述融合特征提取模块包括第一上采样模块、第二上采样模块、第一拼接模块、第二拼接模块、第三拼接模块、第四拼接模块、第一c2f模块、第二c2f模块、第三c2f模块、第四c2f模块、第一cbs模块、第二cbs模块；

25、其中一个所述多模态特征融合模块的融合部分的输出端分别连接第一上采样模块的输入端和第四拼接模块的第一输入端，用于输出高层次的多模态融合特征；另外两个多模态特征融合模块的融合部分的输出端分别连接第一拼接模块的第一输入端和第二拼接模块的第一输入端，分别用于输出中层次、低层次的多模态融合特征；所述第一上采样模块的输出端连接第一拼接模块的第二输入端，第一拼接模块的输出端连接第一c2f模块的输入端，第一c2f模块的第一输出端和第二输出端分别连接第二上采样模块的输入端和第三拼接模块的第一输入端，均用于输出特征a；

26、所述第二上采样模块的输出端连接第二拼接模块的第二输入端，第二拼接模块的输出端连接第二c2f模块的输入端，第二c2f模块的输出端分别连接目标预测模块的第一输入端和第一cbs模块的输入端，用于输出第一特征；

27、所述第一cbs模块的输出端连接第三拼接模块的第二输入端，第三拼接模块的输出端连接第三c2f模块的输入端，第三c2f模块用于输出第二特征，其第一输出端连接目标预测模块的第二输入端，其第二输出端通过第二cbs模块连接第四拼接模块的第二输入端，第四拼接模块的输出端通过第四c2f模块连接目标预测模块的第三输入端，第四c2f模块用于输出第三特征。

28、一种多模态特征融合目标检测方法，其特殊之处在于，包括以下步骤：

29、步骤1、获取可见光图像和相应的红外图像，构建训练集、验证集和测试集；

30、步骤2、构建上述多模态特征融合目标检测模型；

31、步骤3、利用步骤1得到的训练集和验证集对步骤2的多模态特征融合目标检测模型进行训练，得到训练完成的多模态特征融合目标检测模型；

32、步骤4、利用步骤1得到的测试集测试步骤3训练完成的多模态特征融合目标检测模型的泛化性能；若满足预设标准，则执行步骤5，否则返回步骤3；所述预设标准为准确率、精确率、召回率、f1-score和平均精度均值中的多个满足阈值；

33、步骤5、将待检测的可见光图像和红外图像输入步骤3训练完成的多模态特征融合目标检测模型，得到预测结果，完成多模态图像特征融合目标检测。

34、进一步地，所述步骤3具体为：

35、步骤3.1、设置模型的参数，包括初始学习率（lr0）、权重衰减(weight decay)、优化器、动量(momentum)、批量大小(batch size)、图像尺寸(image size)、总训练周期(total epochs)；

36、步骤3.2、加载训练集和验证集并进行预处理和数据增强；

37、步骤3.3、将步骤1得到的训练集输入步骤2的多模态特征融合目标检测模型进行前向传播，得到输出特征，根据输出特征和真实标签，计算损失值；根据损失值，计算模型参数的梯度；根据梯度和优化器，更新模型参数；在每个训练周期结束后，采用验证集验证模型的精度；直至达到终止条件，得到训练完成的多模态特征融合目标检测模型；

38、所述终止条件为达到总训练周期，或触发早停机制；

39、所述早停机制为：如果精度在若干个训练周期内不再上升，则触发早停机制，停止训练；所述精度包括准确率、精确率、召回率、f1-score和平均精度均值。与现有技术相比，本发明的有益效果是：

40、（1）本发明一种多模态特征融合目标检测模型，包括提取分支网络backbone1、提取分支网络backbone2、三个多模态特征融合模块、融合特征提取模块和目标预测模块；本发明分别提取低层次、中层次、高层次的可见光图像特征和红外图像特征，并通过多模态特征融合模块处理同一层次的可见光图像特征和红外图像特征，再通过融合特征提取模块进行处理，最后通过目标预测模块完成目标检测；本发明从低层次、中层次和高层次提取特征，并通过多次上采样和拼接融合，能够更全面地描述目标，提升检测效果，并使模型在复杂环境下表现更为稳定。

41、（2）本发明一种多模态特征融合目标检测方法，通过融合可见光和红外图像特征以捕捉更多的信息，从而提高检测精度；本发明方法的map50(mean average precision atiou=0.50，交并比阈值为0.50时平均精度的均值)和map50-95（(mean average precisionat iou=0.50 to 0.95，交并比阈值从0.50到0.95（步长为0.05）之间，平均精度的均值）分别达到了0.792和0.487，均优于其他对比方法。

技术特征：

1.一种多模态特征融合目标检测模型，其特征在于：包括提取分支网络backbone1、提取分支网络backbone2、三个多模态特征融合模块(2)，以及输出输入依次连接的融合特征提取模块(3)和目标预测模块(4)；

2.根据权利要求1所述的一种多模态特征融合目标检测模型，其特征在于：

3.根据权利要求1或2所述的一种多模态特征融合目标检测模型，其特征在于：

4.根据权利要求3所述的一种多模态特征融合目标检测模型，其特征在于：

5.一种多模态特征融合目标检测方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的一种多模态特征融合目标检测方法，其特征在于：

技术总结
本发明涉及特征融合目标检测模型及检测方法，具体涉及一种多模态特征融合目标检测模型及检测方法，用于解决现有目标检测中单一模态的可见光图像或红外图像无法有效地获取图像中目标信息，从而无法提供准确的预测结果的不足之处。该多模态特征融合目标检测模型及检测方法包括分别从低层次、中层次和高层次提取特征，并通过多次上采样和拼接融合，能够更全面地描述目标，提升检测效果，并使模型在复杂环境下表现更为稳定。

技术研发人员：郭惠楠,孙聪颖,张能双
受保护的技术使用者：中国科学院西安光学精密机械研究所
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-27170.html

专利

最新回复(0)