本技术涉及目标检测,特别是涉及基于深度学习的多源无源领域自适应目标检测方法及系统。
背景技术:
1、在深度学习的背景下,目标检测被定义为定位与分类图像、视频帧、直播画面等媒体资源中存在的物体,其主要目标是检测多媒体资源中属于预定义类别的视觉实例。经典的深度学习目标检测算法被研究人员大致分为两类:两阶段与一阶段目标检测。
2、尽管这些目标检测模型在一些数据集和测试基准上取得了很高的效果,但是在应用到真实世界的应用场景当中时,在应用场景中的典型场景包括多源和无源领域自适应目标检测,由于领域偏移,即源域和目标域的特征分布具有一定的差异,例如光照、纹理、外形等,在源域数据上预训练的模型无法适应由目标域数据组成的测试数据,会导致目标检测模型的性能下降、效率降低等情况,进而导致其在多源和无源领域的场景下无法达到较高的检测精度、应用受限等问题。
3、基于此,亟需一种可以同时应用于无源域适应和多源域适应的目标检测方法。
技术实现思路
1、本技术提供一种基于深度学习的多源无源领域自适应目标检测方法及系统,以解决现有领域自适应目标检测技术无法同时应用于无源域适应和多源域适应的问题。
2、在本技术实施例第一方面提出一种基于深度学习的多源无源领域自适应目标检测方法,所述方法包括:
3、获得基于多个源域图像数据,对基础检测模型进行预训练而得到的多个源域的预训练目标检测模型;
4、获得基于目标域图像数据,对目标域图像数据进行弱增强处理和强增强处理,得到弱增强目标域图像数据和强增强目标域图像数据;
5、基于每个源域的预训练目标检测模型,为每个源域创建一个师生对,一个师生对包含一个教师模型与一个学生模型;
6、将所述弱增强目标域图像数据输入每个源域的教师模型,得到每个源域的教师模型的rpn检测头输出的位置框,以及,将所述强增强目标域图像数据输入每个源域的学生模型,得到每个源域的学生模型的rpn检测头输出的位置框;
7、通过位置框统一模块,对不同源域的教师模型的rpn检测头输出的位置框进行整合,得到整合后的第一位置框,以及,对不同源域的学生模型的rpn检测头输出的位置框进行整合,得到整合后的第二位置框;
8、通过多源概率融合模块,基于所述整合后的第一位置框,得到伪标签;
9、通过基于记忆库的对比学习模块,利用特征质量过滤器,筛选每个源域的学生模型的特征空间、每个类别的高质量的实例级特征,并存储到每个源域的记忆库中,以供不同源域的学生模型进行对比学习,每个源域的记忆库中采用先进先出的方式更新;
10、利用训练后的教师模型和训练后的学生模型,对目标域的待处理图像数据进行目标检测,结合通过训练而得到的权重,得到目标检测结果。
11、在本技术可选的一实施例中,所述通过多源概率融合模块,基于所述整合后的第一位置框,得到伪标签,包括:
12、通过每个源域的教师模型的roi align组件和rcnn检测头,对所述整合后的第一位置框进行处理,得到第一分类预测概率与第一位置框预测结果,以及通过每个源域的学生模型的roi align组件和rcnn检测头,对所述整合后的第二位置框进行处理,得到第二分类预测概率与第二位置框预测结果;
13、通过所述多源概率融合模块,对不同源域的教师模型对应的第一分类预测概率与第一位置框预测结果进行处理,得到所述伪标签。
14、在本技术可选的一实施例中,所述通过所述多源概率融合模块,对不同源域的教师模型对应的第一分类预测概率与第一位置框预测结果进行处理,得到所述伪标签,包括:
15、对所有的第一分类预测概率与第一位置框预测结果进行筛选,基于第一分类预测概率,得到不同源域的教师模型中最大概率对应的第一位置框预测结果,作为当前框;
16、计算每个源域的教师模型得到的第一位置框预测结果与当前框的交并比值,并将交并比值大于预设阈值的第一位置框预测结果作为重合位置框;
17、计算所述重合位置框与所述当前框的交并比值,得到最大交并比值对应的第一位置框预测结果;
18、基于所述当前框和不同源域的多个最大交并比值对应的第一位置框预测结果及其第一分类预测概率,得到一个统一的位置框预测结果和分类预测概率;
19、将所述分类预测概率大于预设置信度的位置框预测结果添加至预测集合中,并将所述当前框和所述重合位置框均删除,重复上述筛选的过程,直至无筛选对象,输出预测集合中的位置框预测结果和分类预测概率,作为所述伪标签。
20、在本技术可选的一实施例中,所述方法还包括:
21、基于所述第二分类预测概率与所述第二位置框预测结果,计算学生模型的rcnn加权预测结果,其中,每个源域的权重在训练过程中不断更新,直至训练结束;
22、使用所述整合后的第二位置框替换所述整合后的第一位置框,在替换后通过每个源域的教师模型的roi align组件和rcnn检测头,对所述整合后的第二位置框进行处理,得到第三分类预测概率与第三位置框预测结果;
23、基于所述第三分类预测概率与所述第三位置框预测结果,计算教师模型的rcnn加权预测结果。
24、在本技术可选的一实施例中,训练后的教师模型和训练后的学生模型所使用的损失至少包括对比损失,所述对比损失是按照以下步骤得到的:
25、通过特征质量过滤器,筛选每个源域的学生模型的特征空间、每个类别的高质量的实例级特征,并存储到每个源域的记忆库中;
26、基于不同源域的记忆库中的特征计算对比损失。
27、在本技术可选的一实施例中,训练后的教师模型和训练后的学生模型所使用的损失至少包括一致性损失,所述一致性损失是按照以下步骤得到的:
28、计算每个源域的学生模型的rcnn加权预测结果与教师模型的rcnn加权预测结果的kl散度,得到一致性损失。
29、在本技术可选的一实施例中,训练后的教师模型和训练后的学生模型所使用的损失至少包括信息最大化损失,所述信息最大化损失是按照以下步骤得到的:
30、利用每个源域的学生模型的rcnn加权预测结果,计算得到信息最大化损失。
31、在本技术可选的一实施例中,训练后的教师模型和训练后的学生模型所使用的损失至少包括检测损失,所述检测损失是按照以下步骤得到的:
32、基于每个源域的伪标签,整合后的第二位置框及其对应的分类概率,第二分类预测概率与第二位置框预测结果,计算检测损失,所述检测损失包括rpn分类损失、rpn回归损失、rcnn分类损失和rcnn回归损失。
33、在本技术实施例第二方面提出一种基于深度学习的多源无源领域自适应目标检测系统,所述系统包括:
34、预训练模块,用于获得基于多个源域图像数据,对基础检测模型进行预训练而得到的多个源域的预训练目标检测模型;
35、图像增强处理模块,用于获得基于目标域图像数据,对目标域图像数据进行弱增强处理和强增强处理,得到弱增强目标域图像数据和强增强目标域图像数据;
36、师生对创建模块,用于基于每个源域的预训练目标检测模型,为每个源域创建一个师生对,一个师生对包含一个教师模型与一个学生模型;
37、位置框获取模块,用于将所述弱增强目标域图像数据输入每个源域的教师模型,得到每个源域的教师模型的rpn检测头输出的位置框,以及,将所述强增强目标域图像数据输入每个源域的学生模型,得到每个源域的学生模型的rpn检测头输出的位置框;
38、整合位置框获取模块,用于通过位置框统一模块,对不同源域的教师模型的rpn检测头输出的位置框进行整合,得到整合后的第一位置框,以及,对不同源域的学生模型的rpn检测头输出的位置框进行整合,得到整合后的第二位置框;
39、伪标签获取模块,用于通过多源概率融合模块,基于所述整合后的第一位置框,得到伪标签;
40、对比学习模块,用于通过基于记忆库的对比学习模块,利用特征质量过滤器,筛选每个源域的学生模型的特征空间、每个类别的高质量的实例级特征,并存储到每个源域的记忆库中,以供不同源域的学生模型进行对比学习,每个源域的记忆库中采用先进先出的方式更新;
41、目标检测模块,用于利用训练后的教师模型和训练后的学生模型,对目标域的待处理图像数据进行目标检测,结合通过训练而得到的权重,得到目标检测结果。
42、在本技术实施例第三方面提出一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述第一方面中任一项所述的基于深度学习的多源无源领域自适应目标检测方法。
43、本技术包括以下优点:本技术提供一种基于深度学习的多源无源领域自适应目标检测方法及系统,通过获得基于多个源域图像数据,对基础检测模型进行预训练而得到的多个源域的预训练目标检测模型;获得基于目标域图像数据,对目标域图像数据进行弱增强处理和强增强处理,得到弱增强目标域图像数据和强增强目标域图像数据;基于每个源域的预训练目标检测模型,为每个源域创建一个师生对,一个师生对包含一个教师模型与一个学生模型;将所述弱增强目标域图像数据输入每个源域的教师模型,得到每个源域的教师模型的rpn检测头输出的位置框,以及,将所述强增强目标域图像数据输入每个源域的学生模型,得到每个源域的学生模型的rpn检测头输出的位置框;通过位置框统一模块,对不同源域的教师模型的rpn检测头输出的位置框进行整合,得到整合后的第一位置框,以及,对不同源域的学生模型的rpn检测头输出的位置框进行整合,得到整合后的第二位置框;通过多源概率融合模块,基于所述整合后的第一位置框,得到伪标签;通过基于记忆库的对比学习模块,利用特征质量过滤器,筛选每个源域的学生模型的特征空间、每个类别的高质量的实例级特征,并存储到每个源域的记忆库中,以供不同源域的学生模型进行对比学习,每个源域的记忆库中采用先进先出的方式更新;利用训练后的教师模型和训练后的学生模型,对目标域的待处理图像数据进行目标检测,结合通过训练而得到的权重,得到目标检测结果。通过多源师生对、位置框统一模块和多源概率融合模块、基于记忆库的对比学习模块,以模拟多种真实世界环境下的多源领域偏移环境下,模型在经过训练后达到了最佳性能,能够有效地在真实世界中的域适应以及多源无源领域挑战下提升目标检测模型的性能,提升目标检测模型在真实世界环境下的泛化性能。
1.一种基于深度学习的多源无源领域自适应目标检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于深度学习的多源无源领域自适应目标检测方法,其特征在于,所述通过多源概率融合模块,基于所述整合后的第一位置框,得到伪标签,包括:
3.根据权利要求2所述的基于深度学习的多源无源领域自适应目标检测方法,其特征在于,所述通过所述多源概率融合模块,对不同源域的教师模型对应的第一分类预测概率与第一位置框预测结果进行处理,得到所述伪标签,包括:
4.根据权利要求2所述的基于深度学习的多源无源领域自适应目标检测方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的基于深度学习的多源无源领域自适应目标检测方法,其特征在于,训练后的教师模型和训练后的学生模型所使用的损失至少包括对比损失,所述对比损失是按照以下步骤得到的:
6.根据权利要求1所述的基于深度学习的多源无源领域自适应目标检测方法,其特征在于,训练后的教师模型和训练后的学生模型所使用的损失至少包括一致性损失,所述一致性损失是按照以下步骤得到的:
7.根据权利要求1所述的基于深度学习的多源无源领域自适应目标检测方法,其特征在于,训练后的教师模型和训练后的学生模型所使用的损失至少包括信息最大化损失,所述信息最大化损失是按照以下步骤得到的:
8.根据权利要求2所述的基于深度学习的多源无源领域自适应目标检测方法,其特征在于,训练后的教师模型和训练后的学生模型所使用的损失至少包括检测损失,所述检测损失是按照以下步骤得到的:
9.一种基于深度学习的多源无源领域自适应目标检测系统,其特征在于,所述系统包括:
10.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8中任一项所述的基于深度学习的多源无源领域自适应目标检测方法。
