本发明涉及计算机视觉和深度学习领域,特别是涉及一种基于重建特征和双重知识蒸馏的目标检测方法及其系统。
背景技术:
1、近年来,随着计算机算力的不断提升,深度学习在各个领域取得了令人瞩目的成果。特别是在计算机视觉领域,基于卷积神经网络(cnn)构建的模型在图像分类、目标检测和语义分割等方面得到了广泛应用。得益于强大的计算能力和深度学习算法的进步,这些模型在准确性和效率方面显著提高,推动了人工智能技术在现实世界中的应用和发展。
2、目前,深度模型的性能不断提升,但随之而来的是模型参数量和计算量的不断增加,这使得这些高性能模型难以在算力资源受限的环境中完成任务,甚至无法部署在边缘设备上。为了应对这一挑战,一些学者致力于研究模型压缩技术。目前,主流的模型压缩方法有网络剪枝、参数量化、知识蒸馏、低秩分解等,这些模型压缩技术在提升深度模型在资源受限环境中的应用可行性方面发挥了重要作用,使得高性能模型能够在边缘设备和实时应用中得到更广泛的部署和应用。
3、知识蒸馏通过将强大但复杂的教师模型教师的知识传递给较小的学生模型,在不增加额外成本的前提下提升学生模型的性能,实现压缩模型的目的。近年来,随着对知识蒸馏研究的深入,出现了许多高效的方法。现有的知识蒸馏方法根据知识的类型可以分为基于响应的知识蒸馏、基于特征的知识蒸馏和基于关系的知识蒸馏。
4、在对目标检测模型的知识蒸馏中,文献《focal and global knowledgedistillation for detectors》中,对于前景和背景的不平衡,设置二进制掩码来分离前背景,但是该方法中的掩码是非零即一的,无法让学生专注于教师认为重要的特征像素,导致细节信息丢失。文献《frequencyattention for knowledge distillation》探索傅里叶频域上的知识蒸馏,通过全局滤波器和理想高通滤波器调整学生特征的频率,但是理想高通滤波器阻止了1%的最低频率通过,导致信息丢失。此外,没有关注通道权重信息,导致全局关系信息的丢失。
5、因此亟需提供一种新型的基于重建特征和双重知识蒸馏的目标检测方法及其系统来解决上述问题。
技术实现思路
1、本发明所要解决的技术问题是提供一种基于重建特征和双重知识蒸馏的目标检测方法及其系统,能够提升学生模型的表征能力,使学生模型既关注细节信息,又不丢失全局关系信息。
2、为解决上述技术问题,本发明采用的第一个技术方案是:提供一种基于重建特征和双重知识蒸馏的目标检测方法,包括以下步骤:
3、s1:构建并训练教师模型至收敛,保存最佳模型的参数;
4、s2:构建并初始化学生模型;
5、s3:经过所述学生模型提取不同层次的学生特征图,将学生特征图从空间域转换到频域,设计选择性高通滤波器,重建学生模型特征图;
6、s4:利用教师模型特征图和重建后的学生模型特征图,构建频域蒸馏和全局关系蒸馏,并构建相应的损失函数,频域蒸馏和全局关系蒸馏的损失函数均基于计算教师特征图和学生特征图之间的l2距离;频域蒸馏旨在使学生模型更多地关注特征图中地细节信息,全局关系蒸馏则是让学生模型从教师模型中提取不同像素之间的全局关系信息;
7、s5:结合频域蒸馏和全局关系蒸馏构建双重知识蒸馏损失函数,最小化总的知识蒸馏损失函数,保留最佳训练参数;
8、s6:将待检测图像数据输入到训练好的学生模型中,进行回归预测。
9、在本发明一个较佳实施例中,在步骤s3中,将学生特征图从空间域转换到频域的具体步骤包括:
10、s301:使用快速傅里叶变换(fft)作为空间频率变换函数,将学生特征图从空间域转换到频域,得到频域特征图,所述快速傅里叶变换用于特征图每个通道,公式如下:
11、
12、其中,表示频域坐标,表示空间域特征像素的坐标值,h,w分别表示特征图的高度和宽度,表示第个通道;
13、s302:对学生模型频域特征图进行频谱中心化处理,将低频分量和零频分量移至频域特征图中间,将高频分量移至频域特征图四周,即频域特征图最中间部分的频率是零,得到频谱中心化处理后的学生模型频域特征图。
14、在本发明一个较佳实施例中,在步骤s3中,选择性高通滤波器被定义为:
15、
16、其中,是截止频率,决定了在频域中高频成分开始被保留的频率;是滤波器阶数,阶数决定了滤波器的陡峭度;是某个位置频域点到频域中心的距离。
17、在本发明一个较佳实施例中,在步骤s3中,重建学生模型特征图的具体步骤包括:
18、s311:通过将选择性高通滤波器与频域特征图相乘,得到进一步突出高频信息的学生频域特征图,选择性高通滤波器分别应用于每个通道,公式如下:
19、
20、s312:得到增强高频分量而抑制低频分量后的学生频域特征图后,利用快速傅里叶逆变换(ifft)将频域特征图转换回到空间域特征图,公式如下:
21、
22、其中,h,w分别表示特征图的高度和宽度,表示第个通道;
23、s313:使用自适应层将频率增强的学生特征图上采样得到,表示为:
24、
25、其中表示自适应层。
26、在本发明一个较佳实施例中,在步骤s4中,构建频域蒸馏及其损失函数的步骤包括:
27、利用教师模型特征图对学生模型特征图进行监督,使用l2距离作为频域蒸馏的损失函数,表示为:
28、
29、其中,表示平衡频域蒸馏损失函数的超参数,表示中间特征蒸馏层数,c、h和w分别表示特征图的通道、高度和宽度。
30、在本发明一个较佳实施例中,在步骤s4中,构建全局关系蒸馏及其损失函数的步骤包括:
31、对教师模型特征图和学生模型特征图分别进行全局关系提取,经过全局关系提取后的学生模型特征图模仿全局关系提取后的教师模型特征图的全局关系知识,使用l2距离作为全局关系蒸馏的损失函数,表示为:
32、
33、其中,表示平衡全局关系蒸馏损失函数的超参数,表示中间特征蒸馏层数,c、h和w分别表示特征图的通道、高度和宽度,表示全局关系提取过程。
34、进一步的,全局关系提取过程包括以下步骤:
35、(1)将教师模型特征图和重建后的学生模型特征图分别输入到两个并行的分支,即上下两个分支,进行全局关系提取;
36、(2)对于下分支,使用1×1卷积层将输入的特征图转换成大小为新的特征图;然后将其重塑为,再经过softmax层的输出与输入特征图直接经重塑后的特征图进行矩阵相乘,得到进一步的关系信息,最后依次经过1×1卷积层、layernorm层、relu层、1×1卷积层得到下分支结果如下:
37、
38、其中,、和表示1×1卷积层,和表示用于特征图重塑大小,ln表示层归一化,softmax表示激活函数,表示矩阵相乘运算;
39、(3)对于上分支,将特征图输入平均池化层,输出结果包含每个通道对于特征图的重要程度,然后依次经过1×1卷积层、layernorm层、relu层、1×1卷积层得到上分支结果如下:
40、
41、
42、其中,和表示1×1卷积层,表示平均池化操作;
43、(4)使用点积运算将上下分支结果结合,并将其结果与输入特征图相加,结果如下:
44、
45、其中,表示点积,表示矩阵相加。
46、为解决上述技术问题,本发明采用的第二个技术方案是:提供一种基于重建特征和双重知识蒸馏的目标检测系统,采用如上任一项所述的基于重建特征和双重知识蒸馏的目标检测方法,包括:
47、教师模型构建模块,用于构建并训练教师模型至收敛,保存最佳模型的参数;
48、学生模型构建模块,用于构建并初始化学生模型;
49、学生模型特征图重建模块,用于经过所述学生模型提取不同层次的学生特征图,将学生特征图从空间域转换到频域,设计选择性高通滤波器,重建学生模型特征图;
50、频域蒸馏和全局关系蒸馏构建模块,用于利用教师模型特征图和重建后的学生模型特征图,构建频域蒸馏和全局关系蒸馏,并构建相应的损失函数,频域蒸馏和全局关系蒸馏的损失函数均基于计算教师特征图和学生特征图之间的l2距离;频域蒸馏旨在使学生模型更多地关注特征图中地细节信息,全局关系蒸馏则是让学生模型从教师模型中提取不同像素之间的全局关系信息;
51、双重知识蒸馏构建模块,用于结合频域蒸馏和全局关系蒸馏构建双重知识蒸馏损失函数,最小化总的知识蒸馏损失函数,保留最佳训练参数;
52、目标检测模块,用于将待检测的图像输入到训练好的学生模型中,进行回归预测。
53、为解决上述技术问题,本发明采用的第三个技术方案是:提供一种基于重建特征和双重知识蒸馏的目标检测装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行如上任一项所述的基于重建特征和双重知识蒸馏的目标检测方法。
54、为解决上述技术问题,本发明采用的第四个技术方案是:提供一种计算机可读存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上任一项所述方法。
55、本发明的有益效果是:
56、(1)本发明设计的频域蒸馏有效解决了大多数基于空间域注意力的知识蒸馏方法带来的细节特征损失的问题,通过将注意力转移到频域上,在频域蒸馏的过程中,将选择性高通滤波器引入学生模型,为学生模型提供逐像素频率提示,增强高频分量,抑制低频分量,重建学生模型特征图,以达到使学生模型更关注局部细节信息的目的,有效提升学生模型检测性能;
57、(2)本发明设计的全局关系蒸馏从特征图中提取不同像素之间的全局关系信息,并从教师模型中提取给学生模型,进一步提升了学生模型的性能;
58、(3)本发明设计的双重知识蒸馏,使学生模型既关注了细节信息,又重视了全局关系信息,利用本发明,能够在不增加额外成本的前提下,提升较小模型的目标检测精度,使其能够代替较大模型在资源受限的环境中完成实时目标检测任务。
1.一种基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,在步骤s3中,将学生特征图从空间域转换到频域的具体步骤包括:
3.根据权利要求1所述的基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,在步骤s3中,选择性高通滤波器被定义为:
4.根据权利要求1所述的基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,在步骤s3中,重建学生模型特征图的具体步骤包括:
5.根据权利要求1所述的基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,在步骤s4中,构建频域蒸馏及其损失函数的步骤包括:
6.根据权利要求1所述的基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,在步骤s4中,构建全局关系蒸馏及其损失函数的步骤包括:
7.根据权利要求6所述的基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,全局关系提取过程包括以下步骤:
8.一种基于重建特征和双重知识蒸馏的目标检测系统,采用权利要求1至7任一项所述的基于重建特征和双重知识蒸馏的目标检测方法,其特征在于,包括:
9.一种基于重建特征和双重知识蒸馏的目标检测装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1至7任一项所述的基于重建特征和双重知识蒸馏的目标检测方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1至7任一项所述方法。
