1.本发明涉及一种多组采样点的可变形卷积方法,属于计算机视觉技术领域。
背景技术:2.随着深度学习技术的发展,目标检测在多个领域中广泛应用。例如,在工业质检中检测出工业品的瑕疵;在交通领域检测车辆前方的行人、车辆;在安防领域检测电梯等公共场所的异常事件等等。
3.可变形卷积为目标检测中的一个常用的技术,相比于普通卷积,可变形卷积可以根据输入的特征自适应的调整卷积的采样点,从而自适应地实现形状、尺度的变化。然而,大多数已有的可变形卷积方法的采样点数量是固定的,限制了可变形卷积的表达能力;而已有的采用多组采样点的可变形卷积方法将卷积输入特征的各通道分成多组,在每组采用不同的采样点,破坏了卷积输入特征不同通道的位置一致性。
技术实现要素:4.本发明所要解决的技术问题是提供一种增强模型表达能力,从而提高目标检测准确率的可变形卷积方法、装置及存储介质。
5.为了解决上述问题,本发明采用以下技术方案:
6.一种可变形卷积方法,其特征在于,包括:
7.步骤1,对输入特征图进行常规卷积得到多组采样点坐标的偏移向量;
8.步骤2,对每组采样点的坐标分别从输入特征图提取偏移后的采样点的特征,并使用卷积核加权求和得到每组的输出特征;
9.步骤3,将各组的卷积输出特征平均得到最终的输出特征。
10.步骤1对输入特征图进行常规卷积得到多组采样点坐标的偏移向量,包括:
11.步骤1-1,对于输出特征图y上的位置p0,在输入特征图x上使用3x3的网格r采样特征,其中r={(-1,-1),(-1,0),...,(0,1),(1,1)};
12.步骤1-2,对采样后的特征用卷积核权重wo加权求和,得到各组采样点坐标的偏移值向量:
[0013][0014]
式中,o(p0)为位置p0的偏移值向量;wo(pn)为卷积核权重wo在pn处的权重向量,x(p0+pn)为输入特征图x在位置p0+pn处的特征向量;
[0015]
步骤1-3,将偏移向量o分为g组,得到各组的偏移向量o1,o2,...,og;其中每组偏移向量oi的维度为18,分别对应网格r中每个采样点的水平方向和竖直方向的偏移值。
[0016]
步骤2对每组采样点的坐标分别从输入特征图提取偏移后的采样点的特征,并使用卷积核加权求和得到每组的输出特征,包括:
[0017]
步骤2-1,对于每组偏移向量oi,对网格r中的采样点坐标进行偏移;
[0018]
步骤2-2,用偏移后的采样点在输入特征图x上用双线性插值的方法提取卷积输入特征;
[0019]
步骤2-3,对采样后的特征用卷积核w加权求和,得到第i组输出特征图yi在位置p0的特征yi(p0):
[0020][0021]
其中,w(pn)为卷积核权重w在pn处的权重向量;q枚举了输入特征图x上的各个位置;x(q)为输入特征图x在位置q处的特征向量;q
x
和qy分别为位置q的水平和竖直方向的坐标,(p0+pn+o
ni
)
x
和(p0+pn+o
ni
)y别为位置p0+pn+o
ni
的水平和竖直方向的坐标。
[0022]
作为本发明的一种优选技术方案,与现有的各通道分组采样的可变形卷积方法不同,步骤2-2只采用一组采样点,即各通道采用一致的采样点。
[0023]
步骤2-3的卷积核w在各组偏移向量对应的采样特征加权求和时,各组采样点分别卷积的时候采用的同一个卷积核w。
[0024]
步骤3,将各组的卷积输出特征yi平均得到最终的输出特征:
[0025][0026]
式中,y(p0)为在位置p0的最终输出特征。
[0027]
与现有技术相比,本发明具有以下技术效果:
[0028]
1.本发明通过在可变形卷积中的多组采样点,可以有效地增强可变形卷积的形状、尺度变化的方式,增强模型的表达能力。
[0029]
2.通过在各组采样点的特征加权求和时采用共享的卷积核,从而保持参数数量的不变,缓解了模型过拟合的风险。
[0030]
3.通过在卷积输入特征采用一组采样点,将多组采样点的卷积结果平均的方式,保证了卷积输入特征各通道的位置一致性。
[0031]
4.通过将本发明的多组采样点的可变形卷积应用于目标检测网络,有效地提升了coco数据集上的目标检测准确率。
附图说明
[0032]
图1是本发明所采用的多组采样点的可变形卷积的示意图。
具体实施方式
[0033]
下面结合说明书附图对本发明的实施方式作进一步详细的说明。
[0034]
实施例1
[0035]
如图1所示,本发明可变形卷积方法,包括以下步骤:
[0036]
步骤1,对输入特征图进行常规卷积得到多组采样点坐标的偏移向量;
[0037]
步骤1,对输入特征图上的特征采样,用卷积核权重对采样特征加权求和,包括:
[0038]
步骤1-1,对于输出特征图y上的位置p0,在输入特征图x上使用3x3的网格r采样特征,其中r={(-1,-1),(-1,0),...,(0,1),(1,1)}。
[0039]
步骤1-2,对采样后的特征用卷积核权重wo加权求和,得到各组采样点坐标的偏移值向量o,采用如下公式:
[0040][0041]
步骤1-3,将偏移向量o分为g组,得到各组的偏移向量o1,o2,...,og。其中每组偏移向量oi的维度为18,分别对应网格r中每个采样点的水平方向和竖直方向的偏移值。
[0042]
在一个实施例中,g取值为2,即采用两组偏移向量,从而得到两组可变形卷积采样点。
[0043]
步骤2,对每组采样点的坐标分别从输入特征图提取偏移后的采样点的特征,并使用卷积核加权求和得到每组的输出特征;
[0044]
步骤2包括:
[0045]
步骤2-1,对于每组偏移向量oi,对网格r中的采样点坐标进行偏移,得到新的采样点坐标p0+pn+o
ni
,其中pn遍历r的各个采样点,o
ni
为偏移向量oi的第n个值;
[0046]
步骤2-2,用偏移后的采样点在输入特征图x上用双线性插值的方法提取特征x(p0+pn+o
ni
)。
[0047]
步骤2-3,对采样后的特征用卷积核w加权求和,得到第i组输出特征图yi在位置p0的特征:
[0048][0049]
其中,
[0050][0051]
g(q,p)=g(q
x
,p
x
)
·
g(qy,py)
[0052]
g(q,p)=max(0,1-|q-p|)。
[0053]
步骤3,将各组的卷积输出特征平均得到最终的输出特征:
[0054][0055]
式中,yi为各组的卷积输出特征;
[0056]
在一个实施例中,将上述采用多组采样点的可变形卷积方法应用于目标检测网络faster-rcnn中,具体而言,将faster-rcnn的骨干网络的第3到第5阶段的所有3x3卷积替换为采用两组采样点的可变形卷积,对场景比较复杂且具有权威性的coco数据集进行分类测试,和采用普通可变形卷积(dcn)的方法,以及将卷积输入特征的各通道分组采样的可变形卷积比较,结果如表1所示:
[0057][0058][0059]
其中,map为全类平均正确率,ap50和ap75分别表示在交并比阈值为50%和75%下的平均正确率。由表1可以得出,本发明应用于目标检测方法用于coco数据集的测试,从测试结果看,相比于可变形卷积以及各通道分组采样的可变形卷积方法,几个指标都有提高,尤其是ap50,提高显著。
[0060]
实施例2
[0061]
本发明实施例还提供一种装置,包括处理器和存储器;其中,存储器中存储有程序或指令,程序或指令由处理器加载并执行以实现实施例1的可变卷积方法。
[0062]
实施例3
[0063]
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行实施例1的可变卷积方法。
[0064]
所属领域的技术人员可以清楚地了解到,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
技术特征:1.一种可变形卷积方法,其特征在于,包括如下步骤:步骤1,对输入特征图进行常规卷积得到多组采样点坐标的偏移向量;步骤2,对每组采样点的坐标分别从输入特征图提取偏移后的采样点的特征,并使用卷积核加权求和得到每组的输出特征;步骤3,将各组的卷积输出特征平均得到最终的输出特征。2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1-1,对于输出特征图y上的位置p0,在输入特征图x上使用mxm的网格r采样特征,其中r={(-1,-1),(-1,0),...,(0,1),(1,1)};步骤1-2,对采样后的特征用卷积核权重w
o
加权求和,得到各组采样点坐标的偏移值向量:式中,o(p0)为位置p0的偏移值向量;w
o
(p
n
)为卷积核权重w
o
在p
n
处的权重向量,x(p0+p
n
)为输入特征图x在位置p0+p
n
处的特征向量;步骤1-3,将偏移向量o分为g组,得到各组的偏移向量o1,o2,...,o
g
。3.根据权利要求2所述的方法,其特征在于,步骤1-1中,m取值为3。4.根据权利要求1所述的方法,其特征在于,步骤2包括:步骤2-1,对于每组偏移向量o
i
,对网格r中的采样点坐标进行偏移;步骤2-2,用偏移后的采样点在输入特征图x上用双线性插值的方法提取特征;步骤2-3,对采样后的特征用卷积核w加权求和,得到第i组输出特征图y
i
在位置p0的特征y
i
(p0):其中,w(p
n
)为卷积核权重w在p
n
处的权重向量;x(p0+p
n
+o
ni
)为输入特征图x在位置p0+p
n
+o
ni
处的特征向量,o
ni
为第i组的第n个采样点的位置。5.根据权利要求4所述的方法,其特征在于,输入特征图x在位置p0+p
n
+o
ni
处的特征向量为:其中,q为特征图上的某个采样点,q
x
和q
y
分别为q的横纵坐标,(p0+p
n
+o
ni
)
x
和(p0+p
n
+o
ni
)
y
分别为p0+p
n
+o
ni
的横纵坐标,x(q)为输入特征图x在位置q的特征向量。6.根据权利要求1所述的方法,其特征在于,步骤3为:将各组的卷积输出特征y
i
平均得到最终的输出特征,采用如下公式:
式中,y(p0)为在位置p0的最终输出特征。7.一种装置,其特征在于,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现如权利要求1至6任一所述可变形卷积方法。8.一种计算机可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6任一项所述可变形卷积方法。
技术总结本发明公开了一种可变形卷积方法、装置及存储介质,其中可变形卷积方法包括如下步骤:步骤1,对输入特征图进行常规卷积得到多组采样点坐标的偏移向量;步骤2,对每组采样点的坐标分别从输入特征图提取偏移后的采样点的特征,并使用卷积核加权求和得到每组的输出特征;步骤3,将各组的卷积输出特征平均得到最终的输出特征。本发明通过多组采样点,增强了可变形卷积的表达能力,同时保证了卷积输入特征各通道的位置一致性,并通过目标检测数据集COCO上的实验证明了本发明有效提高了目标检测的性能。测的性能。测的性能。
技术研发人员:路通 成晓龙 黄建武 曹阳
受保护的技术使用者:江苏威尔曼科技有限公司
技术研发日:2022.03.18
技术公布日:2022/7/5