基于改进FasterRCNN的水下目标检测方法

allin2023-02-18 132

基于改进faster rcnn的水下目标检测方法
技术领域
1.本发明涉及计算机视觉技术领域，尤其涉及一种基于改进faster rcnn的水下目标检测方法。

背景技术：

2.海洋的面积占据了地球表面积的71％，其中蕴含着丰富的资源，例如，海参、海胆、扇贝、海星等一些水下生物。为了能够充分的利用这些海洋资源，需要水下机器人来代替水下作业，在使用水下机器人进行水下工作时，准确的水下生物目标检测能力可以有效提高水下机器人在水下作业的效率。
3.现有基于深度学习的卷积神经网络目标检测模型中，检测精度较高的是基于faster rcnn的双阶段目标检测方法，但faster rcnn模型特征提取网络得到的深层特征图的感受野较大，特征较明显，适合检测较大的目标。水下生物目标检测时大多数为小目标，faster rcnn目标检测的准确率就会降低。

技术实现要素：

4.本发明的目的在于提供一种基于改进faster rcnn的水下目标检测方法，旨在解决现有的水下卷积神经网络目标检测模型的检测小目标准确率较低的技术问题。
5.为实现上述目的，本发明提供了一种基于改进faster rcnn的水下目标检测方法，包括下列步骤：
6.图像数据输入特征提取网络，获得多尺度特征图；
7.将所述多尺度特征图输入区域建议网络处理后获得最终候选框；
8.所述多尺度特征图进行roialign池化操作获得固定尺寸特征图；
9.将固定尺寸特征图用于后续目标分类和边框回归。
10.其中，所述特征提取网络由残差网络resnet50和改进的fpn组成，残差网络resnet50通过四个残差块会得到四个不同层级的特征图，通过fpn中的自顶向下上采样和横向连接将浅层特征与深层特征进行融合得到多尺度特征图。
11.其中，残差网络resnet50的四个残差块resblock的数量分别为3.4.6.3，改进的fpn不选取残差网络resnet50得到的第三、四层特征融合后的特征图。
12.其中，所述多尺度特征图输入区域建议网络后，设置6种不同尺寸大小的锚框，通过去除越过边界的锚框，对剩下的锚框利用卷积操作得到的边框回归参数调整为候选框。
13.其中，最终候选框通过软非极大值抑制方法滤除目标重叠的候选框后获得。
14.其中，在所述多尺度特征图进行roialign池化操作获得固定尺寸特征图的过程中，首先将候选框映射到特征图上，再将特征图尺寸固定为统一规格，并在两次量化取整操作中保留浮点数。
15.其中，所述固定尺寸特征图为7*7大小特征图，用于后续的目标分类与边框回归。
16.本发明提供了一种基于改进faster rcnn的水下目标检测方法，由残差网络
resnet50和改进的fpn组成的特征提取网络，通过改进的fpn在原始fpn的基础上去除了最大池化和选取了适合检测小物体的第一、二层融合特征图，节省时间成本同时还保证目标检测的准确性，在区域建议网络以及后续目标回归定位中使用了软非极大值抑制算滤除了重叠的候选框，保证重叠在一起的小目标也能够识别到，最后通过roialign在候选框映射到特征图和固定特征图大小的操作中保留其浮点数，使用双线性插值的方法得到固定大小的特征图，解决了现有的水下卷积神经网络目标检测模型的检测小目标准确率较低的技术问题。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本发明的基于改进faster rcnn的水下目标检测方法的流程示意图。
19.图2是本发明的特征提取网络组成实现方式示意图。
20.图3是本发明的残差网络resnet50中残差块resblock的实现流程示意图。
21.图4是原始fpn网络中自顶向下上采样和横向连接结构示意图。
22.图5是本发明的区域建议网络(rpn)的结构示意图。
23.图6是本发明实现目标分类和边框回归的流程示意图。
24.图7是原始faster rcnn中roi pooling计算过程示意图。
25.图8是本发明的双线性插值方法示意图。
具体实施方式
26.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
27.本发明涉及的相关英文术语如下，后续配合使用英文进行描述：
28.特征金字塔网络(feature pyramid networks：fpn)；
29.区域建议网络(region proposal network：rpn)；
30.锚框(anchor)；
31.候选框(proposal)；
32.非极大值抑制(nms)；
33.软非极大值抑制(soft-nms)；
34.检测框与真实框之间的交并比(iou)；
35.感兴趣区域池化(roi pooling)；
36.感兴趣区域对齐(roialign)。
37.请参阅图1，本发明提出了一种基于改进faster rcnn的水下目标检测方法，包括下列步骤：
38.s1：图像数据输入特征提取网络，获得多尺度特征图；
39.s2：将所述多尺度特征图输入区域建议网络处理后获得最终候选框；
40.s3：所述多尺度特征图进行roialign池化操作获得固定尺寸特征图；
41.s4：将固定尺寸特征图用于后续目标分类和边框回归。
42.所述特征提取网络由残差网络resnet50和改进的fpn组成，残差网络resnet50通过四个残差块会得到四个不同层级的特征图，通过fpn中的自顶向下上采样和横向连接将浅层特征与深层特征进行融合得到多尺度特征图。
43.残差网络resnet50的四个残差块resblock的数量分别为3.4.6.3，改进的fpn不选取残差网络resnet50得到的第三、四层特征融合后的特征图。
44.所述多尺度特征图输入区域建议网络后，设置6种不同尺寸大小的锚框，通过去除越过边界的锚框，对剩下的锚框利用卷积操作得到的边框回归参数调整为候选框。
45.最终候选框通过软非极大值抑制方法滤除目标重叠的候选框后获得。
46.在所述多尺度特征图进行roialign池化操作获得固定尺寸特征图的过程中，首先将候选框映射到特征图上，再将特征图尺寸固定为统一规格，并在两次量化取整操作中保留浮点数。
47.所述固定尺寸特征图为7*7大小特征图，用于后续的目标分类与边框回归。
48.以下从各个术语的定义来对本发明作进一步说明：
49.1、特征提取网络
50.特征提取网络由resnet50和改进的fpn组成，具体实现方式如图2所示。
51.1.1、残差网络resnet50
52.图2的左侧为残差网络resnet50，首先对图像数据进行7*7的卷积、批归一化(batchnorm，bn)、激活(relu)、3*3的最大池化操作。将此时的图像数据送入3个输入通道为64输出通道为256的残差块(resblock)得到第一层特征图，将第一层特征图送入4个输入通道为128输出通道为512的残差块(resblock)得到第二层特征图，将第二层特征图送入6个输入通道为256输出通道为1024的残差块(resblock)得到第三层特征图，将第三层特征图送入3个输入通道为512输出通道为2048的残差块(resblock)得到第四层特征图。
53.其中残差块resblock的实现流程图如图3所示：
54.残差块resblock有两种类型，分别是conv block和identity block。conv block与identity block的区别在于分支是否有卷积操作，分支有卷积操作的为conv block，没有的则为identity block。conv block的输入与输出通道数是不一样的，它的作用是改变输入图像的通道数，identity block的输入与输出通道数是一样的，它的作用是增加网络的深度。resblock先判断输入通道数与输出通道数是否相等，不相等则此时resblock为conv block,左分支进行1*1的卷积提升通道数，右分支分别进行1*1的卷积降维，3*3的卷积特征提取，1*1的卷积提升通道数，左右分支相加得到输出。如果输入通道数与输出通道数相等，此时resblock为identity block,左分支分别进行1*1的卷积降维，3*3的卷积特征提取，1*1的卷积提升通道数，右分支连接输入，左右分支相加得到输出。
55.resnet50的四个残差块resblock的数量分别为3.4.6.3，按照1个conv block改变输入图像的通道数加上剩余数量的identity block增加网络深度的分布分别得到第一到第四层的特征图。
56.1.2、改进的fpn
57.原始fpn网络通过自顶向下上采样和横向连接卷积的操作将resnet50的四层特征图进行特征融合并进行3*3通道数256的卷积操作来消除上采样的混叠效应，然后就可以得到四个融合后的特征图，并将第四层特征图进行最大池化下采样操作得到第五层特征图，将这五层特征图送入rpn网络得到候选框。
58.自顶向下上采样和横向连接结构如图4所示：
59.resnet50特征图的大小是每一层特征图像的大小是上一层特征图像大小的一半，因此浅层特征图的感受野较小，适合检测小目标，深层特征图的感受野较大，适合检测大目标。经过每个残差块后特征图的特征越来越明显，因此浅层特征图的特征语义信息低，而深层特征图的特征语义信息高。因为水下生物目标大多数为小目标，因此需要感受野较小的浅层特征图，但是浅层特征图的特征语义信息低，因此改进的fpn将第四层特征图降低通道数在进行上采样与第三层特征图降低通道数进行相加融合，将其融合后的特征图在进行上采样操作与第二层特征图降低通道数进行相加融合，通过3*3的卷积操作消除上采样的混叠效应得到提升了语义特征信息的融合特征图p3。同理将特征融合过的第二层特征图在进行上采样与第一层进行相加融合，在通过3*3的卷积操作消除上采样的混叠效应就会得到更高语义特征信息的融合特征图p2。水下目标生物大多数是小目标，其余为中等目标，因为resnet50得到的第一层特征图的感受野较小，适合检测小目标，但特征语义信息较低，但通过特征融合使特征图p2的特征更明显，可以用来进行小目标的检测。因为第三、四层特征图的感受野较大，适合检测较大目标，因此改进的fpn就没有选取第三、四层特征融合后的特征图。原始fpn对第四层特征图进行了最大池化生成后的特征图感受野更大，不适合检测小目标，因此改进的fpn也避免了这一操作。综上所述，改进的fpn既节省了时间成本，也保证了后续目标检测的准确性。
60.2、区域建议网络
61.2.1、区域建议网络(rpn)
62.区域建议网络(rpn)的结构图如图5所示，将特征提取网络得到的两个不同尺度特征图p2、p3作为rpn网络的输入，先通过3*3卷积输出通道数为256(padding＝1，stride＝1)的滑动窗口提取特征图每个3*3区域的特征，由于padding＝1，stride＝1，通过卷积操作后特征图的尺寸没有变化。卷积前后图像大小的计算公式如下：
[0063][0064]
其中，m是输入图像边长大小，n是输出图像边长大小，k为卷积核大小，s为步长，p为填充。
[0065]
假设输入图像尺寸为(m,m)，输出尺寸为(n,n)，我们根据公式可知：n＝(m-3+2*1)/1+1＝m，因此通过3*3的卷积滑动窗口操作图像大小没变。将经过滑动窗口操作后的两个不同尺度的特征图分别进行1*1卷积通道数为2k的操作在送入softmax函数得到2k个概率分数(基于k anchor boxes,2k表示anchor boxes的前景背景的分数)和进行1*1卷积通道数为4k的操作后得到4k个边框回归参数(基于k anchor boxes,4k表示anchor boxes的中心坐标(x,y)，宽w、高h)。设置anchor的长宽比例为1:1、1:2、2:1，按照特征图的感受野大小设置的anchor的面积分别为{32*32,64*64}，因此特征图p2的锚框(anchor boxes)为anchor的面积32*32分别乘以三种比例得到3种不同尺寸的锚框(anchor boxes)，特征图p3
的锚框分别以64*64的面积不同比例得到3种不同尺度的锚框，因此总共有6种(3+3)不同尺寸的锚框。两个不同尺度的特征图分别会生成m*n*3个锚框(其中m*n是特征图的尺寸大小)，忽略跨越边界的锚框，对剩下的锚框利用卷积操作得到的边框回归参数进行调整为候选框(proposal)，候选框之间存在大量重叠，通过前景背景概率分数、软非极大值抑制(soft-nms)，iou(检测框与真实框之间的交并比)阈值设定来获得最终的候选框。
[0066]
2.2、软非极大值抑制(soft-nms)
[0067]
非极大值抑制(nms)的作用是搜索局部极大值，抑制非极大值元素，faster rcnn会在图片中生成一系列候选框集合a＝{a1,a2,
……
，an}和对应的候选框得分集合s＝{s1,s2,
……
，sn}。nms算法会选出得分集合中最大分数所对应的候选框m，将其余的候选框分别与候选框m进行iou的计算，如果iou值大于所设定的阈值，则该候选框会被抑制。检测所有候选框后，将候选框m放入一个新的最终候选框集合和对应的得分集合，将被抑制的候选框和候选框m分别从集合a和s中去除，再从剩下的候选框选取最大分数的候选框w，将其余的候选框分别与候选框w进行iou的计算，如果iou值大于所设定的阈值n，则该候选框会被抑制，检测所有候选框后，将候选框w放入存放候选框m的最终候选框集合和对应的得分集合。重复上述操作，直到所有候选框都检测完毕，最后获得最终候选框集合与对应的得分集合。nms算法公式如下：
[0068][0069]
从公式可以看出nms会将与候选框iou的值大于阈值n的候选框置零，水下目标可能会出现多个小目标重叠在一起，nms就会滤除掉一些目标，从而降低检测模型的准确率。而软非极大值抑制(soft-nms)设置了一个衰减函数并没有将大于阈值的候选框的分数置为0，保证重叠在一起的小目标也能够识别到。soft-nms算法公式如下：
[0070][0071]
3、fast rcnn
[0072]
fast rcnn实现目标分类和边框回归的流程图如图6所示：
[0073]
3.1、roialign
[0074]
在获取roi(感兴趣区域)的过程中，原始faster rcnn中roi pooling对特征图大小的计算结果进行了两次量化取整过程，因此在后续的边框回归定位无法准确映射回原图相应像素点。其计算过程如图7所示：
[0075]
第一次量化取整是将region proposal映射到特征图，为了使region proposal与特征图的单元格对齐；第二次量化取整是为了将特征图固定为统一7*7大小。假设上图中width＝800,height＝600,stride＝16，region proposal width＝200，region proposal height＝200，此时经过计算特征图的宽高为原图的1/16，则其中的region proposal映射到特征图的宽高分别为region proposal width/stride＝200/16＝12.5,region proposal height/stride＝200/16＝12.5,此时省略小数点出现了第一次量化调整为12。为了方便网络训练，需要将特征图固定为统一的7*7大小，因此需要将特征图划分为49块，此时region proposal的宽和高分别为12/7＝1.71,12/7＝1.71，进行第二次量化取整为1后可以得到7*7大小特征图中的region proposal。但是，网络在后续的回归定位需要将
region proposal映射回原图，即省略两次小数造成的误差都会在映射过程中被放大，根据之前计算结果，误差将会扩大到原来的16*7＝112倍，当目标是小目标时，这种量化取整方式会使小目标在映射回原图时位置会出现较大的偏差，无法实现对其准确定位。改进的fster rcnn将roi pooling改成了roialign，roialign把roi pooling中的浮点数不进行取整，保留其浮点数，则第一次region proposal width/stride＝12.5,region proposal height/stride＝12.5，第二次region proposal的宽和高分别为12.5/7＝1.78,12.5/7＝1.78，使用双线性插值的方法利用浮点数记录坐标结果。
[0076]
双线性插值方法如图8所示：
[0077]
假设现有一尺寸为5
×
5的特征图，其中最外侧红色实线为已确定的roi区域边界。将特征图上所确定的roi区域划分为2
×
2(k＝2)的单元，假设采样点为4，将每个单元格再次均分为4个单元，单元点中心即为采样点。为了得到采样点的坐标，利用双线性插值计算特征图的坐标，避免了将roi与特征图坐标对齐。以采样点e(x,y)为例，e点在特征图上所处位置的4个已知坐标点为：a(x0,y1)、b(x1,y1)、c(x0,y0)以及d(x1,y0)。双线性插值公式如下：
[0078][0079]
其中fa，fb，fc，fd是已知坐标点a,b,c,d的像素值，根据公式可得采样点e的像素值，同理可得其它采样点的像素值，最后对每个采样点进行最大池化操作，即可得到统一大小的特征图。
[0080]
3.2、目标分类及回归定位
[0081]
将从rpn中获取的候选框映射到特征图上，由于通过特征提取网络提取的特征图是两种不同尺度的，所以需要根据候选框的宽和高来选择不同尺度的特征图进行映射，具体选择公式如下：
[0082][0083]
其中，k0＝2，w和h表示对应候选框的宽和高。
[0084]
将对应的候选框和特征图进行roialign操作得到固定大小的特征图，通过展平操作得到一系列的一维向量，将展平操作得到的一维向量送入用于分类的全连接层，输出水下生物目标的概率分数，确定目标的类别，将展平操作得到的一维向量送入用于边框回归的全连接层，输出目标的边框偏移量，使用soft-nms去除重叠的检测框，使目标边框回归定位更准确。
[0085]
以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

技术特征：
1.一种基于改进faster rcnn的水下目标检测方法，其特征在于，包括下列步骤：图像数据输入特征提取网络，获得多尺度特征图；将所述多尺度特征图输入区域建议网络处理后获得最终候选框；所述多尺度特征图进行roialign池化操作获得固定尺寸特征图；将固定尺寸特征图用于后续目标分类和边框回归。2.如权利要求1所述的基于改进fasterrcnn的水下目标检测方法，其特征在于，所述特征提取网络由残差网络resnet50和改进的fpn组成，残差网络resnet50通过四个残差块会得到四个不同层级的特征图，通过fpn中的自顶向下上采样和横向连接将浅层特征与深层特征进行融合得到多尺度特征图。3.如权利要求2所述的基于改进fasterrcnn的水下目标检测方法，其特征在于，残差网络resnet50的四个残差块resblock的数量分别为3.4.6.3，改进的fpn不选取残差网络resnet50得到的第三、四层特征融合后的特征图。4.如权利要求1所述的基于改进fasterrcnn的水下目标检测方法，其特征在于，所述多尺度特征图输入区域建议网络后，设置6种不同尺寸大小的锚框，通过去除越过边界的锚框，对剩下的锚框利用卷积操作得到的边框回归参数调整为候选框。5.如权利要求4所述的基于改进fasterrcnn的水下目标检测方法，其特征在于，最终候选框通过软非极大值抑制方法滤除目标重叠的候选框后获得。6.如权利要求1所述的基于改进fasterrcnn的水下目标检测方法，其特征在于，在所述多尺度特征图进行roialign池化操作获得固定尺寸特征图的过程中，首先将候选框映射到特征图上，再将特征图尺寸固定为统一规格，并在两次量化取整操作中保留浮点数。

技术总结
本发明涉及计算机视觉技术领域，尤其涉及一种基于改进Faster RCNN的水下目标检测方法，由残差网络Resnet50和改进的FPN组成的特征提取网络，通过改进的FPN在原始FPN的基础上去除了最大池化和选取了适合检测小物体的第一、二层融合特征图，节省时间成本同时还保证目标检测的准确性，在区域建议网络以及后续目标回归定位中使用了软非极大值抑制算滤除了重叠的候选框，保证重叠在一起的小目标也能够识别到，最后通过RoiAlign在操作中保留其浮点数，使用双线性插值的方法得到固定大小的特征图，解决了现有的水下卷积神经网络目标检测模型的检测小目标准确率较低的技术问题。型的检测小目标准确率较低的技术问题。型的检测小目标准确率较低的技术问题。

技术研发人员：陈小毛张健王立成赵金润黄莹何超
受保护的技术使用者：桂林电子科技大学
技术研发日：2022.02.18
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-5207.html

专利

最新回复(0)