一种应用于无人机的航空视角下行人重识别方法及系统

allin2024-03-20 132

1.本发明属于机器视觉技术领域，尤其涉及一种应用于无人机的航空视角下行人重识别方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.行人重识别(re-id)的目的是在多个互相之间没有联系的摄像机中寻找具有相同身份的行人。目前对于行人重识别的研究大多集中在针对于地面相机所拍摄的图片来进行搜索。但是，传统地面相机如安装在室内的监控摄像机和安装在室外路口的交通监控摄像机，由于无法移动导致具有视野局限的问题。
4.无人机可以按照人为的规定对一定区域进行自动巡航拍照，不受环境的限制，具有极大的便利性，已有学者将无人机应用于行人重识别。但是，无人机航拍视角下的行人重识别仍存在以下问题：无人机行人重识别(uav-reid)不同于传统的行人重识别，无人机是不断移动的，因此即使是同一无人机在同一时刻所拍摄的图片，由于位置、角度的不同所拍摄的图片也具有很大的差异；无人机相比于地面相机更容易受到遮挡、光线等噪声的影响；另外，尽管无人机上所搭载的嵌入式设备的内存容量已经越来越大，但依旧无法和地面设备一样能直接运行目前的一些大型网络，这就导致无法将目前一些先进的行人重识别方法re-id直接移植到uav-reid中。
5.得益于moblienet所提出的深度可分离卷积层使得网络在尽可能保持原有精度的基础上，参数量有着一个明显的下降。osnet中通过堆叠深度可分离卷积层形成构建块，并利用统一聚合门来管理这些块结构来学习全尺度特征。这种办法虽然通过门结构可以改变不同分支的权重，但是由于只是堆叠卷积层，这就导致一些卷积层可能包含无效信息，造成了结构上的冗余。受到自动化机器学习领域的启发，也有一些方法设计了自动化神经架构搜索方法使得网络自行的寻找最有效率的网络架构，如cdnet利用搜索空间组合深度空间，来剔除网络中一些无效的卷积层，在确保精度的同时，参数量也有着一定的下降。目前的轻量化模型大多被用于解决图像分类、文本检索的问题，这与re-id有着较大的不同。

技术实现要素：

6.为克服上述现有技术的不足，本发明提供了一种应用于无人机的航空视角下行人重识别方法及系统，以深度可分离卷积为最小单元，构建了一个带有加权注意力模块的并行分支结构，一方面实现了特征提取网络的轻量化，使其能够装载至无人机，克服了无人机存储资源的限制；另一方面，通过加权注意力机制，使得网络能够提取行人更细粒度的特征，从而能够更好地适应无人机视角下行人的特征提取。
7.为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：
8.一种应用于无人机的航空视角下行人重识别方法，包括以下步骤：
9.获取航空视角下的目标行人图像和待搜索图像数据集；
10.对所述目标行人图像和每幅待搜索图像，分别采用预先训练的无人机行人重识别网络进行特征提取；
11.根据所述目标行人图像和各幅待搜索图像特征之间的相似度，判断所述待搜索图像数据集中是否存在所述目标行人的图像；
12.其中，所述无人机行人重识别网络包括多尺度卷积模块和加权注意力模块，所述多尺度卷积模块包括主干网络和一个或多个并行网络，所述主干网络包括依次连接的多组深度可分离残差卷积块，每两组深度可分离残差卷积块之间均设有下采样层；并且，主干网络每个下采样层的输出端均再次经由一个下采样层连接一个并行网络；所述并行网络包括一组或依次连接的多组深度可分离残差卷积块。
13.进一步地，所述主干网络和一个或多个并行网络的并行阶段，对于不同网络层的各组深度可分离残差卷积块，在前深度可分离残差卷积块的输出端均连接至本组及其他网络层的在后深度可分离残差卷积块。
14.进一步地，所述深度可分离残差卷积块包括多尺度卷积模块和加权注意力模块，所述多尺度卷积模块包括主干分支和残差分支，所述主干分支和残差分支均包括多个依次连接的深度可分离卷积单元。
15.进一步地，所述深度可分离卷积单元采用感受野大小为3
×
3的深度可分离卷积单元。
16.5.如权利要求1或3所述的应用于无人机的航空视角下行人重识别方法，其特征在于，所述注意力模块包括多层注意力网络，每层注意力网络均包括池化层、第一卷积层、归一化层、第一激活函数、第二卷积层和第二激活函数。
17.进一步地，所述加权注意力模块的输出端依次连接全局平均池化层、线性层、批量归一化层和激活函数，所述激活函数的输出，一方面输入至三元组损失函数，另一方面经由全连接层输入至交叉熵损失函数，所述无人机行人重识别网络的损失函数即三元组损失函数和交叉熵损失函数的加和。
18.进一步地，所述无人机行人重识别网络采用损失函数计算梯度，通过反向传播更新网络参数。
19.一个或多个实施例提供了一种应用于无人机的航空视角下行人重识别系统，包括：
20.数据获取模块，用于获取航空视角下的目标行人图像和待搜索图像数据集；
21.特征提取模块，用于对所述目标行人图像和每幅待搜索图像，分别采用预先训练的无人机行人重识别网络进行特征提取；
22.行人重识别模块，用于根据所述目标行人图像和各幅待搜索图像特征之间的相似度，判断所述待搜索图像数据集中是否存在所述目标行人的图像；
23.其中，所述无人机行人重识别网络包括多尺度卷积模块和加权注意力模块，所述多尺度卷积模块包括主干网络和一个或多个并行网络，所述主干网络包括依次连接的多组深度可分离残差卷积块，每两组深度可分离残差卷积块之间均设有下采样层；并且，主干网络每个下采样层的输出端均再次经由一个下采样层连接一个并行网络；所述并行网络包括一组或依次连接的多组深度可分离残差卷积块。
24.一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的行人重识别方法。
25.一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的行人重识别方法。
26.以上一个或多个技术方案存在以下有益效果：
27.基于深度可分离卷积块构建具有并行分支的无人机行人重识别网络，每个分支均以深度可分离卷积块为基本单元，在最初的输入中只存在一条主干网络，随着网络深度的增加不断增加网络的分支数从而使一个串行网络转变为一个并行网络，利用这种方法可以在网络传播的过程中不断产生新的网络分支来学习更多判别特征，能够获得图像中行人多尺度的特征，有助于增强模型性能；同时为了减少模型的参数量，子网络在学习过程中也会自行的利用下采样操作降低网络分辨率，从而在有效提取行人多尺度特征的基础上，还实现了网络的轻量化，解决了无人机硬件带来的限制。
28.由于每个分支所学习到的特征重要程度各有不同，在分支网络最后还添加了加权注意力模块来动态的调节每个分支所占的比重。通过在分支网络后面添加加权注意力模块，能够实现细粒度的调节，这使得网络可以更加精准的选择有判别力的特征区域，抑制某些由于噪声的影响导致特征不可用的区域，这使得网络对噪声存在较强的抵抗性。因此对于实际的无人机拍摄的行人图片，能够自适应地选择未遮挡部分作为特征区域，从而保证了识别精度。
29.并且，由于无人机图片分辨率较低，而行人在图片中所占区域更小，可能仅占100像素左右，因此在并行网络之间的还增加了信息交换的过程，将不同分支的特征转换为相同的维度之后相叠加，从而使每个分支包含有其他分支中学习到的信息，从而丰富特征表示，在有限的图像信息中获得更丰富的特征，从而提高识别精度。
30.实验表明，采用所述行人重识别网络对航空视角下的行人重识别，在保证了尽可能轻量化的情况下，精度优于现有其他模型。可以将其应用在一些微型的嵌入式平台上，这就省去了传统的将模型部署在中央服务器中，由摄像机拍摄图片后需传入服务器中进行判断，直接将模型部署到前端的嵌入式平台上具有响应快、负载低的优点。
附图说明
31.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
32.图1为本发明一个或多个实施例中所述一种应用于无人机的航空视角下行人重识别方法流程图；
33.图2为本发明一个或多个实施例中无人机行人重识别网络整体架构图；
34.图3为本发明一个或多个实施例中深度可分离卷积块整体架构图；
35.图4为本发明一个或多个实施例中加权注意力模块示意图；
36.图5为基于本发明一个或多个实施例中所述无人机行人重识别网络，对行人进行提取的可视化效果图。
具体实施方式
37.应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
38.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
39.在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
40.实施例一
41.为解决了传统地面相机由于无法移动导致的视野局限的问题，本实施例提供了一种应用于无人机嵌入式设备的航空视角下行人重识别方法，从可以很好的解决行人追踪、行人重识别中遇到的难题。为解决无人机等嵌入式设备的存储压力，本实施例基于深度可分离卷积搭建深度学习网络。假设存在一个长宽都为12像素的rgb的三通道图片，网络如果使用256个5
×5×
3(高度、宽度、通道数)的卷积核来对图片进行特征提取来生成特征矩阵，所得到特征矩阵为8
×8×
256，得到这样的一个特征矩阵所需要的的运算量为1228800次，而如果使用深度可分离卷积，首先使用三个大小为5
×5×
1的卷积核对图片进行处理得到一个8
×8×
3的特征矩阵，之后利用256个1
×1×
3的卷积核对特征矩阵进行进一步的处理得到8
×8×
256的特征矩阵，这种办法的运算量为53952次。两种方法得到的最终特征矩阵的维度是相同的，而运算量相差二十多倍，因此在轻量化模型中深度可分离卷积是比普通卷积更好的一种方法，它在保证精度的同时大大降低了运算量。
42.基于此，本实施例公开了一种应用于无人机的航空视角下行人重识别方法，如图1所示，包括：
43.步骤1：获取航空视角下拍摄的目标行人图像和图库行人图像数据集；将所述图库行人图像数据集作为搜索对象；
44.步骤2：对所述目标行人图像和图库行人图像，分别采用预先训练的无人机行人重识别网络进行特征提取；
45.步骤3：根据所述目标行人图像和图库行人图像特征之间的相似度，判断所述图库行人图像数据集中是否存在所述目标行人的图像。
46.所述步骤2中，所述无人机行人重识别网络基于深度学习网络架构pbwa-net训练得到。本实施例以深度可分离残差卷积块(lrblock)作为所述深度学习网络架构pbwa-net的基本单元，所述所述深度可分离残差卷积块又以深度可分离卷积块作为基本块。
47.相较于osnet，所述深度学习网络架构pbwa-net舍弃了osnet中使用的大量并行的重复堆叠卷积的结构，而是采用设计了多条不同长度的并行网络结构。同时多条网络进行多次信息交换，因此即使卷积层的数量不如osnet多但可以达到超过osnet的性能。
48.如图2所示，所述深度学习网络架构pbwa-net包括依次连接的输入层、初始卷积层、多尺度卷积模块和加权注意力模块。所述多尺度卷积模块包括一个主干网络和两个并行网络，所述主干网络和并行网络均包括一组或多组深度可分离残差卷积块，当为多组时，每两组深度可分离残差卷积块之间均设有下采样层；其中，每组深度可分离残差卷积块至
少包括两个深度可分离残差卷积块。主干网络每个下采样层的输出端均再次经由一个下采样层连接一个并行网络。假设主干网络有n组深度可分离残差卷积块，那么连接主干网络第一个下采样层的并行网络有n-1组深度可分离残差卷积块，连接主干网络第二个下采样层的并行网络有n-2组深度可分离残差卷积块，
……
，以此类推。
49.其中，所述初始卷积层为1
×
1卷积层，其连接至所述多尺度卷积模块的主干网络输入端；所述加权注意力模块依次经由池化层、线性层、归一化层和激活函数连接至全连接层。
50.本实施例中，所述多尺度卷积模块包括一个主干网络和两个并行网络，记为第一并行网络和第二并行网络，所述主干网络包括三组深度可分离残差卷积块，每两组深度可分离残差卷积块之间均设有下采样层；其中，每组深度可分离残差卷积块包括两个深度可分离残差卷积块。主干网络的第一个下采样层和第二个下采样层的输出端分别再次经由一个下采样层连接第一并行网络和第二并行网络。第一并行网络包括两组深度可分离残差卷积块，第二并行网络包括一组深度可分离残差卷积块。
51.所述主干网络第一个下采样层之后，主干网络与第一并行网络并行，第二个下采样层之后，主干网络与第一并行网络、第二并行网络并行。每个并行阶段，对于不同网络层的各组深度可分离残差卷积块，在前深度可分离残差卷积块的输出端均连接至本组及其他网络层的在后深度可分离残差卷积块。
52.在学习过程中不同子网络中可能存在其他子网络所需要的信息，我们在中间层对三个子网络学习得到的信息进行交换融合从而使每条分支子网络可以得到包含更多信息的特征。我们在主干网络的第三层和第五层进行了信息的交换：其中第四层的每条子网络的输入为第三层两个子网的输出之和，第六层的每条子网络的输入是第五层三个子网的输出之和。交换过程转换公式为公式(2)所示。其中m表示子网络的第m层，l表示第l条分支，l和m的值是由网络结构所决定的，当网络处于第3层时即l＝3时，网络存在两个子网络即m＝2；当网络处于第5层时即l＝5，网络存在三个子网络即m＝3。
[0053][0054]
由于无人机距离拍摄行人较远，图片分辨率仅仅只有6000像素左右，而行人仅仅只占100像素左右。因此如何从有限的信息中尽可能多的获得判别特征是无人机视角下行人重识别研究的重点。因此本实施例利用三条具有不同感受野的分支来同时对图片进行特征提取，在网络最开始仅有一条子网络，随着网络深度的不断增加，网络利用下采样才做不断分出新的子网络，使得串行网络变成一个并行网络，子网络的个数一共有三个。并行分支由于不同分支内部的lrblock的感受野大小不同，因此不同分支可以不同尺度的特征。并且，在并行分支结构学习过程中，三个子网络在网络中间层中进行了多次特征融合，使得特征获得更加丰富的语义信息，保证了在有限的图像信息中能够获得更丰富的特征，从而提高识别精度。
[0055]
在学习完毕后同样使用加权注意力模块进行融合，值得注意的是在lrbllock中同样存在加权注意力模块，由于两部分所处理的特征存在差异因此两加权注意力模块参数并
不共享分别使用独立的加权注意力模块来对特征进行调节。
[0056]
网络的最后三条分支结合形成一个综合了不同尺度特征的综合性特征。每一条分支输出特征在最后特征所占的比重是由加权注意力模块动态决定的。加权注意力模块可以根据不同分支输出特征的重要程度不同自行的调节比重。
[0057]
如图3所示，本实施例利用深度可分离卷积层作为最小单元，将多个深度可分离卷积堆叠形成一个卷积块，同时受resnet启发，在串行深度可分离卷积的基础上添加了包含有深度可分离卷积的残差分支，搭建了深度可分离残差卷积块(lrblock)，下称基本块。所述深度可分离残差卷积块包括依次连接的输入层、初始卷积层、多尺度卷积模块、加权注意力模块、最终卷积层和输出层，所述多尺度卷积模块包括主干分支和残差分支，所述主干分支和残差分支均包括多个依次连接的基本块，所述基本块采用lite3
×
3(感受野大小为3
×
3的深度可分离卷积)。所述初始卷积层的输出端分别连接至所述多尺度卷积模块主干分支和残差分支的输入端，所述主分支和残差分支中基本块的数量不同。
[0058]
lrblock计算过程如公式(1)所示。其中wam表示加权注意力模块，lite()表示lite3
×
3基本块。k表示lite3
×
3重复k次，k1和k2分别为不同值。x表示经过1
×
1次卷积核处理后的输入。
[0059][0060]
与resnet不同的是，上述残差结构并不是简单地将输入特征直接传递到下一层，而是在残差分支上添加了参数不共享的lite3
×
3基本块。通过这种方式，一个lrblock可以使用两个不同感受野大小的分支同时学习不同尺度的特征，从而使得lrblock学习到更多的信息。由于主分支与残差分支中lite 3
×
3基本块的数量不同，残差分支提取的信息与主分支提取的信息存在差异，因此如果简单将两分支相加可能会无法将有效信息同时利用甚至会污染有效信息。为了更好地结合两分支得到的有效信息。我们在融合层利用加权注意力模块将信息进行融合。
[0061]
同时，通过采用深度可分离卷积作为网络结构的最小单元，由于该卷积能够尽可能保证精度的同时参数量要远远小于普通的卷积，从而保证了所述模型的轻量化。
[0062]
本实施例的深度学习网络架构，为了将三条子网络整合在一起同时根据每条子网络学习到的特征重要程度的不同进行有针对性的分配每条子网络输出占总输出的比重，在网络的最后添加加权注意力模块，从而给每条子网络分配不同的权值。同时，在每个lrblock块中也利用了加权注意力模块将两分支进行融合。如图4所示，所述加权注意力模块的实质是一个多层感知机，所述加权注意力模块包括多层注意力网络，每层注意力网络均包括池化层、第一卷积层、归一化层、第一激活函数、第二卷积层和第二激活函数，图4中仅示出了两层。通过将不同的特征输入到加权注意力模块中模块可以自主的对特征中每个部分进行调节，增强有效特征、抑制无意义特征。由于加权注意力模块对特征进行的是细粒度的调节，因此要比传统粗粒度的注意力机制要更加有效。
[0063]
深度学习网络架构三条子网络的输出分别连接一层注意力网络；而深度可分离残差卷积块(lrblock)两个分支的输出分别连接一层注意力网络。两个加权注意力模块的参数不共享。
[0064]
加权注意力模块公式可以表示为：
[0065][0066]
其中，s表示分支网络的个数；an表示图中的注意力网络，f
in
表示输入的特征，取值为lrblock中不同分支的输出或无人机行人重识别网络(uav-re-id)第六层的输出，表示两个特征矩阵的哈达玛积。
[0067]
通过加权注意力模块(wam)我们可以将不同尺度的子网络学习到的信息进行区分从中选择更具判别性的特征。由于加权注意力模块中采用了哈达玛积来对输入特征进行处理，因此注意力权重矩阵可以作用于输入特征内部不同的区域，从而得到更加细粒度的表示。由于内部使用了哈达玛积来对特征进行处理，哈达玛积针对的是两个特征之间每个元素之间的乘积，是一种细粒度的矩阵相乘，因此可以对特征矩阵不同的区域进行不同的调节。这就可以增大具有判别力特征部分的权重，同时减小具有无意义特征部分的权重。
[0068]
对于整个深度学习网络架构pbwa-net，我们采用交叉熵损失和三元组损失对网络进行训练。两个损失函数分别关注网络不同的方面，交叉熵损失关注的是预测的值与真实值之间的差距，而三元组损失可以拉大预测值与负样本直接的距离，交叉熵损失促使了预测值更加接近正样本，三元组损失促使预测值远离负样本。两个损失共同作用可以使网络得到更好的性能，为了将特征转换为损失函数需要的维度，我们首先利用一个全局平均池化层对特征进行降维。为了防止由于降维导致的部分信息丢失，我们随后添加了线性层、批量归一化层和一个激活函数(relu)来稳定这一过程。最后由于两个损失函数需要的输入不同，三元组损失需要一个特征而交叉熵损失需要一个概率，因此我们采用一个全连接层(fc)对特征进行转换，使之满足交叉熵损失的要求。而三元组损失需要的是学习得到的特征，因此特征无需进行处理直接输入损失中即可。
[0069]
因此在网络的损失函数表示为公式(4)
[0070]
loss＝l
cro
+l
tri
(2)
[0071][0072][0073]
其中l
cro
、l
tri
分别为交叉熵损失和三元组损失。f
out
表示经过最后一层激活函数输出得到的特征。i表示第i个行人。对于l
cro
，p()为真实值概率矩阵，当i正确分类时p(i)等于1否则p(i)等于0。fc(f
out
)()为经过全连接层转化后的预测值概率矩阵。l
tri
，f
aout
、f
pout
、f
nout
分别为样本的锚点、锚点的正样本与负样本对应的特征。α为超参数用于保证样本直之间存在一个最小间隔。+表示[]内如果总和大于0保持原样输出，当反之将损失赋值为0，||
22
表示二范数的平方。
[0074]
上述行人重识别方法，针对由于拍摄位置、角度的不同导致同一行人图片风格存在差异的问题，设计了一个并行分支网络可以学习到行人更多的风格不变特征从而使得判别更加精准；针对图片中可能存在的噪声对判别精度的影响，在分支网络的最后添加了加权注意力模块使得网络可以自行的去寻找更具判别力的区域，并自动的去抑制由于噪声导致某些区域特征不可用的问题。最后针对大型网络无法在无人机上运行的问题，利用深度
可分离卷积为最小单元，因此网络具有轻量化的特点，实验证明模型的参数量要远小于目前的行人重识别网络。
[0075]
实施例二
[0076]
基于实施例一提供的方法，本实施例提供了一种应用于无人机的航空视角下行人重识别系统，包括：
[0077]
数据获取模块，用于获取航空视角下的目标行人图像和待搜索图像数据集；
[0078]
特征提取模块，用于对所述目标行人图像和每幅待搜索图像，分别采用预先训练的无人机行人重识别网络进行特征提取；
[0079]
行人重识别模块，用于根据所述目标行人图像和各幅待搜索图像特征之间的相似度，判断所述待搜索图像数据集中是否存在所述目标行人的图像；
[0080]
其中，所述无人机行人重识别网络包括多尺度卷积模块和加权注意力模块，所述多尺度卷积模块包括主干网络和一个或多个并行网络，所述主干网络包括依次连接的多组深度可分离残差卷积块，每两组深度可分离残差卷积块之间均设有下采样层；并且，主干网络每个下采样层的输出端均再次经由一个下采样层连接一个并行网络；所述并行网络包括一组或依次连接的多组深度可分离残差卷积块。
[0081]
实施例三
[0082]
本实施例的目的是提供一种电子设备。
[0083]
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述的方法。
[0084]
实施例四
[0085]
本实施例的目的是提供一种计算机可读存储介质。
[0086]
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的方法。
[0087]
以上实施例二至四中各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0088]
为了验证上述无人机行人重识别网络的准确性，本实施例选取一个无人机监控场景的行人重识别数据集(prai-1581)和两个传统地面视角下行人重识别数据集(market1501、dukemtmc)进行实验，并以平均精度(map)曲线和累积匹配特征(cmc)曲线作为模型性能的评价标准，同时我们也将网络的参数量大小作为衡量模型好坏的标准。
[0089]
prai-1581数据集是通过两架无人机在不同的高度和不同的地点对1581个行人进行拍摄得到了39461张图片。拍摄的图片分辨率要普遍低于固定摄像机所拍摄的图片，行人在图片中仅占在30-150像素直接。除了分辨率低之外，拍摄的图片中有大约20％的图片被环境所遮挡，因此这比传统固定摄像机所拍摄的单尺度行人图片更加难以识别。数据集分为训练集与测试集。训练集包含782个行人身份的19523张图像。测试集包含799个行人身份的19938张图像，其中查询图片4680张，图库图片15258张。
[0090]
market-1501数据集是一个经典的由地面摄像机所拍摄的数据集。数据集由6个独立的相机拍摄了1501个行人身份的32668张图片所构成。为了测试模型的稳定性数据集专
门包含了一部分的无关图片来对模型进行干扰。数据集分为训练集与测试集，其中训练集有751个行人身份的12936张图像。测试集有750个行人身份的19732张图像。
[0091]
dukemtmc数据集利用8个固定摄像机对1404个行人拍摄了36411张图片。dukemtmc将702个行人身份的16522张图片用作训练集702个行人身份的2228张图像用作查询集，剩下的17661张作为库，数据集中部分图片中行人被环境遮挡。
[0092]
表1三个数据集中的数据说明
[0093][0094][0095]
如表2所示，通过对比了目前一些具有代表性的轻量级reid模型，可以看到pbwa-net在保证轻量化的同时精度达到了先进的水平。与只使用了串行深度可分离卷积的mobilenet相比，三个数据集上本发明的精度都大幅领先mobilenet，在prai-1581上rank-1score和map分别提高了13.5％和15.4％，这说明并行网络结构相比于串行网络结构能学习到更多的判别信息。在googlenet中将网络运算中一些稀疏矩阵进行聚类使之变为稠密矩阵来减少模型的参数量，但是网络采用的是空间可分离卷积组成因此参数量相较于利用深度可分离卷积的网络较大。sp+tl是第一个专门应用于uav-reid下的行人重识别方法，他们利用子空间池化来表示输入的行人图像目的是希望学习到一个更具判别性的特征，这种办法相较于之前的方法精度有了一定的提升但与本发明的方法相比，pbwa-net要比sp+tl在，在prai-1581上rank-1score和map分别提高了8.3％和9.0％。在最近的两个表现最好的轻量级模型osnet与cdnet中，osnet使用统一聚合门来调节不同尺度特征之间的权值，cdnet对osnet进行改进利用combined depth space来舍去无意义的分支。经过实验发现在market1501与dukemtmc数据集中pb-net精度和两种方法相差无几，而在prai-1581数据集中我们比osnet在rank-1score和map分别提高了3.7％和6.5％，比cdnet在rank-1score和map分别提高了1.5％和1.2％，这表明本发明更适合应用在uav-reid，并且在地面相机拍摄的数据集中也有较好的表现。
[0096]
表2模型在prai-1581、market-1501和dukemtmc数据集上的性能
[0097]
[0098][0099]
所有的模型都是从零开始训练的，通过一轮的训练之后，网络输出学习到的特征并将特征传入到损失函数中，损失函数通过计算输出一个损失值来计算梯度从而进行反向传播来更新网络参数。在经过一定轮次的训练后网络性能趋于稳定，此时需要对网络进行最后的测试，测试过程使用的图片为数据集中的测试集与图库集，通过读取测试集图片来从图库集图片中寻找具有相同身份的人。观察cmc与map的值与参数量来作为网络性能的评价标准。如表2所示，表中，*表示复现的结果，-表示结果是不可用的。可以看出pbwa-net模型在prai-1581数据集上领先于其他模型，在其他数据集上略强于其他模型，注：实验结果是由十次试验的结果平均得出的。
[0100]
为了验证pbwa-net能够针对有判别力的区域进行学习同时对遮挡有较强的抵抗力。特随机挑选了四个行人图片输入网络并可视化最后输出的特征，如图5所示，从左到右，每一行的图像分别为：原始行人图像、灰度特征图、热图、与原始图像叠加的热图。可以看到pbwa-net主要集中于对行人身体部位进行学习，如最上方的一排图中，方法更加关注行人上衣的图案。对于存在遮挡的情况如最下方的一排行人图片，方法可以忽略掉存在遮挡的部位而着重对没有遮挡的部位进行学习。通过可视化可以看到并行网络结构在即使存着遮挡导致大部分行人身体不可用时也可以利用有限的信息作出正确的判断。同时可以发现网络更加偏向于关注行人独特的特征(比如上衣图案、所携带的物品等)，得益于加权注意力模块，当图片中出现遮挡时也可以自动的去关注没有被遮挡的部分，从而忽略掉无意义的遮挡部分特征。因此pbwa-net可以有效地捕捉鲁棒性信息并忽略掉由于环境因素导致的噪声干扰。
[0101]
本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0102]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征：
1.一种应用于无人机的航空视角下行人重识别方法，其特征在于，包括以下步骤：获取航空视角下的目标行人图像和待搜索图像数据集；对所述目标行人图像和每幅待搜索图像，分别采用预先训练的无人机行人重识别网络进行特征提取；根据所述目标行人图像和各幅待搜索图像特征之间的相似度，判断所述待搜索图像数据集中是否存在所述目标行人的图像；其中，所述无人机行人重识别网络包括多尺度卷积模块和加权注意力模块，所述多尺度卷积模块包括主干网络和一个或多个并行网络，所述主干网络包括依次连接的多组深度可分离残差卷积块，每两组深度可分离残差卷积块之间均设有下采样层；并且，主干网络每个下采样层的输出端均再次经由一个下采样层连接一个并行网络；所述并行网络包括一组或依次连接的多组深度可分离残差卷积块。2.如权利要求1所述的应用于无人机的航空视角下行人重识别方法，其特征在于，所述主干网络和一个或多个并行网络的并行阶段，对于不同网络层的各组深度可分离残差卷积块，在前深度可分离残差卷积块的输出端均连接至本组及其他网络层的在后深度可分离残差卷积块。3.如权利要求1所述的应用于无人机的航空视角下行人重识别方法，其特征在于，所述深度可分离残差卷积块包括多尺度卷积模块和加权注意力模块，所述多尺度卷积模块包括主干分支和残差分支，所述主干分支和残差分支均包括多个依次连接的深度可分离卷积单元。4.如权利要求3所述的应用于无人机的航空视角下行人重识别方法，其特征在于，所述深度可分离卷积单元采用感受野大小为3
×
3的深度可分离卷积单元。5.如权利要求1或3所述的应用于无人机的航空视角下行人重识别方法，其特征在于，所述注意力模块包括多层注意力网络，每层注意力网络均包括池化层、第一卷积层、归一化层、第一激活函数、第二卷积层和第二激活函数。6.如权利要求1所述的应用于无人机的航空视角下行人重识别方法，其特征在于，所述加权注意力模块的输出端依次连接全局平均池化层、线性层、批量归一化层和激活函数，所述激活函数的输出，一方面输入至三元组损失函数，另一方面经由全连接层输入至交叉熵损失函数，所述无人机行人重识别网络的损失函数即三元组损失函数和交叉熵损失函数的加和。7.如权利要求1所述的应用于无人机的航空视角下行人重识别方法，其特征在于，所述无人机行人重识别网络采用损失函数计算梯度，通过反向传播更新网络参数。8.一种应用于无人机的航空视角下行人重识别系统，其特征在于，包括：数据获取模块，用于获取航空视角下的目标行人图像和待搜索图像数据集；特征提取模块，用于对所述目标行人图像和每幅待搜索图像，分别采用预先训练的无人机行人重识别网络进行特征提取；行人重识别模块，用于根据所述目标行人图像和各幅待搜索图像特征之间的相似度，判断所述待搜索图像数据集中是否存在所述目标行人的图像；其中，所述无人机行人重识别网络包括多尺度卷积模块和加权注意力模块，所述多尺度卷积模块包括主干网络和一个或多个并行网络，所述主干网络包括依次连接的多组深度
可分离残差卷积块，每两组深度可分离残差卷积块之间均设有下采样层；并且，主干网络每个下采样层的输出端均再次经由一个下采样层连接一个并行网络；所述并行网络包括一组或依次连接的多组深度可分离残差卷积块。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的行人重识别方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的行人重识别方法。

技术总结
本发明属于机器视觉技术领域，公开了一种应用于无人机的航空视角下行人重识别方法及系统，所示方法包括：获取航空视角下的目标行人图像和待搜索图像数据集；对所述目标行人图像和每幅待搜索图像，分别采用预先训练的无人机行人重识别网络进行特征提取；根据所述目标行人图像和各幅待搜索图像特征之间的相似度，判断所述待搜索图像数据集中是否存在所述目标行人的图像；其中，所述无人机行人重识别网络是以深度可分离卷积块为基本单元，具有多个并行分支的网络，在最大程度实现轻量化的基础上，还能够获得图像中行人多尺度的特征，有助于增强模型性能。于增强模型性能。于增强模型性能。

技术研发人员：张化祥高文博刘丽朱磊孙建德于治楼金圣开
受保护的技术使用者：山东交通学院
技术研发日：2022.05.10
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-12551.html

专利

最新回复(0)