1.本发明涉及图像识别技术领域,尤其涉及一种行人重识别方法、装置及电子设备。
背景技术:2.近年来,随着人工智能技术的发展,在公共安防、图像检索等应用场景中的行人重识别技术被广泛研究和关注。但是行人重识别与人脸识别、手势识别等传统生物识别技术相比,因监控视频的分辨率,背景影响,光线和姿态不同等不可控原因会导致识别精度低。因此,行人重识别技术在实际应用场景下会面临较大的挑战。另外随着城市发展日新月异,提取到的行人样本中会包含大量不同的背景信息,会对模型提取特征造成很大的影响,如何从背景复杂的图片中提取到纯净的行人特征信息也是一个亟待解决的问题。
3.现有技术中,对背景信息干扰的处理需要加入时空信息来重新训练更为复杂的模型或者采用生成模型来生成更多场景下的样本以此来区分目标与背景。这些方法的训练成本较大且模型过于复杂会对模型在真实场景下部署与使用造成困难。
技术实现要素:4.本发明的目的在于提供一种行人重识别方法、装置及电子设备,解决行人重识别中的背景影响导致行人重识别匹配困难的问题,提升行人重识别的准确性。
5.根据本发明实施例的一个方面,提供一种行人重识别方法,包括如下步骤:获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人;将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合;根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片,所述目标行人的关键点连线的数量为多个,分别对应所述目标行人多个不同的身体部位;将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型,所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片;将多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果。
6.作为一种可选的示例,所述方法中,所述多个关键点连线分别对应所述目标行人的四肢部位连线、躯干部位连线及面部连线;所述背景过滤模型以所述多个关键点连线为依据分别提取对应所述目标行人的四肢部位、躯干部位及面部的像素区域,将对应所述目标行人的四肢部位、躯干部位及面部的像素区域组合作为背景过滤后的第一图片。
7.作为一种可选的示例,所述方法中,所述目标行人的四肢部位连线为沿目标行人的四肢方向延伸的线段,所述躯干部位连线为多条线段连接而成的包围目标行人的躯干部位封闭多边形,所述面部连线为多条线段连接而成的包围目标行人的面部的封闭多边形。
8.作为一种可选的示例,所述方法中,所述背景过滤模型以所述多个关键点连线为依据分别提取对应所述目标行人的四肢部位、躯干部位及面部的像素区域包括:以四肢部位连线为基础,向四肢部位连线的两侧分别扩展多个像素,得到四肢区域;分别提取所述四肢区域内、面部连线的封闭多边形内以及躯干部位连线的封闭多边形内的像素,完成对所述目标行人的四肢部位、躯干部位及面部的像素区域的提取。
9.作为一种可选的示例,所述方法中,以四肢部位连线为基础,向四肢部位连线的两侧分别扩展多个像素,得到四肢区域具体包括:确定四肢部位连线的原始斜率;计算与该四肢部位连线的原始斜率垂直的辅助斜率;将所述原始斜率向两侧平行移动多个像素,得到两原始边缘线;将所述辅助斜率向两侧平行移动多个像素,得到两辅助边缘线;所述两原始边缘线及两辅助边缘线围合成一四肢区域。
10.作为一种可选的示例,所述方法中,每一目标行人对应的关键点集合均包括17个关键点,分别为:人脸鼻子处的关键点k0、人脸左右眼处关键点k1和k2、人脸左右耳处关键点k3和k4、人体骨骼左右肩处关键点k5和k6、人体骨骼处左右手肘处关键点k7和k8、人体骨骼左右手腕处关键点k9和k10、人体骨骼左右臀部处关键点k11和k12、人体骨骼左右腿部膝盖处关键点k13和k14、人体骨骼左右脚踝处关键点k15和k16。
11.所述根据预设的连接算法及所述关键点集合,得到各个目标行人的关键点连线具体包括:分别连接人体骨骼左肩处关键点k5与人体骨骼处左手肘处关键点k7、人体骨骼处左手肘处关键点k7与人体骨骼左手腕处关键点k9、人体骨骼右肩处关键点k6与人体骨骼处右手肘处关键点k8、人体骨骼处右手肘处关键点k8与人体骨骼右手腕处关键点k10、人体骨骼左臀部处关键点k11和人体骨骼左腿部膝盖处关键点k13、人体骨骼左腿部膝盖处关键点k13和人体骨骼左脚踝处关键点k15、人体骨骼右臀部处关键点k12和人体骨骼右腿部膝盖处关键点k14以及人体骨骼右腿部膝盖处关键点k14和人体骨骼右脚踝处关键点k16,得到八条四肢部位连线line0~line7;依次连接人脸鼻子处的关键点k0与人脸左耳处关键点k3、人脸左耳处关键点k3与人脸左眼处关键点k1、人脸左眼处关键点k1与人脸右眼处关键点k2、人脸右眼处关键点k2与人脸右耳处关键点k4以及人脸右耳处关键点k4与人脸鼻子处的关键点k0,得到一面部连线polygon0;依次连接人体骨骼左肩处关键点k5与人体骨骼左臀部处关键点k11、人体骨骼左臀部处关键点k11与人体骨骼右臀部处关键点k12、人体骨骼右臀部处关键点k12与人体骨骼右肩处关键点k6以及人体骨骼右肩处关键点k6与人体骨骼左肩处关键点k5,得到一躯干部位连线polygon1。
12.所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片具体包括:以八条四肢部位连线line0~line7为基础,向每一四肢部位连线的两侧分别扩展多个像素,得到八个四肢区域area0~area7;提取由八个四肢区域area0~area7、面部连线polygon0以及躯干部位连线polygon1共同组成的像素区域作为背景过滤后的第一图片。
13.作为一种可选的示例,所述方法中,所述获取第一图像集具体包括:获取第一视频,对第一视频进行目标检测,检测出第一视频中的目标行人;对第一视频中的目标行人进行目标跟踪,将第一视频中的同一个行人归类到一起;根据目标检测、目标跟踪的结果以及预设的最优帧提取算法对第一视频的进行抽帧,得到多个初始图片;使用聚类算法对所述多个初始图片进行聚类;对各个初始图片进行标注,标注出各个初始图片的人物id、相机id、拍摄时间及图片序号,得到包括多张符合关键点检测模型的输入格式的第一图片的第一图像集。
14.作为一种可选的示例,所述方法中,将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合具体包括:将每张第一图片向外扩展预设比例的像素,得到扩展数据;将扩展数据输入stn模块进行仿射变换,得到变换数据;将变换数据输入sppe模块进行关键点提取,得到关键点坐标;将关键点坐标输入sdtn模块进行反向坐标变换,得到关键点候选集;将关键点候选集输入posenms模块进行关键点候选集筛选,得到所述目标行人的关键点集合。
15.根据本发明实施例的另一个方面,提供一种行人重识别装置,包括:获取单元,获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人;关键点检测单元,用于将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合;连线单元,用于根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片,所述目标行人的关键点连线的数量为多个,分别对应所述目标行人多个不同的身体部位背景过滤单元,用于将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型,以通过所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片;行人重识别单元,用于将所述多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果。
16.根据本发明实施例的另一个方面,提供一种电子设备,包括:存储器和处理器,所
述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
17.本发明的有益效果:本发明提供一种行人重识别方法、装置及电子设备。所述方法包括如下步骤:获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人;将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合;根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片,所述目标行人的关键点连线的数量为多个,分别对应所述目标行人多个不同的身体部位;将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型,所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片;将多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果,通过关键点检测进行背景过滤,再将背景过滤后的图像作为行人重识别模型的输入,进行行人重识别,能够解决行人重识别中的背景影响导致行人重识别匹配困难的问题,提升行人重识别的准确性,且无需改变行人重识别模型本身的架构,不会增加行人重识别模型的复杂度及训练成本。
附图说明
18.为了能更进一步了解本发明的特征以及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。
19.附图中,图1为本发明的行人重识别方法的流程图;图2为本发明的行人重识别方法中关键点检测模型的架构图;图3为本发明的行人重识别方法一实施例的关键点集合示意图;图4为本发明的行人重识别方法一实施例的关键点连线示意图;图5为本发明的行人重识别方法一实施例的四肢部位连线、面部连线以及躯干部位连线的示意图;图6为本发明的行人重识别方法中的人重识别模型的架构示意图;图7为本发明的行人重识别装置的示意图;图8为本发明的电子设备的示意图;图9为本发明的行人重识别方法的步骤s2至步骤s4的示意图。
具体实施方式
20.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
21.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,
或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
22.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
23.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
24.请参阅图1至图9,本发明的一实施例提供一种行人重识别方法,包括如下步骤:步骤s1、获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人。
25.具体地,所述步骤s1中获取第一图像集具体包括:获取第一视频,对第一视频进行目标检测,检测出第一视频中的目标行人;对第一视频中的目标行人进行目标跟踪,将第一视频中的同一个行人归类到一起;根据目标检测、目标跟踪的结果以及预设的最优帧提取算法对第一视频的进行抽帧,得到多个初始图片;使用聚类算法对所述多个初始图片进行聚类;对各个初始图片进行标注,标注出各个初始图片的人物id、相机id、拍摄时间及图片序号,得到包括多张符合关键点检测模型的输入格式的第一图片的第一图像集。
26.进一步地,在本发明的一个实施例中获取第一图像集的过程为:首先获取一真实项目视频作为第一视频,接着对第一视频进行目标检测、目标跟踪以及抽帧,得到多个初始图片,此时得到的多个初始图片会按照目标行人的不同保存在多个文件夹,每一个文件夹中的初始图片均对应同一行人;而此时的多个初始图片是无序的,无法直接输入关键点检测模型进行关键点检测也无法直接输入行人重识别模型进行行人重识别,因此,需要这些初始图片进行预处理,具体为对初始图片进行重新命名,命名格式为:行人编号_图片拍摄时间_图号,如1_20200901175946_12,其中1表示行人编号,20200901175946表示图片拍摄时间,12表示图号。
27.接着,还需要使用聚类算法对所述多个初始图片进行聚类,以去除所述多个初始图片中错误识别的图片;然后,还需要对各个初始图片进行标注,标注出各个初始图片的人物id、相机id、拍摄时间及图片序号,例如,在本发明一实施例中,标注后的初始图片的名称可以为:1514_c6s1_20200901175946_180,其中1514为人物id,c6s1为相机id,20200901175946为拍摄时间,180为图片序号;最终获得不同镜头下的同一个人的图片集合,再通过脚本将原始文件夹进行合并,得到最终能够用于关键点检测和行人重识别的第一图像集。
28.具体地,所述预设的最优帧提取算法可根据需要进行选择,其抽帧时应当挑选目标行人被清晰、完整的拍摄到的像素帧。
29.步骤s2、将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合。
30.具体地,所述关键点检测的作用主要是为了便于后续进行的目标人物与背景信息的分离。
31.进一步地,结合图2和图9,所述步骤s2中的关键点检测模型采用沙漏网络(stack hourglass network),其中工作过程具体包括:将每张第一图片向外扩展预设比例的像素,得到扩展数据,例如在本发明一些实施例中,将每张第一图片向外扩展20%的像素,得到扩展数据。
32.将扩展数据输入空间变换网络(spatial transformer network,stn)模块进行仿射变换,得到变换数据;将变换数据输入单人姿态估计(single person pose estimation,sppe)模块进行关键点提取,得到关键点坐标,进一步地,在本发明的一些实施例中,所述sppe模块的主干(backbone)采用resnet50网络。
33.将关键点坐标输入空间反变换网络(spatial de-transformer networks,sdtn)模块进行反向坐标变换,得到关键点候选集;将关键点候选集输入姿态非极大值抑制(pose nms)模块进行关键点候选集筛选,得到所述目标行人的关键点集合。
34.具体地,如图3所示,在本发明的一些实施例中,所述步骤s2中各个目标行人对应的关键点集合的包括17个关键点,分别为人脸鼻子处的关键点k0、人脸左右眼处关键点k1和k2、人脸左右耳处关键点k3和k4、人体骨骼左右肩处关键点k5和k6、人体骨骼处左右手肘处关键点k7和k8、人体骨骼左右手腕处关键点k9和k10、人体骨骼左右臀部处关键点k11和k12、人体骨骼左右腿部膝盖处关键点k13和k14、人体骨骼左右脚踝处关键点k15和k16。
35.进一步地,上述的每一个关键点由对应像素图上的一组坐标表示,其中,k0=(x_0,y_0)表示人脸鼻子处的关键点,k1=(x_1,y_1)、k2=(x_2,y_2)分别表示人脸左右眼处关键点,k3=(x_3,y_3) 、k4=(x_4,y_4)表示人脸左右耳处关键点,k5=(x_5,y_5) 、k6=(x_6,y_6)分别表示人体骨骼左右肩处关键点,k7=(x_7,y_7) 、k8=(x_8,y_8)分别表示人体骨骼处左右手肘处关键点,k9=(x_9,y_9) 、k10=(x_10,y_10)分别表示人体骨骼左右手腕处关键点,k11=(x_11,y_11) 、k12=(x_12,y_12)分别表示人体骨骼左右臀部处关键点,k13=(x_13,y_13) 、k14=(x_14,y_14)分别表示人体骨骼左右腿部膝盖处关键点,k15=(x_15,y_15) 、k16=(x_16,y_16)分别表示人体骨骼左右脚踝处关键点。
36.步骤s3、根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片,所述目标行人的关键点连线的数量为多个,分别对应所述目标行人多个不同的身体部位。
37.作为一种可选的实施例,所述方法中,所述多个关键点连线分别对应所述目标行人的四肢部位连线、躯干部位连线及面部连线;其中,所述目标行人的四肢部位连线为沿目标行人的四肢方向延伸的线段,所述躯干部位连线为多条线段连接而成的包围目标行人的躯干部位封闭多边形,所述面部连线为多条线段连接而成的包围目标行人的面部的封闭多边形。
38.具体地,对应上述的17个关键点的关键点集合,在本发明的一些实施例中,根据预
设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线后的结果如图4和图9所示,包括:分别连接人体骨骼左肩处关键点k5与人体骨骼处左手肘处关键点k7、人体骨骼处左手肘处关键点k7与人体骨骼左手腕处关键点k9、人体骨骼右肩处关键点k6与人体骨骼处右手肘处关键点k8、人体骨骼处右手肘处关键点k8与人体骨骼右手腕处关键点k10、人体骨骼左臀部处关键点k11和人体骨骼左腿部膝盖处关键点k13、人体骨骼左腿部膝盖处关键点k13和人体骨骼左脚踝处关键点k15、人体骨骼右臀部处关键点k12和人体骨骼右腿部膝盖处关键点k14以及人体骨骼右腿部膝盖处关键点k14和人体骨骼右脚踝处关键点k16,得到八条四肢部位连线line0~line7;依次连接人脸鼻子处的关键点k0与人脸左耳处关键点k3、人脸左耳处关键点k3与人脸左眼处关键点k1、人脸左眼处关键点k1与人脸右眼处关键点k2、人脸右眼处关键点k2与人脸右耳处关键点k4以及人脸右耳处关键点k4与人脸鼻子处的关键点k0,得到一面部连线polygon0;依次连接人体骨骼左肩处关键点k5与人体骨骼左臀部处关键点k11、人体骨骼左臀部处关键点k11与人体骨骼右臀部处关键点k12、人体骨骼右臀部处关键点k12与人体骨骼右肩处关键点k6以及人体骨骼右肩处关键点k6与人体骨骼左肩处关键点k5,得到躯干部位连线polygon1。
39.其中,八条四肢部位连线line0~line7的具体表示如下:line0={(x_5,y_5),(x_7,y_7)}、line1={(x_7,y_7),(x_9,y_9)}、line2={(x_6,y_6),(x_8,y_8)}、line3={(x_8,y_8),(x_10,y_10)}、line4={(x_11,y_11),(x_13,y_13)}、line5={(x_13,y_13),(x_15,y_15)}、line6={(x_12,y_12),(x_14,y_14)}、以及line7={(x_14,y_14),(x_16,y_16)};面部连线polygon0的具体表示如下:polygon0={(x_0,y_0),(x_3,y_3),(x_1,y_1),(x_2,y_2),(x_4,y_4)};躯干部位连线polygon1的具体表示如下:polygon1={(x_5,y_5),(x_11,y_11),(x_12,y_12),(x_6,y_6)}。
40.步骤s4、如图5所示,将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型,所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片;具体地,所述背景过滤模型以所述多个关键点连线为依据分别提取对应所述目标行人的四肢部位、躯干部位及面部的像素区域,将对应所述目标行人的四肢部位、躯干部位及面部的像素区域组合作为背景过滤后的第一图片。
41.进一步地,在本发明的一些实施例中,所述背景过滤模型以所述多个关键点连线为依据分别提取对应所述目标行人的四肢部位、躯干部位及面部的像素区域包括:
以四肢部位连线为基础,向四肢部位连线的两侧分别扩展多个像素,得到四肢区域;分别提取所述四肢区域内、面部连线的封闭多边形内以及躯干部位连线的封闭多边形内的像素,完成对所述目标行人的四肢部位、躯干部位及面部的像素区域的提取。
42.其中,以四肢部位连线为基础,向四肢部位连线的两侧分别扩展多个像素,得到四肢区域具体包括:确定四肢部位连线的原始斜率;计算与该四肢部位连线的原始斜率垂直的辅助斜率;将所述原始斜率向两侧平行移动多个像素,得到两原始边缘线;将所述辅助斜率向两侧平行移动多个像素,得到两辅助边缘线;所述两原始边缘线及两辅助边缘线围合成一四肢区域。
43.举例来说,在本发明的一些实施例中,以八条四肢部位连线line0~line7为基础,向每一四肢部位连线的两侧分别扩展多个像素,得到八个四肢区域area0~area7;提取由八个四肢区域area0~area7、面部连线polygon0以及躯干部位连线polygon1共同组成的像素区域作为背景过滤后的第一图片。
44.进一步地,在本发明的一些实施例中,第一图片的像素大小为384
×
256,此时,以八条四肢部位连线line0~line7为基础,向每一四肢部位连线的两侧分别扩展多个像素,得到八个四肢区域area0~area7具体为:分别以四肢部位连线line0~line7为基础向里和向外分别扩张15个像素得到八个四肢区域area0~area7。
45.具体地,以八条四肢部位连线line0~line7为基础,向每一连线的两侧分别扩展多个像素,得到第一至第八区域area0~area7的方式具体包括:确定一四肢部位连线的原始斜率;计算与该四肢部位连线的原始斜率垂直的辅助斜率;将所述原始斜率向两侧平行移动多个像素,得到两原始边缘线,如上述实施例中的15个像素;将所述辅助斜率向两侧平行移动多个像素,得到两辅助边缘线,如上述实施例中的15个像素;所述两原始边缘线及两辅助边缘线围合成一四肢区域。
46.其中,原始斜率计算公式为:l=(ye-ys)/(xe-xs )其中,ye和ys为该四肢部位连线对应的两个关键点的y轴坐标,xe和xs为该四肢部位连线对应的两个关键点的x轴坐标,l为原始斜率;辅助斜率的计算公式为:lτ=-1/l,其中,lτ为辅助斜率。
47.步骤s5、将所述多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果。
48.具体地,请参阅图6,在本发明的一些实施例中,所述步骤s5中的行人重识别模型包括:数据预处理模块、主干网络、聚合网络、头部网络、特征向量输出模块、距离计算模块、以及评价指标及可视化模块;
其中,所述主干网络为加入了实例批处理规范化模块的(instance-batch normalization,ibn)的resnet101网络,用于进行特征的抽取,所述聚合网络使用gem pooling操作将特征进行聚合,而头部网络使用bnneck得到最终的预测结果,在行人重识别模型训练的过程中,使用交叉熵损失与三元组损失相结合,并在分类层引入circlesoftmax,最后使用adam优化器使得模型能够多角度地学习到数据集中的数据分布,从而进行更好的拟合。
49.而所述距离计算方式为欧式距离,即:x为特征向量输出模块输出的特征向量,y为检索底库中的特征向量,xi和yi分别代表x和y中的第i维表示,n为向量的总维度。
50.从而通过将特征向量输出模块输出的特征向量在检索底库中去匹配最相似的特征向量,得到行人重识别结果,而检索底库中的图片也都是经过关键点检测模型的关键点检测以及背景过滤模型的背景过滤之后再与特征向量输出模块输出的特征向量进行匹配最终经过验证,本发明成功解决了行人重识别中的背景影响导致行人重识别匹配困难,行人重识别结果的准确率在使用前后提升了5%,且本发明无需重新标注行人重识别数据和重新训练或改变行人重识别模型的架构即可提升效果,使用成本较低,有利于将本发明应用到实际复杂场景的行人重识别中。
51.请参阅图7,本发明还提供一种行人重识别装置,包括:获取单元10,获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人;关键点检测单元20,用于将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合;连线单元30,用于根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片,所述目标行人的关键点连线的数量为多个,分别对应所述目标行人多个不同的身体部位背景过滤单元40,用于将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型,以通过所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片;行人重识别单元50,用于将所述多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果。
52.请参阅图8,本发明还提供一种电子设备,包括:存储器100和处理器200,所述存储器100存储有计算机程序,所述计算机程序被所述处理器200执行时,使得所述处理器200执行如上述方法的步骤。
53.综上所述,本发明提供一种行人重识别方法、装置及电子设备。所述方法包括如下步骤:获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人;将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人
对应的关键点集合;根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片;将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型进行背景过滤,得到多张背景过滤后的第一图片;将所述多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果,通过关键点检测进行背景过滤,再将背景过滤后的图像作为行人重识别模型的输入,进行行人重识别,能够解决行人重识别中的背景影响导致行人重识别匹配困难的问题,提升行人重识别的准确性,且无需改变行人重识别模型本身的架构,不会增加行人重识别模型的复杂度及训练成本。
54.以上所述,对于本领域的普通技术人员来说,可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。
技术特征:1.一种行人重识别方法,其特征在于,包括如下步骤:获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人;将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合;根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片,所述目标行人的关键点连线的数量为多个,分别对应所述目标行人多个不同的身体部位;将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型,所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片;将多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果。2.如权利要求1所述的行人重识别方法,其特征在于,所述多个关键点连线分别对应所述目标行人的四肢部位连线、躯干部位连线及面部连线;所述背景过滤模型以所述多个关键点连线为依据分别提取对应所述目标行人的四肢部位、躯干部位及面部的像素区域,将对应所述目标行人的四肢部位、躯干部位及面部的像素区域组合作为背景过滤后的第一图片。3.如权利要求2所述的行人重识别方法,其特征在于,所述目标行人的四肢部位连线为沿目标行人的四肢方向延伸的线段,所述躯干部位连线为多条线段连接而成的包围目标行人的躯干部位封闭多边形,所述面部连线为多条线段连接而成的包围目标行人的面部的封闭多边形。4.如权利要求3所述的行人重识别方法,其特征在于,所述背景过滤模型以所述多个关键点连线为依据分别提取对应所述目标行人的四肢部位、躯干部位及面部的像素区域包括:以四肢部位连线为基础,向四肢部位连线的两侧分别扩展多个像素,得到四肢区域;分别提取所述四肢区域内、面部连线的封闭多边形内以及躯干部位连线的封闭多边形内的像素,完成对所述目标行人的四肢部位、躯干部位及面部的像素区域的提取。5.如权利要求3所述的行人重识别方法,其特征在于,以四肢部位连线为基础,向四肢部位连线的两侧分别扩展多个像素,得到四肢区域具体包括:确定四肢部位连线的原始斜率;计算与该四肢部位连线的原始斜率垂直的辅助斜率;将所述原始斜率向两侧平行移动多个像素,得到两原始边缘线;将所述辅助斜率向两侧平行移动多个像素,得到两辅助边缘线;所述两原始边缘线及两辅助边缘线围合成一四肢区域。6.如权利要求1所述的行人重识别方法,其特征在于,每一目标行人对应的关键点集合均包括17个关键点,分别为:人脸鼻子处的关键点k0、人脸左右眼处关键点k1和k2、人脸左右耳处关键点k3和k4、人
体骨骼左右肩处关键点k5和k6、人体骨骼处左右手肘处关键点k7和k8、人体骨骼左右手腕处关键点k9和k10、人体骨骼左右臀部处关键点k11和k12、人体骨骼左右腿部膝盖处关键点k13和k14、人体骨骼左右脚踝处关键点k15和k16;所述根据预设的连接算法及所述关键点集合,得到各个目标行人的关键点连线具体包括:分别连接人体骨骼左肩处关键点k5与人体骨骼处左手肘处关键点k7、人体骨骼处左手肘处关键点k7与人体骨骼左手腕处关键点k9、人体骨骼右肩处关键点k6与人体骨骼处右手肘处关键点k8、人体骨骼处右手肘处关键点k8与人体骨骼右手腕处关键点k10、人体骨骼左臀部处关键点k11和人体骨骼左腿部膝盖处关键点k13、人体骨骼左腿部膝盖处关键点k13和人体骨骼左脚踝处关键点k15、人体骨骼右臀部处关键点k12和人体骨骼右腿部膝盖处关键点k14以及人体骨骼右腿部膝盖处关键点k14和人体骨骼右脚踝处关键点k16,得到八条四肢部位连线line0~line7;依次连接人脸鼻子处的关键点k0与人脸左耳处关键点k3、人脸左耳处关键点k3与人脸左眼处关键点k1、人脸左眼处关键点k1与人脸右眼处关键点k2、人脸右眼处关键点k2与人脸右耳处关键点k4以及人脸右耳处关键点k4与人脸鼻子处的关键点k0,得到一面部连线polygon0;依次连接人体骨骼左肩处关键点k5与人体骨骼左臀部处关键点k11、人体骨骼左臀部处关键点k11与人体骨骼右臀部处关键点k12、人体骨骼右臀部处关键点k12与人体骨骼右肩处关键点k6以及人体骨骼右肩处关键点k6与人体骨骼左肩处关键点k5,得到一躯干部位连线polygon1;所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片具体包括:以八条四肢部位连线line0~line7为基础,向每一四肢部位连线的两侧分别扩展多个像素,得到八个四肢区域area0~area7;提取由八个四肢区域area0~area7、面部连线polygon0以及躯干部位连线polygon1共同组成的像素区域作为背景过滤后的第一图片。7.如权利要求1所述的行人重识别方法,其特征在于,所述获取第一图像集具体包括:获取第一视频,对第一视频进行目标检测,检测出第一视频中的目标行人;对第一视频中的目标行人进行目标跟踪,将第一视频中的同一个行人归类到一起;根据目标检测、目标跟踪的结果以及预设的最优帧提取算法对第一视频的进行抽帧,得到多个初始图片;使用聚类算法对所述多个初始图片进行聚类;对各个初始图片进行标注,标注出各个初始图片的人物id、相机id、拍摄时间及图片序号,得到包括多张符合关键点检测模型的输入格式的第一图片的第一图像集。8.如权利要求1所述的行人重识别方法,其特征在于,将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合具体包括:将每张第一图片向外扩展预设比例的像素,得到扩展数据;
将扩展数据输入stn模块进行仿射变换,得到变换数据;将变换数据输入sppe模块进行关键点提取,得到关键点坐标;将关键点坐标输入sdtn模块进行反向坐标变换,得到关键点候选集;将关键点候选集输入posenms模块进行关键点候选集筛选,得到所述目标行人的关键点集合。9.一种行人重识别装置,其特征在于,包括:获取单元,获取第一图像集,所述第一图像集包括多张第一图片,每张第一图片中均包括一目标行人;关键点检测单元,用于将第一图像集输入训练好的关键点检测模型中进行关键点检测,得到各个目标行人对应的关键点集合;连线单元,用于根据预设的连接算法对各个目标行人对应的关键点集合中的关键点进行连线,得到带有目标行人的关键点连线的第一图片,所述目标行人的关键点连线的数量为多个,分别对应所述目标行人多个不同的身体部位背景过滤单元,用于将带有目标行人的关键点连线的第一图片输入训练好的背景过滤模型,以通过所述背景过滤模型根据各个目标行人的关键点连线提取对应所述目标行人的多个不同的身体部位的像素区域,将对应所述目标行人的多个不同的身体部位的像素区域组合作为背景过滤后的第一图片;行人重识别单元,用于将所述多张背景过滤后的第一图片作为第二图像集输入训练好的行人重识别模型进行行人重识别,得到行人重识别结果。10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-8中任一项所述方法的步骤。
技术总结本发明提供一种行人重识别方法、装置及电子设备。所述方法通过关键点检测进行背景过滤,再将背景过滤后的图像作为行人重识别模型的输入,进行行人重识别,能够解决行人重识别中的背景影响导致行人重识别匹配困难的问题,提升行人重识别的准确性,且无需改变行人重识别模型本身的架构,不会增加行人重识别模型的复杂度及训练成本。复杂度及训练成本。复杂度及训练成本。
技术研发人员:何群 吴婷 闾凡兵 廖代海
受保护的技术使用者:长沙海信智能系统研究院有限公司
技术研发日:2022.04.21
技术公布日:2022/7/5