1.本技术涉及但不限于计算机视觉技术领域,尤其涉及一种目标检测方法、模型训练方法、装置、设备及存储介质。
背景技术:2.目标检测是计算机视觉中的一项基础任务,是很多计算机视觉任务的前提。现有的目标检测算法在均衡的检测数据集上有不错的性能。但是在实际的下游视觉相关任务中,检测数据往往都存在长尾分布现象:相比较于具有大量样本的头部类别(如行人,机动车),大部分的尾部类别仅有少量的样本,因此尾部类别目标检测更容易出现检测精度不理想的问题。
技术实现要素:3.有鉴于此,本技术实施例至少提供一种目标检测方法、模型训练方法、装置、设备及存储介质。
4.本技术实施例的技术方案是这样实现的:
5.一方面,本技术实施例提供一种模型训练方法,所述方法包括:
6.获取第一样本集和第二样本集;其中,所述第一样本集中样本数据包括采集的尾部类别数据,所述第二样本集中样本数据为获取的原始数据;通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框;所述目标检测模型是利用所述第一样本集中样本数据训练得到的;利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。
7.上述实施例中,首先基于尾部类别数据训练目标检测模型以输出准确的尾部类别,再利用目标检测模型预测第二样本集中网络数据的候选框,进一步基于候选框生成第三样本集,从而通过对网络数据生成准确的候选框以扩充训练集规模,减少真实场景中长尾目标数据样本不足的问题。同时图多源数据集联合训练的方式,使得长尾目标检测模型在缺失真实业务场景样本的情况下依旧能适应实战环境并提升检测精度及性能。
8.在一些实施例中,所述长尾目标检测模型至少包括用于执行定位任务的第一分支网络和用于执行分类任务的第二分支网络;所述利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数,包括:分别确定所述第一样本集通过所述第一分支网络的回归损失和通过所述第二分支网络的第一分类损失;确定所述第三样本集通过所述第二分支网络的第二分类损失;基于所述回归损失、所述第一分类损失和所述第二分类损失,对所述长尾目标检测模型的网络参数进行调整;响应于所述回归损失、所述第一分类损失和所述第二分类损失均收敛的情况下,得到已训练的所述长尾目标检测模型。
9.上述实施例中,分别将第一样本集输入到长尾目标检测模型的第一分支网络和第二分支网络得到对应的回归损失和第一分类损失,将第三样本集输入到长尾目标检测模型的第二分支网络得到第二分类损失,从而通过第一分支网络和第二分支网络将目标检测的
定位任务和分类任务解耦,这样仅仅使用获取的第三样本集即扩充的训练数据,来增强长尾目标检测模型的分类部分,因此能够高效利用大量扩充数据提升模型检测精度。
10.在一些实施例中,所述长尾目标检测模型还包括骨干网络、区域候选网络和感兴趣区域池化网络;所述分别确定所述第一样本集通过所述第一分支网络的回归损失和通过所述第二分支网络的第一分类损失,包括:通过所述骨干网络对所述第一样本集中样本数据进行特征提取,得到的所述第一样本集中样本数据对应的第一特征图;通过所述区域候选网络和所述感兴趣区域池化网络,确定所述第一样本集中各目标对象在所述第一特征图中的感兴趣特征;基于所述第一样本集中样本数据所标注的目标框,确定所述第一特征图中的感兴趣区域通过所述第一分支网络的回归损失;基于所述第一样本集中样本数据所标注的类别标签,确定所述第一特征图通过所述第二分支网络的第一分类损失。
11.上述实施例中,先对第一样本集进行特征提取得到第一特征图,然后经过区域候选网络提取候选框,并结合感兴趣池化网络输出候选框在第一特征图中的感兴趣特征,再将感兴趣特征分别输入到第一分支网络和第二分支网络,从而准确计算第一样本集通过第一分支网络的回归损失和通过第二分支网络的第一分类损失,以便后续基于两部分损失进行反向传播训练。
12.在一些实施例中,所述确定所述第三样本集通过所述第二分支网络的第二分类损失,包括:通过所述骨干网络对所述第三样本集中样本数据进行特征提取,得到的所述第三样本集中样本数据对应的第二特征图;基于所述第三样本集中样本数据的类别标签,确定所述第二特征图通过所述第二分支网络的第二分类损失。
13.上述实施例中,先对第一样本集进行特征提取得到第一特征图,然后跳过区域候选网络和感兴趣池化网络,直接将第一特征图输入到第二分支网络,这样使得第三样本集不参与回归,仅仅计算通过第二分支网络的第二分类损失。从而减少由于样本尺度不一致、图像领域场景信息差异过大导致很难提升检测效果的问题,进而能够有效利用跨场景数据集作为训练进一步提升检测精度。
14.在一些实施例中,所述利用所述候选框,基于所述第二样本集中样本数据生成第三样本集,包括:确定所述第二样本集中样本数据的目标框;确定所述第二样本集中样本数据中所述候选框与所述目标框之间的交并比;基于预设的两个重合阈值和所述交并比,从所述第二样本集中选取满足重合条件的候选框区域作为所述第三样本集。
15.上述实施例中,将候选区域网络输出的候选框与经过标注处理得到的目标框进行交并比计算,并通过对比预设的两个重合阈值和交并比,从第二样本集中截取满足要求的候选框区域作为第三样本集,这样可以快速得到大规模的样本数据以扩充训练集规模,以便后续作为训练样本提升模型精度和性能。
16.在一些实施例中,所述预设的两个重合阈值包括第一阈值和第二阈值,所述第二阈值小于所述第一阈值;所述基于预设的两个重合阈值和所述交并比,从所述第二样本集中选取满足重合条件的候选框区域作为所述第三样本集,包括:响应于第一候选框与所述目标框之间的所述交并比大于所述第一阈值,从所述第二样本集中截取所述第一候选框对应的区域作为所述第三样本集的正样本;响应于第二候选框与所述目标框之间的所述交并比小于所述第二阈值,从所述第二样本集中截取所述第二候选框对应的区域作为所述第三样本集的负样本。
17.上述实施例中,分别选取与目标框具有高重合度的第一候选框作为第三样本集的正样本,以及与目标框具有低重合度的第二候选框作为第三样本集的负样本,从而使得正样本在后续训练中有助于模型更加适应目标类别的颜色,形状等特征,同时负样本则优化模型在真实场景下对误报的抑制。
18.在一些实施例中,所述通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框,包括:将所述第二样本集输入到所述已训练的目标检测模型中;所述目标检测模型至少包括区域候选网络;所述区域候选网络用于生成样本数据的候选框;通过所述目标检测模型的区域候选网络提取所述第二样本集中样本数据的候选框。
19.上述实施例中,基于已训练的目标检测模型中的区域候选网络,生成第二样本集中样本数据的候选框,即可能存在目标的候选区域,进而直接输出候选框以供后续处理成扩充训练集。
20.在一些实施例中,所述第二样本集中样本数据为网络数据;所述获取第一样本集和第二样本集,包括:采集业务场景下的预设数量的真实数据;对所述真实数据标注类别标签和目标框并作为所述第一样本集;所述真实数据的类别标签包括尾部类别;基于所述尾部类别,通过网络获取所述第二样本集。
21.上述实施例中,基于实际业务场景下采集的第一样本集所包含的尾部类别,通过网络获取丰富的第二样本集作为额外数据,可以缓解少数长尾目标数据样本不足的问题,提高长尾目标检测模型的分类能力。
22.在一些实施例中,所述第一分支网络和所述第二分支网络包括相同的两层全连接层结构,和/或,所述第一分支网络和所述第二分支网络是并行训练的。
23.上述实施例中,通过设置两个分支网络使用相同的两层全连接层结构但不共享参数,将分类任务和定位任务进行解耦,便于有效地使用额外的第三样本来增强长尾目标检测模型的分类能力。
24.另一方面,本技术实施例提供一种目标检测方法,所述方法包括:
25.获取待检测图像;所述待检测图像中至少包括尾部类别的目标对象;通过已训练的长尾目标检测模型对所述待检测图像进行目标检测,得到所述目标对象的检测结果;其中,所述长尾目标检测模型为基于上述一方面提供的模型训练方法训练得到的。
26.上述实施例中,利用采集的真实样本数据和扩展的网络分类数据集联合训练的长尾目标检测模型对待检测图像进行目标检测,可以得到目标对象的更加准确的检测结果,从而能够适应更多真实场景中的尾部类别检测,以及执行后续视觉相关任务。
27.再一方面,本技术实施例提供一种目标检测装置,所述目标检测装置包括第一获取模块和目标检测模块:
28.所述第一获取模块,用于获取待检测图像;所述待检测图像中至少包括尾部类别的目标对象;所述目标检测模块,用于通过已训练的长尾目标检测模型对所述待检测图像进行目标检测,得到所述目标对象的检测结果;其中,所述长尾目标检测模型为基于上述一方面提供的模型训练方法训练得到的。
29.再一方面,本技术实施例提供一种模型训练装置,所述模型训练装置包括第二获取模块、候选框确定模块、样本扩充模块和联合训练模块:
30.所述第二获取模块,用于获取第一样本集和第二样本集;其中,所述第一样本集中
样本数据包括采集的尾部类别数据,所述第二样本集中样本数据为获取的原始数据;所述候选框确定模块,用于通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框;所述目标检测模型是利用所述第一样本集中样本数据训练得到的;所述样本扩充模块,用于利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;所述联合训练模块,用于利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。
31.再一方面,本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
32.又一方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
33.本技术实施例,首先基于尾部类别数据训练目标检测模型以输出准确的尾部类别,再利用目标检测模型预测第二样本集中网络数据的候选框,进一步基于候选框生成第三样本集,从而通过对网络数据生成准确的候选框以扩充训练集规模,减少真实场景中长尾目标数据样本不足的问题。同时图多源数据集联合训练的方式,使得长尾目标检测模型在缺失真实业务场景样本的情况下依旧能适应实战环境并提升检测精度及性能。
34.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
35.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本技术的实施例,并与说明书一起用于说明本技术的技术方案。
36.图1为本技术实施例提供的目标检测方法的可选的流程示意图;
37.图2为本技术实施例提供的模型训练方法的可选的流程示意图;
38.图3为本技术实施例提供的生成第三样本集的可选的流程示意图;
39.图4为本技术实施例提供的训练网络参数的可选的流程示意图;
40.图5a为本技术实施例提供的一种长尾目标检测算法的架构框图;
41.图5b为本技术实施例提供的一种快速卷积神经网络的网络架构示意图;
42.图5c为本技术实施例提供的一种确定网络数据中候选框的流程示意图;
43.图5d为本技术实施例提供的一种长尾目标检测模型训练过程的逻辑流程图;
44.图6为本技术实施例提供的一种目标检测装置的组成结构示意图;
45.图7为本技术实施例提供的一种模型训练装置的组成结构示意图;
46.图8为本技术实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
47.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图和实施例对本技术的技术方案进一步详细阐述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
48.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可
以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
49.所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
50.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术的目的,不是旨在限制本技术。
51.在对本技术实施例进行进一步详细说明之前,先对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
52.计算机视觉是人工智能技术的重要方向,在计算机视觉处理中,通常需要对图像或视频中的目标例如行人、物体等进行检测。大规模长尾数据的目标检测在很多领域有重要应用,例如异常物体检测、异常行为检测和突发事件报警等。
53.目标检测(object detection)即在给定的图片中精确找到物体所在位置(检测框标注),并标注出物体的类别。目标检测要解决的问题就是物体在哪里,是什么。
54.长尾目标检测:针对检测对象类别的长尾分布问题,长尾目标检测致力于在尾部类别对象的样本数据量稀少的训练集上训练目标检测器,并在平衡的测试集上取得良好的效果。在这种情况下,模型很容易偏向频繁的类别,因此在稀有类别上的表现不佳。
55.本技术实施例提供一种目标检测方法,该方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备目标检测能力的设备。图1为本技术实施例提供的一种目标检测方法的实现流程示意图,如图1所示,该方法包括如下步骤s101和步骤s102:
56.步骤s101,获取待检测图像;
57.这里,所述待检测图像中至少包括尾部类别的目标对象;其中尾部类别是指样本数量小于需求数量或者远远小于其他类别的对象数目。待检测图像可以为种类繁多、发生概率较低或者突发的场景中采集的图像,例如待检测图像为十字路口拍摄的图像,其中马路上出现的轮椅、闯红灯的车辆、横穿马路的行人、损坏的红绿灯、偶尔出现的双层巴士以及路边违章停靠的车辆等即可理解为尾部类别的目标对象。
58.在一些实现方式中,该待检测图像可以为电子设备上设置的图像采集装置,如摄像头模组实时采集的图像;在一些实现方式中,该待检测图像可以为其他设备通过即时通信的方式传输给电子设备进行目标检测的图像;在一些实现方式中,该待检测图像也可以是电子设备响应于任务处理指令,调用本地相册并从中获取的待处理图像;在一些实现方式中,上述待检测图像可以是视频流中的一个图像帧。对此本技术实施例不做限制。
59.步骤s102,通过已训练的长尾目标检测模型对所述待检测图像进行目标检测,得到所述目标对象的检测结果;
60.这里,所述长尾目标检测模型为利用采集的真实样本数据和扩展的网络分类数据联合训练得到的,所述网络分类数据为利用已训练的目标检测模型对获取的原始数据进行处理生成的,所述已训练的目标检测模型是利用所述真实样本数据训练得到的。
61.所述长尾目标检测模型和所述目标检测模型可以采用卷积神经网络(convolutional neural networks,cnn)、区域卷积神经网络(region-based cnn,r-cnn)、快速卷积神经网络(fast r-cnn)、更快速卷积神经网络(faster r-cnn)等模型,本技术实施例对此不作限定。
62.所述目标对象的检测结果包括目标对象的类别标签以及目标对象的目标框,其中目标框的位置通过中心点坐标、框宽、框高。示例地,一张待检测图像上包括流浪猫、建筑物、树木、草丛等物体的情况下,目标对象为流浪猫,则目标检测的结果是流浪猫所在位置的目标框和类别“cat”。
63.需要说明的是,实际业务场景中仅能采集少量的真实样本数据,对于尾部类别的目标检测容易出现检测精度不理想的问题。因此,本技术实施例针对真实样本数据不足的问题,首先利用真实样本数据训练目标检测模型,以使目标检测模型能够准确检测尾部类别;然后利用已训练的目标检测模型对获取的原始数据进行处理以扩充训练集规模;最后联合真实样本数据和扩展的网络分类数据一起训练得到长尾目标检测模型,从而可以提升检测精度及性能。
64.本技术实施例中,利用采集的真实样本数据和扩展的网络分类数据集联合训练的长尾目标检测模型对待检测图像进行目标检测,可以得到目标对象的更加准确的检测结果,从而能够适应更多真实场景中的尾部类别检测,以及执行后续视觉相关任务。
65.本技术实施例提供一种可选的模型训练方法,该方法可以由计算机设备的处理器执行。如图2所示,该方法包括如下步骤s201至步骤s204:
66.步骤s201,获取第一样本集和第二样本集;
67.这里,所述第一样本集中样本数据包括采集的尾部类别数据,尾部类别数据也称为小概率数据、困难数据、长尾数据等,是一种出现概率比较低的数据类型。同时,相较于常规数据,尾部类别数据作为样本对深度学习模型精度提升的作用更大。
68.所述第二样本集中样本数据为获取的原始数据,示例性的,利用各自搜索引擎技术从网络上爬取的数据或者直接从社区中已经存在的数据集中获取的数据作为第二样本集。
69.在一些实施例中,上述步骤s201可以包括如下步骤211至步骤213:
70.步骤211,采集业务场景下的预设数量的真实数据;
71.这里,预设数量可以根据实际情况设定,数量级通常为千张,用于长尾目标检测模型的冷启动。示例性的,从十字路口设置的摄像模组采集的视频流中采样预设数量的红绿灯异常显示图像作为第一样本集。
72.步骤212,对所述真实数据标注类别标签和目标框并作为所述第一样本集;
73.这里,所述真实数据的类别标签包括尾部类别,例如交通道路上甚少出现的轮椅或者损坏的红绿灯等。
74.步骤213,基于所述尾部类别,通过网络获取所述第二样本集。
75.这里,在一些实施方式中,先统计已有的第一样本集中存在的所有类别再确定出尾部类别;在另一些实施方式中,直接根据业务需求筛选出第一样本集中存在的稀有类别作为尾部类别。
76.本技术实施例针对尾部类别收集一定量的网络数据作为第二样本集。示例性的,
可以通过网络搜索引擎方式快速获得第二样本集;还可以从社区中存在大量的图像数据集如imagenet等已有数据集中进行筛选得到,即直接基于尾部类别的类别名称从已有数据集中收集对应图像作为第二样本集。
77.这样,基于实际业务场景下采集的第一样本集所包含的尾部类别,通过网络获取丰富的第二样本集作为额外数据,可以缓解少数长尾目标数据样本不足的问题,提高目标检测器的分类能力。
78.步骤s202,通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框;
79.这里,所述目标检测模型是利用所述第一样本集中样本数据训练得到的,该目标检测模型可以准确输出指定目标的类别和位置框,从而可以利用已训练的目标检测模型准确生成网络数据的候选框,用于补充第一样本集中尾部类别数据稀少的样本。
80.在一些实施例中,上述步骤s202可以包括如下步骤221和步骤222:
81.步骤221,将所述第二样本集输入到所述已训练的目标检测模型中;
82.这里,所述目标检测模型至少包括区域候选网络(region proposal network,rpn),该区域候选网络的本质是基于滑窗的无类别对象检测器。
83.对于输入目标检测模型的每一帧图像,经过前面骨干网络的一系列卷积或池化之后,得到一张特征图,原图每个区域的中心由特征图上的一个像素点坐标表示。通过锚框机制,可以在每个像素点对于原图的区域生成k(通常为9)个可能存在目标的锚框(anchor box),区域候选网络就是用来判断每个像素点对应的k个区域是不是包含目标。
84.步骤222,通过所述目标检测模型的区域候选网络提取所述第二样本集中样本数据的候选框。
85.这样,基于已训练的目标检测模型中的区域候选网络,生成第二样本集中样本数据的候选框(proposals),即可能存在目标的候选区域,进而直接输出候选框以供后续处理成扩充训练集。
86.步骤s203,利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;
87.这里,对于每一帧待处理图像,经过候选区域网络生成多个候选框,对这些候选框所在区域进行截取或抠图等处理,可以生成大量扩充的样本数据作为第三样本集。
88.步骤s204,利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。
89.这里,利用扩展的第三样本集扩充训练集规模,与采集的第一样本数据集一起输入到长尾目标检测模型中,可以缓解业务场景中真实存在的样本尤其尾部类别样本不足的问题。
90.本技术实施例中,首先获取采集的尾部类别数据作为第一样本集,以及网络数据作为第二样本集;然后通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框;再利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;最后,利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。如此,基于尾部类别数据训练目标检测模型以输出准确的尾部类别,再利用目标检测模型预测第二样本集中网络数据的候选框,进一步基于候选框生成第三样本集,从而通过对网络数据生成准确的候选框以扩充训练集规模,减少真实场景中长尾目标数据样本不足的问题,同时图多源数据
集联合训练的方式,使得长尾目标检测模型在缺失真实业务场景样本的情况下依旧能适应实战环境并提升检测精度及性能。
91.基于图2,本技术实施例提供的模型训练方法的可选的流程示意图,如图3所示,上述步骤s203“利用所述候选框,基于所述第二样本集中样本数据生成第三样本集”可以通过以下步骤实现:
92.步骤s301,确定所述第二样本集中样本数据的目标框;
93.这里,所述目标框为对样本数据预先标注的目标所在区域即真值(ground truth,gt)。
94.步骤s302,确定所述第二样本集中样本数据中所述候选框与所述目标框之间的交并比;
95.这里,所述候选框与所述目标框之间的交并比(intersection over union,iou)是两个区域重叠的部分除以两个区域的集合部分得出的结果。
96.步骤s303,基于预设的两个重合阈值和所述交并比,从所述第二样本集中选取满足重合条件的候选框区域作为所述第三样本集。
97.这里,针对每一个样本数据,通过候选区域网络可以生成多个候选框,可以通过预先设定两个重合阈值,分别选取高重合度及低重合度对应的候选框区域作为第三样本集。深度学习目标检测的关键在于样本的平衡,包括正负样本和难易分样本等,本技术实施例中取一帧图像里的包含尾部类别目标的候选框为正样本,取背景类候选框属于负样本。
98.在一些实施例中,所述预设的两个重合阈值包括第一阈值和第二阈值,所述第二阈值小于所述第一阈值;上述步骤s303可以包括如下步骤331和步骤332:
99.步骤331,响应于第一候选框与所述目标框之间的所述交并比大于所述第一阈值,从所述第二样本集中截取所述第一候选框对应的区域作为所述第三样本集的正样本;
100.这里,第一阈值为经验值,通常设置为0.6或0.7,第一候选框与目标框之间的交并比大于第一阈值,表明第一候选框中包含尾部类别对象,因此利用第一候选框对第二样本集中样本数据进行截取即从原样本图像中抠取对应区域,得到大量的尾部类别样本,也就是第三样本集的正样本。正样本在后续训练中有助于长尾目标检测模型更加适应目标类别的颜色,形状等特征。
101.步骤332,响应于第二候选框与所述目标框之间的所述交并比小于所述第二阈值,从所述第二样本集中截取所述第二候选框对应的区域作为所述第三样本集的负样本。
102.这里,第二阈值为经验值,通常设置为0.3,第二候选框与目标框之间的交并比小于第二阈值,表明第二候选框为背景提取框,因此利用第二候选框对第二样本集中样本数据进行截取即从原样本图像中抠取对应区域,得到大量的背景样本,也就是第三样本集的负样本。负样本加入长尾目标检测模型的训练过程,有助于优化长尾目标检测模型在真实场景下对误报的抑制。
103.进一步地,为确保长尾目标检测模型能适应实战环境并提升检测精度,本技术实施例设置第一阈值为0.6且第二阈值为0.3,以使正负样本比例接近1:3。
104.这样,分别选取与目标框具有高重合度的第一候选框作为第三样本集的正样本,以及与目标框具有低重合度的第二候选框作为第三样本集的负样本,从而使得正样本在后续训练中有助于模型更加适应目标类别的颜色,形状等特征,同时负样本则优化模型在真
实场景下对误报的抑制。
105.本技术实施例中,将候选区域网络输出的候选框与经过标注处理得到的目标框进行交并比计算,并通过对比预设的两个重合阈值和交并比,从第二样本集中截取满足要求的候选框区域作为第三样本集,这样可以快速得到大规模的样本数据以扩充训练集规模,以便后续作为训练样本提升模型精度和性能。
106.在一些实施例中,所述长尾目标检测模型至少包括用于执行定位任务的第一分支网络和用于执行分类任务的第二分支网络。基于图2,图4为本技术实施例提供的模型训练方法的可选的流程示意图,如图4所示,上述步骤s204“利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数”可以通过以下步骤实现:
107.步骤s401,分别确定所述第一样本集通过所述第一分支网络的回归损失和通过所述第二分支网络的第一分类损失;
108.这里,所述第一分支网络用于执行定位任务,可以包括两层全连接层、回归器等,其中定位任务指的是确定出样本图像中每一目标的检测框位置,即该目标在哪里;所述第二分支网络用于执行分类任务,可以包括两层全连接层、分类器等,其中分类任务指的是确定出样本图像中每一目标所属的类别,即该目标是什么。
109.所述长尾目标检测模型还包括骨干网络(backbone)、区域候选网络和感兴趣区域池化网络(roi pooling),感兴趣区域池化网络对于任意大小的图像输入,总能产生固定大小的输出,本质上是为了将不同尺寸的感兴趣特征转换为相同的特征图输出,保证特征图展开(flatten)后具有相同的大小尺寸,能够与下层的全连接层连接,分别执行线性分类(linear classifier)和边框回归(bounding box regressor)。
110.在一些实施例中,上述步骤s401可以包括如下步骤411至步骤414:
111.步骤411,通过所述骨干网络对所述第一样本集中样本数据进行特征提取,得到的所述第一样本集中样本数据对应的第一特征图;
112.步骤412,通过所述区域候选网络和所述感兴趣区域池化网络,确定所述第一样本集中各目标对象在所述第一特征图中的感兴趣特征;
113.这里,区域候选网络提取候选框,感兴趣区域池化网络直接从第一特征图里截取各个候选框所在区域即感兴趣区域(region of interest,roi)的特征,并换为相同大小的感兴趣特征输出。
114.步骤413,基于所述第一样本集中样本数据所标注的目标框,确定所述第一特征图中的感兴趣区域通过所述第一分支网络的回归损失;
115.在实施中,在对样本数据中标注的目标框与先验框(第一特征图上等间距铺设的)进行编码值即相对位置计算,然后通过对比候选区域网络预测的候选框与编码值计算回归损失,候选区域网络的预测结果越靠近,回归损失越小,位置预测越准确。
116.步骤414,基于所述第一样本集中样本数据所标注的类别标签,确定所述第一特征图通过所述第二分支网络的第一分类损失。
117.这样,先对第一样本集进行特征提取得到第一特征图,然后经过区域候选网络提取候选框,并结合感兴趣池化网络输出候选框在第一特征图中的感兴趣区域,再将感兴趣区域分别输入到第一分支网络和第二分支网络,从而准确计算第一样本集通过第一分支网络的回归损失和通过第二分支网络的第一分类损失,以便后续基于两部分损失进行反向传
播训练。
118.步骤s402,确定所述第三样本集通过所述第二分支网络的第二分类损失;
119.这里,由于第三样本集是基于第二样本集中提取的候选框确定的,因此第三样本集不需要参与回归,只需计算第三样本集通过用于分类任务的第二分支网络的第二分类损失。
120.在一些实施例中,上述步骤s402可以包括如下步骤421和步骤422:
121.步骤421,通过所述骨干网络对所述第三样本集中样本数据进行特征提取,得到的所述第三样本集中样本数据对应的第二特征图;
122.步骤422,基于所述第三样本集中样本数据所标注的类别标签,确定所述第二特征图通过所述第二分支网络的第二分类损失。
123.这样,先对第一样本集进行特征提取得到第一特征图,然后跳过区域候选网络和感兴趣池化网络,直接将第一特征图输入到第二分支网络,这样使得第三样本集不参与回归,仅仅计算通过第二分支网络的第二分类损失。从而减少由于样本尺度不一致、图像领域场景信息差异过大导致很难提升检测效果的问题,进而能够有效利用跨场景数据集作为训练进一步提升检测精度。
124.步骤s403,基于所述回归损失、所述第一分类损失和所述第二分类损失,对所述长尾目标检测模型的网络参数进行调整;
125.这里,可以看出首先利用第一分支网络对第一样本集进行位置预测以确定的回归损失,以及利用第二分支网络分别对第一样本集和第二样本集进行类别预测以确定第一分类损失和第二分类损失,也就是将第三样板集以分类增强的方式连同第一样本集一起进行联合训练。从而能够高效利用额外获取的第三样本集,在提高性能的同时不引入过多的计算负担。
126.步骤s404,响应于所述回归损失、所述第一分类损失和所述第二分类损失均收敛的情况下,得到已训练的所述长尾目标检测模型。
127.在本技术实施例中,分别将第一样本集输入到长尾目标检测模型的第一分支网络和第二分支网络得到对应的回归损失和第一分类损失,将第三样本集输入到长尾目标检测模型的第二分支网络得到第二分类损失,从而通过第一分支网络和第二分支网络将目标检测的定位任务和分类任务解耦,这样仅仅使用获取的第三样本集即扩充的训练数据,来增强长尾目标检测模型的分类部分,因此能够高效利用大量扩充数据提升模型检测精度。
128.下面结合一个具体实施例对上述模型训练方法进行说明,然而值得注意的是,该具体实施例仅是为了更好地说明本技术,并不构成对本技术的不当限定。
129.本技术实施例提供一种长尾目标检测算法的逻辑流程图。如图5a所示,该算法的逻辑流程包括以下步骤:
130.步骤s501,利用业务数据集训练目标检测模型;
131.这里,业务数据集相当于第一样本集,在实施中,选取少量下游业务场景下的尾部类别数据进行标注作为下游业务数据集,数量级通常为千张。利用数据基于快速卷积神经网络等目标检测模型。
132.其中快速卷积神经网络如图5b所示,该网络架构包括特征提取网络51、区域候选网络52、感兴趣区域(roi)池化网络53和头部网络54,其中特征提取网络51包括13个卷积层
(conv)、13个激活函数(relu)和4个池化层(pooling),通过特征提取网络51可以将大小为p*q的输入图片转换为m*n的特征图501;将特征图501输入到区域候选网络52中依次进行3*3的卷积以及两个1*1的全卷积等处理之后输出候选框502(proposals);再通过感兴趣区域池化网络53确定出候选框502在特征图501中对应的感兴趣特征;最后将感兴趣特征输入到后面头部网络54,在头部网络54中利用全连接操作以及求和函数(softmax)来进行目标识别和定位。
133.步骤s502,利用已训练的目标检测模型对网络数据集进行测试,得到候选框;
134.这里,在网络上爬取指定类别的数据组成网络数据集(相当于第二样本集),这里指定类别为业务数据集中的尾部类别。在实施中,如5c所示,将网络数据集503输入到目标检测模型的特征提取网络51中,得到特征图,再通过区域候选网络52进行预测得到大量的候选框504,在测试阶段直接从区域候选网络52提取输出候选框。
135.步骤s503,对网络数据集进行标注,得到目标框;
136.这里,经过标注处理得到真实标签,包括网络数据的分类类别以及目标框。
137.步骤s504,对候选框和目标框求取交并比;
138.这里,将区域候选网络输出的候选框与经过标注处理得到的目标框进行交并比计算。
139.步骤s505,基于交并比对候选框进行筛选并生成网络分类数据集;
140.这里,分别选取高重合度及低重合度候选框进行截取,作为网络分类数据集(相当于第三样本集)的正样本及负样本。通常设置交并比大于0.6的候选框作为正样本,以及交并比小于0.3作为负样本,正负样本比例设定为1:3。
141.网络数据通常包含大量的尾部类别正样本,正样本在后续训练中有助于模型更加适应目标类别的颜色,形状等特征。负样本加入模型训练有助于优化模型在真实场景下对误报的抑制。通过上述方法通常可以利用大约500张网络数据得到数量级为万张的网络分类数据集。
142.步骤s506,利用业务数据集和网络分类数据集联合训练得到长尾目标检测模型。
143.这里,在完成网络分类数据集采集整理后,将其与业务数据集一起进行长尾目标检测模型的联合训练。
144.其中长尾目标检测模型如图5d所示,将业务数据集505和网络分类数据集506一起输入到特征提取网络51,得到各自的特征图;将业务数据集505中提取的特征进一步通过区域候选网络52输出候选框,同时利用感兴趣区域池化网络53确定业务数据集505中候选框对应的感兴趣特征;将业务数据集505对应的感兴趣特征输入头部网络54,依次经过两层全连接层之后分别进入回归器542中进行边界框回归检测和分类器543中进行分类识别;将网络分类数据集506中提取的特征图输入头部网络54,依次经过两层全连接层541之后仅进入分类器543中。可以看出用于分类任务的第二分支网络(两层全连接层541和分类器543)对业务数据集和网络分类数据集同时进行处理,分别计算第一分类损失和第二分类损失;而另一个用于定位任务的第一分支网络(两层全连接层541和回归器542)仅仅对业务数据集505进行检测,计算回归损失。然后,利用第一分类损失、第二分类损失和回归损失对长尾目标检测模型进行反向传播训练。
145.本技术实施例基于快速卷积神经网络设计长尾目标检测模型,提出多源数据联合
训练方法,通过下游业务数据集和网络分类数据集共享长尾目标检测模型的分类分支网络,即将网络分类数据集以分类增强的方式连同下游业务数据集一起进行联合训练,从而能够有效利用跨场景数据集作为训练样本进一步提升检测精度。这样训练得到的长尾目标检测模型在缺失真实监控场景样本的情况下依旧能适应实战环境并提升检测精度及性能。
146.本技术实施例利用多源数据联合训练方法,在实战业务场景数据集规模过小的情况下,可以有效利用网络爬取数据提升长尾目标检测模型在下游任务上的检测性能。同时本技术实施例提供的利用真实业务场景数据训练目标检测模型以对网络数据生成准确的候选框,进而基于候选框生成网络分类数据的方式扩充了样本训练集,降低了对真实监控场景数据的依赖,节省了数据采集人力成本和资源。
147.基于前述的实施例,本技术实施例提供一种目标检测装置,该装置包括所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(central processing unit,cpu)、微处理器(microprocessor unit,mpu)、数字信号处理器(digital signal processor,dsp)或现场可编程门阵列(field programmable gate array,fpga)等。
148.图6为本技术实施例提供的一种目标检测装置的组成结构示意图,如图6所示,目标检测装置600包括:第一获取模块和目标检测模块,其中:
149.所述第一获取模块610,用于获取待检测图像;所述待检测图像中至少包括尾部类别的目标对象;
150.所述目标检测模块620,通过已训练的长尾目标检测模型对所述待检测图像进行目标检测,得到所述目标对象的检测结果;
151.其中,所述长尾目标检测模型为基于上述提供的任一模型训练方法实施例中的方法训练得到的。
152.以上装置实施例的描述,与上述目标检测方法实施例的描述是类似的,具有同目标检测方法实施例相似的有益效果。在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本技术装置实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
153.基于前述的实施例,本技术实施例提供一种模型训练装置,该装置包括所包括的各模块、以及各模块所包括的各子模块及各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器、微处理器、数字信号处理器或现场可编程门阵列等。
154.图7为本技术实施例提供的一种模型训练装置的组成结构示意图,如图7所示,模型训练装置700包括:第二获取模块710、候选框确定模块720、样本扩充模块730和联合训练模块740,其中:
155.所述第二获取模块710,用于获取第一样本集和第二样本集;所述第一样本集中样本数据包括采集的尾部类别数据,所述第二样本集中样本数据为获取的原始数据;
156.所述候选框确定模块720,用于通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框;所述目标检测模型是利用所述第一样本集中样本数据训练得到的;
157.所述样本扩充模块730,用于利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;
158.所述联合训练模块740,用于利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。
159.在一些可能的实施例中,所述长尾目标检测模型至少包括用于执行定位任务的第一分支网络和用于执行分类任务的第二分支网络;所述联合训练模块740包括第一确定子模块、第二确定子模块、训练子模块和第三确定子模块,其中:所述第一确定子模块,用于分别确定所述第一样本集通过所述第一分支网络的回归损失和通过所述第二分支网络的第一分类损失;所述第二确定子模块,用于确定所述第三样本集通过所述第二分支网络的第二分类损失;所述训练子模块,用于基于所述回归损失、所述第一分类损失和所述第二分类损失,对所述长尾目标检测模型的网络参数进行调整;所述第三确定子模块,用于响应于所述回归损失、所述第一分类损失和所述第二分类损失均收敛的情况下,得到已训练的所述长尾目标检测模型。
160.在一些可能的实施例中,所述长尾目标检测模型还包括骨干网络、区域候选网络和感兴趣区域池化网络;所述第一确定子模块包括第一特征提取单元、池化单元、第一确定单元和第二确定单元,其中:所述第一特征提取单元用于通过所述骨干网络对所述第一样本集中样本数据进行特征提取,得到的所述第一样本集中样本数据对应的第一特征图;所述池化单元,用于通过所述区域候选网络和所述感兴趣区域池化网络,确定所述第一样本集中各目标对象在所述第一特征图中的感兴趣特征;所述第一确定单元,用于基于所述第一样本集中样本数据所标注的目标框,确定所述第一特征图中的感兴趣区域通过所述第一分支网络的回归损失;所述第二确定单元,用于基于所述第一样本集中样本数据所标注的类别标签,确定所述第一特征图通过所述第二分支网络的第一分类损失。
161.在一些可能的实施例中,所述第二确定子模块包括第二特征提取单元和第三确定单元,其中:所述第二特征提取单元用于通过所述骨干网络对所述第三样本集中样本数据进行特征提取,得到的所述第三样本集中样本数据对应的第二特征图;所述第三确定单元,用于基于所述第三样本集中样本数据所标注的类别标签,确定所述第二特征图通过所述第二分支网络的第二分类损失。
162.在一些可能的实施例中,所述样本扩充模块730包括第四确定子模块、第五确定子模块和筛选子模块,其中:所述第四确定子模块,用于确定所述第二样本集中样本数据的目标框;所述第五确定子模块,用于确定所述第二样本集中样本数据中所述候选框与所述目标框之间的交并比;所述筛选子模块,用于基于预设的两个重合阈值和所述交并比,从所述第二样本集中选取满足重合条件的候选框区域作为所述第三样本集。
163.在一些可能的实施例中,所述预设的两个重合阈值包括第一阈值和第二阈值,所述第二阈值小于所述第一阈值;所述筛选子模块包括第三确定单元和第四确定单元,其中:所述第三确定单元,用于响应于第一候选框与所述目标框之间的所述交并比大于所述第一阈值,从所述第二样本集中截取所述第一候选框对应的区域作为所述第三样本集的正样本;所述第四确定单元,用于响应于第二候选框与所述目标框之间的所述交并比小于所述第二阈值,从所述第二样本集中截取所述第二候选框对应的区域作为所述第三样本集的负样本。
164.在一些可能的实施例中,所述候选框确定模块720包括输入子模块和提取子模块,其中:所述输入子模块用于将所述第二样本集输入到所述已训练的目标检测模型中;所述
目标检测模型至少包括区域候选网络;所述区域候选网络用于生成样本数据的候选框;所述提取子模块,用于通过所述目标检测模型的区域候选网络提取所述第二样本集中样本数据的候选框。
165.在一些可能的实施例中,所述第二样本集中样本数据为网络数据;所述第二获取模块710包括采集子模块、标注子模块和搜索子模块,其中:所述采集子模块,用于采集业务场景下的预设数量的真实数据;所述标注子模块,用于对所述真实数据标注类别标签和目标框并作为所述第一样本集;所述真实数据的类别标签包括尾部类别;所述搜索子模块,用于基于所述尾部类别,通过网络获取所述第二样本集。
166.以上装置实施例的描述,与上述模型训练方法实施例的描述是类似的,具有同模型训练方法实施例相似的有益效果。在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本技术装置实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
167.需要说明的是,本技术实施例中,如果以软件功能模块的形式实现上述的目标检测方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本技术实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
168.本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
169.本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
170.本技术实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
171.本技术实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
172.这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请
参照本技术方法实施例的描述而理解。
173.需要说明的是,图8为本技术实施例中计算机设备的一种硬件实体示意图,如图8所示,该计算机设备800的硬件实体包括:处理器801、通信接口802和存储器803,其中:
174.处理器801通常控制计算机设备800的总体操作。
175.通信接口802可以使计算机设备通过网络与其他终端或服务器通信。
176.存储器803配置为存储由处理器801可执行的指令和应用,还可以缓存待处理器801以及计算机设备800中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机访问存储器(random access memory,ram)实现。处理器801、通信接口802和存储器803之间可以通过总线804进行数据传输。
177.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
178.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
179.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
180.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
181.另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
182.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
183.或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品
销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
184.以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。
技术特征:1.一种模型训练方法,其特征在于,所述方法包括:获取第一样本集和第二样本集;所述第一样本集中样本数据包括采集的尾部类别数据,所述第二样本集中样本数据为获取的原始数据;通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框;所述目标检测模型是利用所述第一样本集中样本数据训练得到的;利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。2.如权利要求1所述的方法,其特征在于,所述长尾目标检测模型至少包括用于执行定位任务的第一分支网络和用于执行分类任务的第二分支网络;所述利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数,包括:分别确定所述第一样本集通过所述第一分支网络的回归损失和通过所述第二分支网络的第一分类损失;确定所述第三样本集通过所述第二分支网络的第二分类损失;基于所述回归损失、所述第一分类损失和所述第二分类损失,对所述长尾目标检测模型的网络参数进行调整;响应于所述回归损失、所述第一分类损失和所述第二分类损失均收敛的情况下,得到已训练的所述长尾目标检测模型。3.如权利要求2所述的方法,其特征在于,所述长尾目标检测模型还包括骨干网络、区域候选网络和感兴趣区域池化网络;所述分别确定所述第一样本集通过所述第一分支网络的回归损失和通过所述第二分支网络的第一分类损失,包括:通过所述骨干网络对所述第一样本集中样本数据进行特征提取,得到的所述第一样本集中样本数据对应的第一特征图;通过所述区域候选网络和所述感兴趣区域池化网络,确定所述第一样本集中各目标对象在所述第一特征图中的感兴趣特征;基于所述第一样本集中样本数据所标注的目标框,确定所述第一特征图中的感兴趣区域通过所述第一分支网络的回归损失;基于所述第一样本集中样本数据所标注的类别标签,确定所述第一特征图通过所述第二分支网络的第一分类损失。4.如权利要求3所述的方法,其特征在于,所述确定所述第三样本集通过所述第二分支网络的第二分类损失,包括:通过所述骨干网络对所述第三样本集中样本数据进行特征提取,得到的所述第三样本集中样本数据对应的第二特征图;基于所述第三样本集中样本数据所标注的类别标签,确定所述第二特征图通过所述第二分支网络的第二分类损失。5.如权利要求1至4任一项所述的方法,其特征在于,所述利用所述候选框,基于所述第二样本集中样本数据生成第三样本集,包括:确定所述第二样本集中样本数据的目标框;
确定所述第二样本集中样本数据中所述候选框与所述目标框之间的交并比;基于预设的两个重合阈值和所述交并比,从所述第二样本集中选取满足重合条件的候选框区域作为所述第三样本集。6.如权利要求5所述的方法,其特征在于,所述预设的两个重合阈值包括第一阈值和第二阈值,所述第二阈值小于所述第一阈值;所述基于预设的两个重合阈值和所述交并比,从所述第二样本集中选取满足重合条件的候选框区域作为所述第三样本集,包括:响应于第一候选框与所述目标框之间的所述交并比大于所述第一阈值,从所述第二样本集中截取所述第一候选框对应的区域作为所述第三样本集的正样本;响应于第二候选框与所述目标框之间的所述交并比小于所述第二阈值,从所述第二样本集中截取所述第二候选框对应的区域作为所述第三样本集的负样本。7.如权利要求1至6任一项所述的方法,其特征在于,所述通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框,包括:将所述第二样本集输入到所述已训练的目标检测模型中;所述目标检测模型至少包括区域候选网络;所述区域候选网络用于生成样本数据的候选框;通过所述目标检测模型的区域候选网络提取所述第二样本集中样本数据的候选框。8.如权利要求1至7任一项所述的方法,其特征在于,所述第二样本集中样本数据为网络数据;所述获取第一样本集和第二样本集,包括:采集业务场景下的预设数量的真实数据;对所述真实数据标注类别标签和目标框并作为所述第一样本集;所述真实数据的类别标签包括尾部类别;基于所述尾部类别,通过网络获取所述第二样本集。9.一种目标检测方法,其特征在于,所述方法包括:获取待检测图像;所述待检测图像中至少包括尾部类别的目标对象;通过已训练的长尾目标检测模型对所述待检测图像进行目标检测,得到所述目标对象的检测结果;其中,所述长尾目标检测模型为基于权利要求1至8任一项所述的方法训练得到的。10.一种目标检测装置,其特征在于,所述装置包括第一获取模块和目标检测模块,其中:所述第一获取模块,用于获取待检测图像;所述待检测图像中至少包括尾部类别的目标对象;所述目标检测模块,用于通过已训练的长尾目标检测模型对所述待检测图像进行目标检测,得到所述目标对象的检测结果;其中,所述长尾目标检测模型为基于权利要求1至8任一项所述的方法训练得到的。11.一种模型训练装置,其特征在于,所述装置包括第二获取模块、候选框确定模块、样本扩充模块和联合训练模块,其中:所述第二获取模块,用于获取第一样本集和第二样本集;其中,所述第一样本集中样本数据包括采集的尾部类别数据,所述第二样本集中样本数据为获取的原始数据;所述候选框确定模块,用于通过已训练的目标检测模型,确定所述第二样本集中样本
数据的候选框;所述目标检测模型是利用所述第一样本集中样本数据训练得到的;所述样本扩充模块,用于利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;所述联合训练模块,用于利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。12.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述方法中的步骤;或者实现权利要求9所述方法中的步骤。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述方法中的步骤;或者实现权利要求9所述方法中的步骤。
技术总结本申请实施例公开了一种目标检测方法、模型训练方法、装置、设备及存储介质,其中,所述模型训练方法包括:获取第一样本集和第二样本集;所述第一样本集中样本数据包括采集的尾部类别数据,所述第二样本集中样本数据为获取的原始数据;通过已训练的目标检测模型,确定所述第二样本集中样本数据的候选框;所述目标检测模型是利用所述第一样本集中样本数据训练得到的;利用所述候选框,基于所述第二样本集中样本数据生成第三样本集;利用所述第一样本集和所述第三样本集训练长尾目标检测模型的网络参数。网络参数。网络参数。
技术研发人员:李翰卿 李搏 王意如
受保护的技术使用者:北京市商汤科技开发有限公司
技术研发日:2022.04.20
技术公布日:2022/7/5