1.本技术涉及信息技术领域,尤其涉及一种处理图像的方法和装置。
背景技术:2.近年来,随着深度学习和卷积神经网络(convolutional neural networks,cnn)的发展和进步,基于图像的目标检测和分类能力已经得到很大的提高。目标检测是计算机视觉领域的一个重要研究方向,是众多高级任务的必备前提,例如,场景理解,事件识别等。目标检测也广泛应用于安全监测、自动驾驶、人机交互、增加现实、行人检测、大规模场景识别等领域。目标检测对计算机视觉和产业界实际应用都有重要的意义。
3.如今,基于深度学习的目标检测方式已经超越传统目标检测方法,成为当前目标检测领域的主流方法。深度学习的核心是特征学习,可以通过分层网络获取分层次的特征信息,并输出结果。深度学习框架下的典型算法包括cnn,cnn具有特征提取、特征选择和特征分类的功能。
4.在cnn中,目标检测方法包括两个部分的基础算法,即目标位置检测和目标特征检测。以人脸识别为例,目标位置检测包括人脸位置检测,目标特征检测包括人脸特征点检测,例如,眼睛、鼻子、嘴以及脸的边缘点的检测。在现有的方案中,上述两种基础算法通常需要不同的算法模型实现,算法库占用了较多的存储空间,并且计算时间也较长。例如,对于智能手机等存储空间有限的终端设备来说,占用了过多的存储资源和计算时间,用户体验较差。
5.因此,业界正在研究计算效率更高的目标检测方法,以期减少存储空间和计算时间。
技术实现要素:6.本技术提供了一种处理图像的方法和装置,用以解决目标检测模型的算法库占用存储空间较大以及计算效率较低的问题。
7.第一方面,提供了一种用于处理图像的方法,包括:将待处理的第一特征图输入至rpn网络中,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标;根据所述多个建议区域,获取第二特征图,所述第二特征图中包括所述多个建议区域;将所述第二特征图输入至全连接层网络进行处理,以得到输出结果,所述输出结果包括:目标的得分、目标特征信息以及目标的框坐标。
8.可选地,上述目标可以指需要进行目标检测的任何物体,例如人脸、人体、动物、车辆、建筑物等。
9.结合第一方面,在一种可能的实现方式中,所述根据所述多个建议区域,获取第二特征图,包括:将所述多个建议区域的位置坐标映射至所述第一特征图之上;通过roi池化层将所述多个建议区域池化为同一尺寸;将所述多个建议区域相连,得到所述第二特征图。
10.结合第一方面,在一种可能的实现方式中,所述将所述第二特征图输入至全连接
层网络进行处理,以得到输出结果,包括:通过gap算子将所述第二特征图映射至第一向量;将所述第一向量输入至所述全连接层网络,以得到所述输出结果。
11.其中,上述第一向量的长度可以是预设长度。通过gap算子对第二特征图映射之后,只得到一个向量,再根据该向量进行全连接层的操作,可以在学习过程中节省很多参数,减少计算复杂度。
12.结合第一方面,在一种可能的实现方式中,所述目标为人脸,所述目标特征信息包括以下至少一项:人脸特征点的坐标、人脸对应的年纪。
13.在全连接层网络的训练过程中,除了人脸的特征点坐标之外,全连接层网络中还可以增加其它类型的人脸特征信息的训练,例如,对人脸的年纪的训练等。从而可以在一个算法中实现人脸检测和人脸特征检测。
14.第二方面,提供了一种用于处理图像的装置,包括:第一处理模块,用于将待处理的第一特征图输入至rpn网络中,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标;第二处理模块,用于根据所述多个建议区域,获取第二特征图,所述第二特征图中包括所述多个建议区域;第三处理模块,用于将所述第二特征图输入至全连接层网络进行处理,以得到输出结果,所述输出结果包括:目标的得分、目标特征信息以及目标的框坐标。
15.第三方面,提供了一种计算机设备,包括处理器,该处理器用于从存储器调用计算机程序,当所述计算机程序被执行时,该处理器用于执行上述第一方面或第一方面中任意可能的实现方式中的方法。
16.第四方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的代码。
17.第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的代码。
18.在本技术实施例中,提出了一种基于建议区域的处理图像的方法和装置。该方法能够实现多任务的目标检测和目标特征检测,即利用一个算法模型可以同时进行目标检测及目标特征检测。不仅减少了算法库占用的存储空间,并且只需要一次端到端的计算便实现目标检测和目标特征检测,节省了计算时间和计算资源。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
20.图1是本技术一实施例的应用于目标检测的cnn的框架示意图;
21.图2是本技术一实施例的算法的框架结构示意图;
22.图3是本技术一实施例的用于处理图像的方法的流程示意图;
23.图4是本技术又一实施例的用于处理图像的方法的具体流程示意图;
24.图5是本技术一实施例的装置500的结构示意图;
25.图6是本技术一实施例的装置600的结构示意图。
26.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为
本领域技术人员说明本技术的概念。
具体实施方式
27.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
28.首先对本技术所涉及的名词进行解释。
29.深度学习:是指多层神经网络上运用各种机器学习算法处理图像、文本的算法集合。深度学习的核心是特征学习,可以通过分层网络获取分层次的特征信息,并输出结果。深度学习的框架下包括多个算法,例如,卷积神经网络(convolutional neural networks,cnn)、自动编码器等。
30.卷积神经网络:是一种多层神经网络,通常用于处理图像相关的机器学习问题。典型的卷积网络通常包括卷积层、池化层、全连接层等。其中,卷积层与池化层相互配合,可组成多个卷积组,逐层提取特征,最终通过一个或多个全连接层完成分类。
31.人脸检测(face detection,fd):是指人脸识别系统中的一个环节,指对于任意一幅输入的图像,采用一定的策略对其进行搜索,以确定其中是否包括人脸。如果包括人脸,则输出人脸的位置、大小和姿态等信息。
32.人脸特征点检测(face landmark detection,fld):可以指人脸特征点定位,在人体检测算法中通常用来定位人脸的五官位置以及脸的边缘点,例如,眼睛、鼻子和嘴角的位置,可用于给人体检测算法或者后续的人脸识别算法中的人脸矫正使用。
33.区域生成网络(region proposal network,rpn):用于对输入的图像进行处理,筛选出可能存在目标的框,即建议区域(region proposals)。具体地,rpn网络可以接收一幅任意尺寸的图像作为输入,并输出建议区域的集合,集合中的每个建议区域可对应于目标的得分以及目标的框坐标。目标的得分用于指示该建议区域中包含目标的得分,目标的框坐标用于指示目标的位置。
34.感兴趣区域池化(region of interest pooling,roi pooling):是指使用最大池化操作将感兴趣的区域(例如,建议区域)转换为预设维度的特征图,以便于输出到下一层网络中。
35.建议区域(region proposals):是指根据输入图像查找到的可以定位目标的所有可能位置。建议区域的输出可以是目标的可能位置的边界框列表。建议区域还可以被称为区域提案或感兴趣的区域。
36.锚(anchor):检测算法中用于预先锚定目标可能存在位置的坐标框。
37.真实框(ground truth box,gt box),是指一幅图像中真实存在的目标框。
38.算子:是指对函数空间之间的映射的操作。
39.全连接层(fully connected layers,fc):全连接层中的每个节点都与上一层的所有节点相连,可用于将之前提取的特征进行综合和分类。例如,在cnn结构中,经过卷积层和池化层之后,通常连接一个或多个全连接层,全连接层中的每一个神经元与其之前一层的所有神经元连接,以整合卷积层或池化层中具有类别区分性的局部信息。全连接层的激
励函数通常使用relu函数,最后一个全连接层的输出值作为整个全连接网络得输出,可以采用softmax函数进行分类。
40.全局平均池化层(global average pooling,goa):是指在池化过程中没有采用过滤尺寸,针对整个特征图进行的池化操作。特征图在goa之后可得到一个输出值,再根据该输出值进行全连接层的操作,可以在学习过程中节省很多参数,减少计算复杂度。
41.图1是本技术一实施例的应用于目标检测的cnn的框架示意图。如图1所示,cnn框架可包括以下四个部分:卷积层(conv layers)网络、rpn网络、roi池化层以及全连接层网络。
42.其中,卷积层网络中可包括一个或多个卷积层,用于提取图像的特征,其输入为待处理图像,输出为提取出的特征,即特征图。rpn网络用于接收最后一个卷积层输出的特征图,并对输入的图像进行处理,输出多个建议区域。每个建议区域可包括目标的得分以及目标的框坐标。作为示例,上述目标可以包括人脸、人体、车辆、建筑物等。
43.roi池化层用于接收rpn网络输出的建议区域的集合,并将不同大小的输入转换为预设长度的向量并输出。全连接层网络用于输出建议区域所属的分类,和建议区域在图像中的精确位置。
44.应理解,图1的框架的说明仅仅作为示例而非限定,在实践中,可以在上述框架的基础上作适当的变形和增减,仍然适用于本技术实施例的方案。
45.为了解决现有技术的如上技术问题,本技术实施例提出了一种基于建议区域的处理图像的方法和装置。该方法能够实现多任务的目标检测和目标特征检测,即利用一个算法模型同时进行目标检测及目标特征检测。例如,同时实现人脸检测及人脸特征点定位,不仅减少了算法库占用的存储空间,并且只需要一次端到端的计算便实现目标检测和目标特征检测,节省了计算时间和计算资源。
46.下面以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
47.图2是本技术一实施例的算法的框架结构示意图。如图2所示,可以将待处理图像输入至卷积层网络进行处理,卷积层网络中可包括一个或多个卷积层,并由最后一个卷积层输出第一特征图。rpn网络接收该第一特征图,并对第一特征图进行处理,输出建议区域的集合。然后对多个建议区域进行roi池化,得到第二特征图。将第二特征图输入至全连接层(fc)网络,以得到最终的输出结果。
48.其中,本技术实施例在全连接层网络的训练过程中,除了目标得分和目标的框坐标之外,还增加了对目标的特征信息的训练。例如,目标的特征信息训练可包括对人脸的特征点坐标的训练、对人脸的年纪的训练、对人脸是否佩戴附属物品的训练等。从而可以在一个算法中实现目标检测和目标特征检测。可选地,上述全连接层网络中可包括一个或多个全连接层。
49.通过rpn网络输出的特征点的算法是较为准确的,即rpn网络最终输出的目标的框坐标是准确的。但是利用rpn网络进行特征点回归得到的目标特征信息的结果却偏抖动,因为rpn网络在内部进行特征点回归时所依赖的目标框的坐标是anchor,anchor并不准确。本技术实施例中,在rpn网络输出的较为准确的目标的框坐标的基础上,利用全连接层网络进
行特征点的回归,因此可以获得更加准确的目标特征信息,并且通过一个算法模型实现目标检测及目标特征检测,能够减少算法库占用的大小和计算时间。
50.图3是本技术一实施例的用于处理图像的方法的流程示意图。如图3所示,该方法包括以下内容。
51.s301、将待处理的第一特征图输入至rpn网络,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标。
52.可选地,上述第一特征图可以是对待处理图像进行卷积操作之后得到的特征图。例如,可以将待处理图像输入卷积层网络,以提取特征,得到特征图。卷积层网络中可包括一个或多个卷积层,上述第一特征图可以指最后一个卷积层输出的特征图。
53.可选地,上述目标可以指需要进行目标检测的任何物体,例如人脸、人体、动物、车辆、建筑物等。
54.s302、根据多个建议区域,获取第二特征图,第二特征图中包括多个建议区域。
55.可选地,在s302部分,上述根据多个建议区域,获取第二特征图,包括:将多个建议区域的位置坐标映射至第一特征图之上;通过roi池化层将多个建议区域池化为同一尺寸;将多个建议区域相连,得到第二特征图。
56.例如,如图2所示,第二特征图的尺寸可表示为n*c*k*k,其中,n表示目标的个数,c表示通道数目,k*k表示将建议区域池化的同一尺寸的大小。其中,n,c,k均为大于0的整数。
57.s303、将第二特征图输入至全连接层网络进行处理,以得到输出结果,输出结果包括:目标的得分、目标特征信息以及目标的框坐标。
58.作为示例,目标为人脸,目标特征信息包括以下至少一项:人脸特征点的坐标、人脸对应的年纪、人脸是否佩戴附属物品。例如,人脸是否戴口罩、人脸是否化妆等。
59.作为示例,目标为人体时,目标特征信息可包括人体的姿态信息。或者,若目标为其它物体时,目标特征信息可以是物体的对应的任何形式的特征信息。
60.可选地,在s303部分,将第二特征图输入至全连接层网络进行处理,以得到以下输出结果,包括:通过gap算子将第二特征图映射至第一向量;将第一向量输入至全连接层网络,以得到输出结果。
61.其中,上述第一向量的长度可以是预设长度。通过gap算子对第二特征图映射之后,只得到一个向量,再根据该向量进行全连接层的操作,可以在学习过程中节省很多参数,减少计算复杂度。
62.在本技术实施例中,提出了一种基于建议区域的处理图像的方法和装置。该方法能够实现多任务的目标检测和目标特征检测,即利用一个算法模型可以同时进行目标检测及目标特征检测。不仅减少了算法库占用的存储空间,并且只需要一次端到端的计算便实现目标检测和目标特征检测,节省了计算时间和计算资源。
63.图4是本技术又一实施例的用于处理图像的方法的具体流程示意图。图4中以人脸识别和人脸特征点定位为例,描述了本技术实施例的处理图像的方法。如图4所示,该方法包括以下内容。
64.s401、向rpn网络输入待处理的第一特征图,并得到rpn网络输出的多个指示人脸可能存在的建议区域。
65.可选地,该第一特征图可以是通过卷积层处理之后得到的特征图。
66.上述每个建议区域可对应于:是否是人脸的得分、人脸框坐标。
67.s402、将多个建议区域的位置坐标映射到第一特征图之上。
68.s403、通过roi池化层获取第二特征图。
69.例如,可通过roi池化层将上述多个建议区域的特征统一到同一大小的维度并相连,以得到第二特征图像。
70.s404、通过goa算子将第二特征图映射至预设长度的第一向量。
71.s405、将第一向量输出全连接层网络,以得到输出结果,输出结果包括:是否是人脸的得分、人脸特征点坐标、人脸框坐标。
72.可选地,在全连接层网络的训练过程中,除了人脸的特征点坐标之外,全连接层网络中还可以增加其它类型的人脸特征信息的训练,例如,对人脸的年纪的训练、对人脸是否佩戴附属物品的训练等。从而可以在一个算法中实现人脸检测和人脸特征检测。
73.在本技术实施例中,提出了一种基于建议区域的处理图像的方法和装置。该方法能够实现多任务的目标检测和目标特征检测,即利用一个算法模型可以同时进行目标检测及目标特征检测。不仅减少了算法库占用的存储空间,并且只需要一次端到端的计算便实现目标检测和目标特征检测,节省了计算时间和计算资源。
74.图5是本技术一实施例的装置500的结构示意图。装置500用于执行图2至图4中的方法。
75.如图5所示,该装置500包括第一处理模块510、第二处理模块520以及第三处理模块530。其中,第一处理模块510用于将待处理的第一特征图输入至rpn网络中,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标;第二处理模块520用于根据多个建议区域,获取第二特征图,第二特征图中包括多个建议区域;第三处理模块530用于将第二特征图输入至全连接层网络进行处理,以得到输出结果,输出结果包括:目标的得分、目标特征信息以及目标的框坐标。
76.在全连接层网络的训练过程中,除了人脸的特征点坐标之外,全连接层网络中还可以增加其它类型的人脸特征信息的训练,例如,对人脸的年纪的训练等。从而可以在一个算法中实现人脸检测和人脸特征检测。
77.在一些示例中,在根据多个建议区域,获取第二特征图方面,第二处理模块520具体用于:将多个建议区域的位置坐标映射至第一特征图之上;通过roi池化层将多个建议区域池化为同一尺寸;将多个建议区域相连,得到第二特征图。
78.在一些示例中,在将第二特征图输入至全连接层网络进行处理,以得到输出结果方面,第三处理模块530具体用于:通过gap算子将第二特征图映射至第一向量;将第一向量输入至全连接层网络,以得到输出结果。
79.在一些示例中,目标为人脸,目标特征信息包括以下至少一项:人脸特征点的坐标、人脸对应的年纪。
80.在本技术实施例中,提出了一种基于建议区域的处理图像的方法和装置。该方法能够实现多任务的目标检测和目标特征检测,即利用一个算法模型可以同时进行目标检测及目标特征检测。不仅减少了算法库占用的存储空间,并且只需要一次端到端的计算便实现目标检测和目标特征检测,节省了计算时间和计算资源。
81.图6是本技术一实施例的装置600的结构示意图。装置600用于执行上文中的图2至
图4中的方法。
82.该装置600包括处理器610,处理器610用于执行存储器620存储的计算机程序或指令,或读取存储器620存储的数据,以执行上文各方法实施例中的方法。可选地,处理器610为一个或多个。
83.可选地,如图6所示,该装置600还包括存储器620,存储器620用于存储计算机程序或指令和/或数据。该存储器620可以与处理器610集成在一起,或者也可以分离设置。可选地,存储器620为一个或多个。
84.可选地,如图6所示,该装置600还包括通信接口630,通信接口630用于信号的接收和/或发送。例如,处理器610用于控制通信接口630进行信号的接收和/或发送。
85.可选地,该装置600用于实现上文各个方法实施例中的图2至图4的方法。
86.例如,处理器610用于执行存储器620存储的计算机程序或指令,以实现上文各个方法实施例的相关操作。例如,处理器610用于:将待处理的第一特征图输入至rpn网络中,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标;根据多个建议区域,获取第二特征图,第二特征图中包括多个建议区域;将第二特征图输入至全连接层网络进行处理,以得到输出结果,输出结果包括:目标的得分、目标特征信息以及目标的框坐标。
87.在一些示例中,在根据多个建议区域,获取第二特征图方面,处理器610具体用于:包括:将多个建议区域的位置坐标映射至第一特征图之上;通过roi池化层将多个建议区域池化为同一尺寸;将多个建议区域相连,得到第二特征图。
88.在一些示例中,在将第二特征图输入至全连接层网络进行处理,以得到输出结果方面,处理器610具体用于:通过gap算子将第二特征图映射至第一向量;将第一向量输入至全连接层网络,以得到输出结果。
89.在全连接层网络的训练过程中,除了人脸的特征点坐标之外,全连接层网络中还可以增加其它类型的人脸特征信息的训练,例如,对人脸的年纪的训练等。从而可以在一个算法中实现人脸检测和人脸特征
90.在一些示例中,目标为人脸,目标特征信息包括以下至少一项:人脸特征点的坐标、人脸对应的年纪。
91.需要指出的是,图6中的装置600可以是实体装置,也可以是实体装置的组成部件(如芯片),在此不做限定。
92.在本技术实施例中,处理器是一种具有信号的处理能力的电路,在一种实现中,处理器可以是具有指令读取与运行能力的电路,例如cpu、微处理器、gpu(可以理解为一种微处理器)、或dsp等;在另一种实现中,处理器可以通过硬件电路的逻辑关系实现一定功能,该硬件电路的逻辑关系是固定的或可以重构的,例如处理器为asic或pld实现的硬件电路,例如fpga。在可重构的硬件电路中,处理器加载配置文档,实现硬件电路配置的过程,可以理解为处理器加载指令,以实现以上部分或全部单元的功能的过程。此外,还可以是针对人工智能设计的硬件电路,其可以理解为一种asic,例如npu、tpu、dpu等。
93.可见,以上装置中的各单元可以是被配置成实施以上方法的一个或多个处理器(或处理电路),例如:cpu、gpu、npu、tpu、dpu、微处理器、dsp、asic、fpga,或这些处理器形式中至少两种的组合。
94.此外,以上装置中的各单元可以全部或部分可以集成在一起,或者可以独立实现。在一种实现中,这些单元集成在一起,以片上系统(system-on-a-chip,soc)的形式实现。该soc中可以包括至少一个处理器,用于实现以上任一种方法或实现该装置各单元的功能,该至少一个处理器的种类可以不同,例如包括cpu和fpga,cpu和人工智能处理器,cpu和gpu等。
95.相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序/指令被处理器执行时,致使处理器实现图2至图4中的方法中的步骤。
96.相应地,本技术实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器实现图2至图4中的方法中的步骤。
97.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
98.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
99.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
100.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
101.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
102.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
103.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备
或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
104.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括上述要素的过程、方法、商品或者设备中还存在另外的相同要素。
105.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:1.一种用于处理图像的方法,其特征在于,包括:将待处理的第一特征图输入至rpn网络中,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标;根据所述多个建议区域,获取第二特征图,所述第二特征图中包括所述多个建议区域;将所述第二特征图输入至全连接层网络进行处理,以得到输出结果,所述输出结果包括:目标的得分、目标特征信息以及目标的框坐标。2.如权利要求1所述的方法,其特征在于,所述根据所述多个建议区域,获取第二特征图,包括:将所述多个建议区域的位置坐标映射至所述第一特征图之上;通过roi池化层将所述多个建议区域池化为同一尺寸;将所述多个建议区域相连,得到所述第二特征图。3.如权利要求1或2所述的方法,其特征在于,所述将所述第二特征图输入至全连接层网络进行处理,以得到输出结果,包括:通过gap算子将所述第二特征图映射至第一向量;将所述第一向量输入至所述全连接层网络,以得到所述输出结果。4.如权利要求1或2所述的方法,其特征在于,所述目标为人脸,所述目标特征信息包括以下至少一项:人脸特征点的坐标、人脸对应的年纪。5.一种用于处理图像的装置,其特征在于,包括:第一处理模块,用于将待处理的第一特征图输入至rpn网络中,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标;第二处理模块,用于根据所述多个建议区域,获取第二特征图,所述第二特征图中包括所述多个建议区域;第三处理模块,用于将所述第二特征图输入至全连接层网络进行处理,以得到输出结果,所述输出结果包括:目标的得分、目标特征信息以及目标的框坐标。6.如权利要求5所述的装置,其特征在于,在所述根据所述多个建议区域,获取第二特征图方面,所述第二处理模块具体用于:将所述多个建议区域的位置坐标映射至所述第一特征图之上;通过roi池化层将所述多个建议区域池化为同一尺寸;将所述多个建议区域相连,得到所述第二特征图。7.如权利要求5或6所述的装置,其特征在于,在所述将所述第二特征图输入至全连接层网络进行处理,以得到输出结果方面,所述第三处理模块具体用于:通过gap算子将所述第二特征图映射至第一向量;将所述第一向量输入至所述全连接层网络,以得到所述输出结果。8.如权利要求5或6所述的装置,其特征在于,所述目标为人脸,所述目标特征信息包括以下至少一项:人脸特征点的坐标、人脸对应的年纪。9.一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至4中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机
执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至4中任一项所述的方法。
技术总结本申请实施例提供了一种处理图像的方法和装置,用以解决目标检测模型的算法库占用存储空间较大以及计算效率较低的问题。该方法包括:将待处理的第一特征图输入至RPN网络中,以得到多个建议区域,每个建议区域对应于:目标的得分以及目标的框坐标;根据多个建议区域,获取第二特征图,第二特征图中包括多个建议区域;将第二特征图输入至全连接层网络进行处理,以得到输出结果,输出结果包括:目标的得分、目标特征信息以及目标的框坐标。该方法利用一个算法模型同时进行目标检测及目标特征检测,减少了算法库占用的存储空间,并且只需要一次端到端的计算便实现目标检测和目标特征检测,节省了计算时间和计算资源。节省了计算时间和计算资源。节省了计算时间和计算资源。
技术研发人员:高志华
受保护的技术使用者:阿里云计算有限公司
技术研发日:2022.03.28
技术公布日:2022/7/5