一种视频眼瞳定位跟踪方法及装置与流程

allin2023-03-15  114



1.本发明属于视频跟踪技术领域,具体涉及一种视频眼瞳定位跟踪方法及装置。


背景技术:

2.眼瞳定位不仅在安全驾驶检测中有着很重要的作用,而且在vr(virtual reality,虚拟现实)、ar(augmented reality,增强现实)等领域也起着至关重要的作用。眼瞳定位一般都包括以下三个步骤:人脸检测,人眼区域定位,人眼眼瞳定位。
3.现有的瞳孔定位方法一般采用传统图像处理方法,如hough变换法、椭圆拟合法和梯度向量法等。这些传统的图像处理方法虽然在处理速度上有一定的优势,但在精度上却不尽人意;尤其当人眼区域受到光照变化、遮挡的影响时,传统的图像处理方法就很难定位出瞳孔的位置,从而使定位精度大大降低。申请号为202010263340.9的发明专利提出一种基于深度学习对眼瞳进行定位的方法,该方法在成熟的人脸检测模型、人脸特征点检测模型下,结合深度神经网络强大的特征学习能力建立眼瞳定位模型。该方法由于只单纯地利用了深度神经网络的特征学习能力,基于对单张图片的训练建立眼瞳定位模型,没有考虑视频上下帧之间的关联信息,因此虽然算法精度有所提升,但实时性、抗物体遮挡能力等还有待提高,而且需要大量的图像标注。


技术实现要素:

4.为了解决现有技术中存在的上述问题,本发明提供一种视频眼瞳定位跟踪方法及装置。
5.为了实现上述目的,本发明采用以下技术方案。
6.第一方面,本发明提供一种视频眼瞳定位跟踪方法,包括以下步骤:
7.获取当前帧眼部图像hi,将上一帧眼部图像h
i-1
和hi输入到对抗网络中,得到预测的下一帧眼部图像h
i+1

8.将h
i+1
输入到第一分割网络,得到预测的下一帧眼瞳的分割掩码y
i+1
,并将y
i+1
存入眼瞳掩码池;
9.将hi和预测的当前帧眼瞳的分割掩码yi输入到第二分割网络,得到当前帧的眼瞳分割掩码;i=1,2时,yi为标定好的眼瞳分割掩码;i》2时,yi从眼瞳掩码池获得;
10.重复上述步骤,直到处理完所有帧眼部图像。
11.进一步地,所述方法还包括:在得到当前帧的精细眼瞳分割掩码后,从眼瞳掩码池删除yi。
12.进一步地,第一帧眼部图像h1和第二帧眼部图像h2的眼瞳掩码y1、y2通过人工标注获得,或通过分别将h1、h2输入一个训练好的分割网络模型自动获得。
13.更进一步地,所述对抗网络为cyclegan网络。
14.进一步地,所述第一分割网络和第二分割网络均为unet网络。
15.第二方面,本发明提供一种视频眼瞳定位跟踪装置,包括:
16.图像预测模块,用于获取当前帧眼部图像hi,将上一帧眼部图像h
i-1
和hi输入到对抗网络中,得到预测的下一帧眼部图像h
i+1

17.粗略分割模块,用于将h
i+1
输入到第一分割网络,得到预测的下一帧眼瞳的分割掩码y
i+1
,并将y
i+1
存入眼瞳掩码池;
18.精细分割模块,用于将hi和预测的当前帧眼瞳的分割掩码yi输入到第二分割网络,得到当前帧的眼瞳分割掩码;i=1,2时,yi为标定好的眼瞳分割掩码;i》2时,yi从眼瞳掩码池获得;
19.循环执行模块,用于重复上述步骤,直到处理完所有帧眼部图像。
20.进一步地,所述装置还包括掩码池更新模块,用于在得到当前帧的精细眼瞳分割掩码后,从眼瞳掩码池删除yi。
21.进一步地,第一帧眼部图像h1和第二帧眼部图像h2的眼瞳掩码y1、y2通过人工标注获得,或通过分别将h1、h2输入一个训练好的分割网络模型自动获得。
22.更进一步地,所述对抗网络为cyclegan网络。
23.进一步地,所述第一分割网络和第二分割网络均为unet网络。
24.与现有技术相比,本发明具有以下有益效果。
25.本发明通过获取当前帧眼部图像,将上一帧眼部图像和当前帧眼部图像输入到对抗网络中得到预测的下一帧眼部图像,并将其输入到第一分割网络得到预测的下一帧眼瞳的分割掩码后存入眼瞳掩码池,将预测的当前帧眼瞳的分割掩码和当前帧眼部图像输入到第二分割网络,得到当前帧的眼瞳分割掩码,重复上述步骤直到处理完所有帧眼部图像,实现了眼瞳的自动定位跟踪。本发明通过设置对抗网络利用相邻两帧眼部图像的相关性预测下一帧眼部图像,从而得到预测的下一帧的眼瞳分割掩码的位置,可有效去除噪声影响。利用相邻前后两帧图像的相关性,只需对最开始的两帧图像进行标注,便可实现对眼瞳的自动跟踪,大大减少了标注数量。
附图说明
26.图1为本发明实施例一种视频眼瞳定位跟踪方法的流程图。
27.图2为本发明实施例的网络模型整体结构示意图。
28.图3为生成对抗网络gan的结构示意图。
29.图4为cyclegan网络的结构示意图。
30.图5为unet网络的结构示意图。
31.图6为本发明实施例一种视频眼瞳定位跟踪装置的方框图。
具体实施方式
32.为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.图1为本发明实施例一种视频眼瞳定位跟踪方法的流程图,包括以下步骤:
34.步骤101,获取当前帧眼部图像hi,将上一帧眼部图像h
i-1
和hi输入到对抗网络中,
得到预测的下一帧眼部图像h
i+1

35.步骤102,将h
i+1
输入到第一分割网络,得到预测的下一帧眼瞳的分割掩码y
i+1
,并将y
i+1
存入眼瞳掩码池;
36.步骤103,将hi和预测的当前帧眼瞳的分割掩码yi输入到第二分割网络,得到当前帧的眼瞳分割掩码;i=1,2时,yi为标定好的眼瞳分割掩码;i》2时,yi从眼瞳掩码池获得;
37.步骤104,重复步骤101~103,直到处理完所有帧眼部图像。
38.本实施例提供一种视频眼瞳定位跟踪方法,所述方法通过执行步骤101~104实现。实现所述方法的整体网络模型结构如图2所示。
39.本实施例中,步骤101主要用于基于前两帧的眼部图像预测下一帧的眼部图像。本实施例基于相邻两帧视频图像的相关性,通过将它们输入到一个对抗网络中预测下一帧眼部图像。生成对抗网络gan(generative adversarial networks)是一种典型的对抗网络,其结构示意图如图3所示,主要由生成器网络g(generator)和差别器网络d(discriminator)两个神经网络组成。g是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做g(z)。d是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出d(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片;而输出为0,就代表不可能是真实的图片。在训练过程中,生成网络g的目标就是尽量生成真实的图片去欺骗判别网络d;而d的目标就是尽量把g生成的图片和真实的图片分别开来。这样,g和d构成了一个动态的博弈过程或对抗过程。
40.本实施例中,步骤102主要用于在预测的下一帧眼部图像h
i+1
中生成眼瞳的分割掩码y
i+1
。本实施例通过将眼部图像h
i+1
输入到一个分割网络即第一分割网络中,得到分割掩码y
i+1
。第一分割网络输入的是单帧眼部图像,输出一个粗略的分割掩码。第一分割网络输出的粗略分割掩码y
i+1
存入眼瞳掩码池,用作第二分割网络的一个输入,用于确定眼瞳掩码的大致位置,可使第二分割网络输出精细的眼瞳分割掩码。眼瞳掩码池是用于存放粗略分割掩码的存储器,如图2所示。
41.本实施例中,步骤103主要用于获得当前帧的眼瞳分割掩码。本实施例通过将当前帧眼部图像hi和预测的当前帧眼瞳的分割掩码yi输入到第二分割网络,得到当前帧的眼瞳分割掩码。与第一分割网络不同的是,第二分割网络设置了两个输入端,一个输入是当前帧眼部图像hi,另一个是预测的当前帧眼瞳的分割掩码yi。如前述,由于可以给出眼瞳掩码的大致位置,因此,第二分割网络针对当前帧眼部图像和测的当前帧眼瞳的分割掩码进行处理,可输出高精度的即精细的眼瞳分割掩码。值得说明的是,只有最开始的两帧眼部图像(第一帧和第二帧)需要进行标注,即标出眼瞳的分割掩码;从第三帧眼部图像开始就不再需要进行标注,而是通过对抗网络基于前两帧眼部图像生成预测的下一帧的眼部图像,进而得到其粗略的眼瞳分割掩码,再与输入的当前帧眼部图像一起输入到第二分割网络得到当前帧的眼瞳分割掩码,实现对眼瞳的定位与跟踪。因此,需要标注的图像数量大大减小(只需标注两帧)。
42.本实施例中,步骤104主要用于通过循环执行步骤101~103实现对所有帧眼部图像的眼瞳跟踪。每执行完一次步骤101~103,输入一帧新的眼部图像,更新一次i,即用i+1替换i,直到处理完所有需要处理的眼部图像。
43.作为一可选实施例,所述方法还包括:在得到当前帧的精细眼瞳分割掩码后,从眼
瞳掩码池删除yi。
44.本实施例给出一种更新眼瞳掩码池的一种技术方案。如前述,眼瞳掩码池是用于存放粗略分割掩码的存储器。为了减小眼瞳掩码池占用的存储空间,本实施例在每次执行完步骤103后,从眼瞳掩码池中删除预测的当前眼瞳掩码帧yi。进行上述操作后,眼瞳掩码池中最多存储两个眼瞳掩码帧即yi、y
i+1
,可大大减小保存眼瞳掩码占用的空间。
45.作为一可选实施例,第一帧眼部图像h1和第二帧眼部图像h2的眼瞳掩码y1、y2通过人工标注获得,或通过分别将h1、h2输入一个训练好的分割网络模型自动获得。
46.本实施例给出了最开始的两帧眼部图像的标注方法。如前述,本实施例只须对前最开始的两帧眼部图像进行标注。对第一帧眼部图像和第二帧眼部图像的标注,可采用人工标注方式,也可以采用自动标注方式。自动标注方式需要构建一个眼瞳掩码分割网络模型,分别将第一帧眼部图像和第二帧眼部图像输入到训练好的分割网络模型,便可实现自动标注。
47.作为一可选实施例,所述对抗网络为cyclegan网络。
48.本实施例给出了对抗网络的一种技术方案。本实施例的对抗网络选用cyclegan网络。cyclegan是一类跨域图像风格转换的gan模型。cyclegan模型是基于对偶学习的思想,可以在没有一一对应的源域和目标域之间学习到映射关系,即使没有配对的训练集也可以进行图像风格转换任务。cyclegan模型是先通过从源域到目标域的映射,然后又能从目标域中转换回来,利用这种方式就可以消除训练图像配对的限制。对于单gan模型,生成器和判别器两者之间进行相互博弈,生成网络从样本数据中学习数据特征分布,而判别网络分辨是真实图像还是生成图像。生成器和判别器之间从相互对抗训练中优化,从而最终可以生成和实际分布完全逼近的数据。对于这种训练方式在跨域图像风格转换任务上存在一个问题,网络模型可能会把源域映射到目标域上的不确定组合,所以甚至完全可以将所有的源域都映射到目标域中的同一张图像。仅仅通过单独的对抗损失,是不能达到将源域映射到目标域期望的输出结果。为了解决这个问题,cyclegan模型采用的是循环一致的约束条件,将源域中的数据经过两次转换后,应该和源域分布中的数据特征吻合。cyclegan模型通过第一个映射g,将x域的数据转换成y域,然后通过第二个映射f转换回来,通过这种方式就解决了x域可能会都映射到y域同一张图片的情况,如图4所示。cyclegan模型结构可以看成一个双生成对抗的模式,在结构上像一个环形网络。
49.作为一可选实施例,所述第一分割网络和第二分割网络均为unet网络。
50.本实施例中,第一分割网络和第二分割网络均采用unet网络。unet网络的结构呈“u”字型,其结构示意图如图4所示。unet借鉴了全卷积神经网络fcn(fully convolutionnetwork),其网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,使用了3
×
3的卷积和池化下采样,能够抓住图像中的上下文信息(也即像素间的关系);后面部分网络则是与前面基本对称,使用的是3
×
3卷积和上采样,以达到输出图像分割的目的。此外,网络中还用到了特征融合,将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息,达到更好的分割效果。
51.图4为本发明实施例一种视频眼瞳定位跟踪装置的组成示意图,所述装置包括:
52.图像预测模块11,用于获取当前帧眼部图像hi,将上一帧眼部图像h
i-1
和hi输入到对抗网络中,得到预测的下一帧眼部图像h
i+1

53.粗略分割模块12,用于将h
i+1
输入到第一分割网络,得到预测的下一帧眼瞳的分割掩码y
i+1
,并将y
i+1
存入眼瞳掩码池;
54.精细分割模块13,用于将hi和预测的当前帧眼瞳的分割掩码yi输入到第二分割网络,得到当前帧的眼瞳分割掩码;i=1,2时,yi为标定好的眼瞳分割掩码;i》2时,yi从眼瞳掩码池获得;
55.循环执行模块14,用于重复上述步骤,直到处理完所有帧眼部图像。
56.本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
57.作为一可选实施例,所述装置还包括掩码池更新模块,用于在得到当前帧的精细眼瞳分割掩码后,从眼瞳掩码池删除yi。
58.作为一可选实施例,第一帧眼部图像h1和第二帧眼部图像h2的眼瞳掩码y1、y2通过人工标注获得,或通过分别将h1、h2输入一个训练好的分割网络模型自动获得。
59.作为一可选实施例,所述对抗网络为cyclegan网络。
60.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种视频眼瞳定位跟踪方法,其特征在于,包括以下步骤:获取当前帧眼部图像h
i
,将上一帧眼部图像h
i-1
和h
i
输入到对抗网络中,得到预测的下一帧眼部图像h
i+1
;将h
i+1
输入到第一分割网络,得到预测的下一帧眼瞳的分割掩码y
i+1
,并将y
i+1
存入眼瞳掩码池;将h
i
和预测的当前帧眼瞳的分割掩码y
i
输入到第二分割网络,得到当前帧的眼瞳分割掩码;i=1,2时,y
i
为标定好的眼瞳分割掩码;i>2时,y
i
从眼瞳掩码池获得;重复上述步骤,直到处理完所有帧眼部图像。2.根据权利要求1所述的视频眼瞳定位跟踪方法,其特征在于,所述方法还包括:在得到当前帧的精细眼瞳分割掩码后,从眼瞳掩码池删除y
i
。3.根据权利要求1所述的视频眼瞳定位跟踪方法,其特征在于,第一帧眼部图像h1和第二帧眼部图像h2的眼瞳掩码y1、y2通过人工标注获得,或通过分别将h1、h2输入一个训练好的分割网络模型自动获得。4.根据权利要求3所述的视频眼瞳定位跟踪方法,其特征在于,所述对抗网络为cyclegan网络。5.根据权利要求1所述的视频眼瞳定位跟踪方法,其特征在于,所述第一分割网络和第二分割网络均为unet网络。6.一种视频眼瞳定位跟踪装置,其特征在于,包括:图像预测模块,用于获取当前帧眼部图像h
i
,将上一帧眼部图像h
i-1
和h
i
输入到对抗网络中,得到预测的下一帧眼部图像h
i+1
;粗略分割模块,用于将h
i+1
输入到第一分割网络,得到预测的下一帧眼瞳的分割掩码y
i+1
,并将y
i+1
存入眼瞳掩码池;精细分割模块,用于将h
i
和预测的当前帧眼瞳的分割掩码y
i
输入到第二分割网络,得到当前帧的眼瞳分割掩码;i=1,2时,y
i
为标定好的眼瞳分割掩码;i>2时,y
i
从眼瞳掩码池获得;循环执行模块,用于重复上述步骤,直到处理完所有帧眼部图像。7.根据权利要求6所述的视频眼瞳定位跟踪装置,其特征在于,所述装置还包括掩码池更新模块,用于在得到当前帧的精细眼瞳分割掩码后,从眼瞳掩码池删除y
i
。8.根据权利要求6所述的视频眼瞳定位跟踪装置,其特征在于,第一帧眼部图像h1和第二帧眼部图像h2的眼瞳掩码y1、y2通过人工标注获得,或通过分别将h1、h2输入一个训练好的分割网络模型自动获得。9.根据权利要求8所述的视频眼瞳定位跟踪装置,其特征在于,所述对抗网络为cyclegan网络。10.根据权利要求6所述的视频眼瞳定位跟踪装置,其特征在于,所述第一分割网络和第二分割网络均为unet网络。

技术总结
本发明提供一种视频眼瞳定位跟踪方法及装置。所述方法包括:获取当前帧眼部图像H


技术研发人员:谭卫雄 周振 俞益洲 李一鸣 乔昕
受保护的技术使用者:杭州深睿博联科技有限公司
技术研发日:2022.02.17
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-6043.html

最新回复(0)