一种基于全局可微分架构自动神经网络搜索的眼动识别方法

allin2025-03-15  43


本发明属于眼动识别,具体公开了一种基于全局可微分架构自动神经网络搜索的眼动识别方法。


背景技术:

1、近年来,以眼动为代表的行为特征生物识别技术得到了迅速的发展。眼动生物识别技术利用眼球在观察、注视和阅读等过程中,大脑神经电信号控制下的眼球运动产生的行为模式进行特征提取和识别,眼球运动特征因此包含了有关大脑实时认知的大量信息,是独一无二的。眼动追踪设备可以根据近红外光在眼球上的反射特征读取眼球的注视点位置,进而搜集注视点的运动轨迹数据,这些原始数据经过模型的特征提取后便可进行生物识别。

2、近年来随着深度学习的兴起,可以通过神经网络自动从原始数据中学习特征表示,而无需手动进行特征提取,但应用在眼动识别领域的网络结构较为单一,主要依赖于传统的卷积神经网络,这种简单的网络结构可能无法充分挖掘眼动数据中的复杂特征和关联信息。

3、神经网络架构搜索(nas)算法的提出解决了上述问题,它可以在预先设定的搜索空间中根据搜索策略自动选取和组合子操作,从而生成神经网络架构,通过对生成架构的评估来选取最优的架构。可微分架构搜索(darts)算法的提出将搜索成本降低到了单个显卡可以接受的范围,它将搜索空间中离散的网络结构选择视为连续空间内的架构权重参数优化问题,使用梯度下降进行高效搜索。darts搜索目标为通过在搜索空间的候选操作中搜索最佳操作组合,得到保持输入和输出维度不变的normal cell以及输出特征维度减半的reductioncell,算法整体流程示意图如图1所示,其中cell在搜索阶段可以视为一个有向无环图,路径为候选操作结点为潜在特征映射x,每个cell含有两个输入结点,四个中间结点和一个输出结点。其中中间结点可以表示为:

4、

5、darts对edge上混合操作中每个候选操作o(i,j)都赋予一个架构权重α,再对混合操作使用softmax函数进行归一化,公式如下:

6、

7、神经网络架构权重α和网络权重w视为双重优化问题进行联合优化,使用ltrain和lval表示模型在训练集和验证集上的损失,整个架构搜索的目的是利用梯度下降找到最小化ltrain对应的网络结构参数w和最小化lval对应的结构权重α,公式如下:

8、

9、

10、以往的darts方法拥有唯一的搜索空间,搜索和评估网络均由normal cell和reduction cell堆叠而成,但不同深度的cell有选择不同操作的倾向,这种cell间参数共享的策略大大限制了网络的多样性,也对性能产生了影响。

11、darts算法在搜索成本和效果上达成了微妙的平衡,但是也存在很多缺点,例如跳接富集现象带来的性能崩溃和cell参数共享带来的搜索空间多样性低下。并且当前的眼动识别研究中,存在着各种不同的实验方法,导致结果的可比性和可重现性受到限制,例如有些工作使用同一个时间段采集的数据作为训练集和测试集,导致rank_1识别率和eer表现十分出色,但在实际应用场景中模型的鲁棒性将受到极大的挑战。此外,部分研究对高采样率的眼动仪器和苛刻的实验设置过于依赖,限制了方法的实际可用性和适应性。在实际应用中,不同环境下的眼动数据采集条件可能存在一定的噪音和不确定性。


技术实现思路

1、本发明针对现有darts方法拥有唯一的搜索空间,cell间参数共享的策略造成缺乏网络多样性,进而对最终眼动识别性能产生了影响的问题,提供一种基于全局可微分架构自动神经网络搜索的眼动识别方法,

2、本发明中,基于全局可微分架构自动神经网络搜索的眼动识别方法,基于darts算法进行神经网络架构搜索,其中包括:

3、根据不同的网络深度为各层cell提供多个不同的搜索空间n为总的空间数量,并为每个cell的初始化一组结构参数αi,i为cell的索引,有:

4、αi=softmax(10-3·randon(n,m))

5、其中,randon(n,m)为随机初始化函数,n为cell中间结点个数,m为候选操作数;

6、引入了一组凸组合的可学习参数β={β0,β1}用来描述cell的输入s0和输入s1的权重;当i=1时,cell的两个输入皆为原始输入,当i>1时,celli的输入为上层celli-1的输入s1,输入为celli-1输出,及为绕过celli-1的跳接;

7、此时celln的输入公式为:

8、

9、将用于训练的眼动数据集分为验证集和测试集在验证集上优化α和β,通过得到的最优解建立训练架构,在测试集中对网络权重ω进行优化,总的优化目标如下:

10、α*=minlval(ω*(α),α)

11、β*=minlval(ω*(β),β)

12、

13、训练中,使用近似方案,将每一步更新得到的(α,β)视为当前最优,并在下一步构建模型优化ω,具体的近似公式如下:

14、

15、

16、

17、其中ξα和ξβ为α和β的优化学习率;

18、利用最终构建的并完成训练的神经网络模型进行动眼识别。

19、进一步的,还包括,所有cell根据其所在的网络深度,被分为了浅层cell,中层cell和深层cell三类;浅层cell共享搜索空间中层cell共享搜索空间深层cell共享搜索空间

20、进一步的,搜索空间中的操作包括:zero、skip-connect、max_pool_3、avg_pool_3、sep_conv_{3,5,7}以及dil_conv_{3,5,7};

21、进一步的,搜索空间中的操作包括:zero、skip-connect、max_pool_3、avg_pool_3、sep_conv_{5,7,9}以及dil_conv_{5,7,9};

22、进一步的,搜索空间中的操作包括:zero、skip-connect、max_pool_3、avg_pool_3、sep_conv_{7,9,11}、dil_conv_{7,9,11}以及self_attention;

23、进一步的,还包括,用于训练或识别眼动数据为眼球注视点坐标数据,并进行了如下的预处理:

24、对于眼球注视点坐标数据x=(x1,…,xt),y=(y1,…,yt),采用单样本后向差分法将坐标信息变成每个采样时刻的速度信息:

25、

26、

27、删除数据中没有注视点数据的时刻,并用0替换了剩余nan值,每个眼球的数据构成了网络的两条输入通道:水平速度序列<δx>以及垂直速度序列<δy>;

28、使用速度阈值法将原始数据转换成快速数据<dfast>和慢速数据<dslow>两个部分,具体的,取最小速度vmin以上的快速眼动数据<dfast>,再采用z-score归一化,处理公式如下所示:

29、

30、

31、其中δi为第i个采样点的速度,μ和σ为序列<δ>的均值和方差,度阈值vmin、比例因子c均为的固定超参数;

32、对于余下的慢速数据<dslow>,本例使用双曲正切函数将输入压缩到(-1,+1)范围内,有:

33、

34、进一步的,速度阈值vmin=40°/s、比例因子c=0.02。

35、进一步的,在预处理后,将快速数据和慢速数据分别输入到两个卷积核参数不同的多层一维卷积子网络进行不同尺度下的特征提取,最后在通道维度进行拼接,并作为整体输入到网络中进行进一步特征提取和分类。

36、本发明中,为了改进darts性能,自动搜索出具有优秀眼动识别性能的模型,提出了em-darts,一种基于cell结构独立搜索且具有全局搜索性能的可微分架构搜索算法,用于眼动识别网络搜索和训练。其核心思想是在不同网络深度下,给予含有不同候选网络的搜索空间,通过网络中每个cell架构参数α的独立训练来增加网络结构搜索时的自由度,并且通过引入cell的输入权重β来缓解深层网络训练时的过拟合现象。实践中发现,每一层都拥有选择操作的自由度后,跳接富集现象几乎只会出现在最后一层cell,这是因为靠近输出层需要传递损失的需要,在本发明的一些实施例中,通过在最后一层cell的搜索中引入自注意力机制,跳接富集现象被显著的抑制,网络因而更加稳定。

37、本发明中提出的em-darts算法,将自动网络搜索技术引入眼动识别领域代替传统手工设计网络进行深度学习,抛弃了基于参数共享和cell堆叠的搜索策略,给予每一个cell独立选择操作的权限,在几乎不增加算力开销的基础上大大增加了网络的搜索范围。另外,针对不同深度网络的特点,设置了三种具有不同参数的搜索空间,使深层网络具有更大的感受野,能够更专注于复杂的高维数据表征。是基于可微分神经网络架构搜索(darts)算法的一次重大改进,通过在数据库gazebase上的实验结果表明,em-darts搜索出的网络结构在减小验证误差方面优于现有方法,并获得了新的最先进的识别结果。

38、另外,本例中的方法给予了cell全局搜索的能力,具体来说,一维张量参数β被定义,用于衡量cell两个输入结点的权重,网络在搜索阶段同时进行参数β的搜索,给予每个cell选择输入方式的自由度。这样设计减少了信息传播过程中的损失和冗余,为网络提供了更灵活的特征表达。


技术特征:

1.一种基于全局可微分架构自动神经网络搜索的眼动识别方法,基于darts算法进行神经网络架构搜索,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括,所有cell根据其所在的网络深度,被分为了浅层cell,中层cell和深层cell三类;浅层cell共享搜索空间中层cell共享搜索空间深层cell共享搜索空间

3.根据权利要求2所述的方法,其特征在于,搜索空间中的操作包括:zero、skip-connect、max_pool_3、avg_pool_3、sep_conv_{3,5,7}以及dil_conv_{3,5,7}。

4.根据权利要求2所述的方法,其特征在于,搜索空间中的操作包括:zero、skip-connect、max_pool_3、avg_pool_3、sep_conv_{5,7,9}以及dil_conv_{5,7,9}。

5.根据权利要求2所述的方法,其特征在于,搜索空间中的操作包括:zero、skip-connect、max_pool_3、avg_pool_3、sep_conv_{7,9,11}、dil_conv_{7,9,11}以及self_attention。

6.根据权利要求1所述的方法,其特征在于,还包括,用于训练或识别的眼动数据为眼球注视点坐标数据,并进行了如下的预处理:

7.根据权利要求6所述的方法,其特征在于,速度阈值vmin=40°/s、比例因子c=0.02。

8.根据权利要求6所述的方法,其特征在于,在预处理后,将快速数据和慢速数据分别输入到两个卷积核参数不同的多层一维卷积子网络进行不同尺度下的特征提取,最后在通道维度进行拼接,并作为整体输入到网络中进行进一步特征提取和分类。


技术总结
本发明属于眼动识别技术领域,具体公开了一种基于全局可微分架构自动神经网络搜索的眼动识别方法,基于DARTS算法进行神经网络架构搜索,其中包括:根据不同的网络深度为各层Cell提供多个不同的搜索空间并为每个Cell的初始化一组结构参数α,引入了一组凸组合的可学习参数β用来描述Cell输入和输入的权重;将用于训练的眼动数据集分为验证集和测试集,并在验证集上优化α和β,通过得到的最优解建立训练架构,在测试集中对网络权重ω进行优化,利用最终构建的并完成训练的神经网络模型进行动眼识别。本发明解决了现有DARTS方法拥有唯一的搜索空间对最终眼动识别性能产生了影响的问题。

技术研发人员:秦华锋,朱泓宇,金鑫,廖洪超,陈静,项岩,杨开元
受保护的技术使用者:重庆工商大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19232.html

最新回复(0)