基于脉冲神经网络和注意力机制的多模态情绪识别方法

allin2025-03-17  32


本发明属于多模态情绪识别,具体涉及一种基于脉冲神经网络和注意力机制的情绪识别方法。


背景技术:

1、情感识别已逐渐成为人机交互、社交媒体分析、心理学和机器人技术等多个领域的关键技术。情感识别旨在理解和模拟人类的情感状态,对于提升用户体验、健康护理、教育等领域具有重要意义。情感本身是心理和生理过程的复杂交互作用,主要通过非语言方式表达,这增加了情感识别的复杂性。由于单一模态信息源的表达能力有限,往往难以完整捕捉情绪状态。因此,综合多种信息模态成为更全面理解情绪并提高情绪识别准确性的关键。

2、多模态情感识别旨在结合来自异构模态信号信息(如语音、文本、图像、脑电图),识别和解释人类情感,相关研究已取得了显著进展,特别是在深度学习技术的推动下。目前,深度神经网络被广泛应用于学习高层次的情感特征表示,从而提高识别的准确性和鲁棒性;这些技术能够有效处理来自不同来源的数据,使得多模态情感识别更加高效和准确。

3、多模态情感识别的关键技术包括情感特征提取和多模态信息融合。在情感特征提取方面,不仅需要关注手工特征的提取,还致力于通过深度学习技术自动学习特征。在多模态信息融合方面,研究者们探索了多种融合策略,如数据级融合、特征级融合、决策级融合和模型级融合,以实现更准确的情感识别。其中,数据级融合是指将来自不同模态的数据在原始数据层面上进行整合,然后输入到模型中进行训练;特征级融合是指将不同模态的特征分别提取出来,然后通过某种方式(如拼接、加权等)进行融合,得到一个新的特征向量,再输入到分类器中进行分类;决策级融合是指将不同模态的特征分别输入到不同的分类器中,得到各自的分类结果,然后通过某种方式(如投票、加权等)进行融合,得到最终的分类结果;模型级融合是指将不同模态的模型进行融合,得到一个新的模型,这个新的模型能够同时处理多个模态的数据。

4、尽管多模态情感识别取得了显著进步,但仍面临一些挑战,主要挑战包括:如何更有效地整合跨模态情感信息、如何提高模型的泛化能力以及如何实现实时在线的情绪识别。此外,处理复杂的人机交互场景、识别特殊形式的情感表达(如讽刺和夸张)等也是该领域需要解决的问题。传统的多模态注意力机制在情感识别领域虽然取得了一定的进展,但往往未能充分考虑到不同异构模态之间独有的特性。


技术实现思路

1、本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于脉冲神经网络和注意力机制的多模态情绪识别方法,将注意力机制与信号处理相结合,充分利用生理信号eeg的优势,捕捉多模态数据间的共性特征,并解决不同模态数据的对齐、融合与分类问题;同时通过注意力机制使来自异构模态的信息融合,可以更好地整合跨模态信息,增强模型的鲁棒性,并改善不同模态之间的语义关系对齐,显著提高情感分类和识别性能。

2、为了达到上述目的,本发明采用以下技术方案:

3、基于脉冲神经网络和注意力机制的多模态情绪识别方法,包括下述步骤:

4、获取多模态数据集,包括生理信号和非生理信号;其中生理信号包括脑电波模态数据;非生理信号包括视频模态数据/图像模态数据、文本模态数据和音频模态数据;所述视频模态数据和图像模态数据不同时采集;

5、将多模态数据集输入多模态特征提取层中获取多模态数据集对应的热力图特征;

6、把多模态数据集对应的热力图特征输入多模态特征融合层基于自注意力机制进行特征融合,并引入小波阈值函数对特征空间进行对齐突出关键特征,得到小波变换融合特征;

7、判断是否受到对抗攻击,若否则使用包含卷积嵌入层、卷积位置编码层、卷积注意力层和分类器的多模态分类器对小波变换融合特征进行识别得到对应的情绪;

8、若是则引入模拟人脑计算模式的脉冲神经网络与注意力机制相结合,将脉冲神经网络与卷积层相融合的方式对多模态分类器进行改进,对小波变换融合特征进行识别得到对应的情绪。

9、作为优选的技术方案,对于非生理信号,多模态特征提取层使用videomae特征编码器提取视频模态数据的热力图特征,使用clip特征编码器分别提取图像模态数据和文本模态数据的热力图特征,使用wav2vec2特征编码器提取音频模态数据的热力图特征;

10、对于生理信号,首先使用群集分解算法对脑电波模态数据进行分解,再采用短时傅里叶变换把一维时间序列脑电波信号转换为二维特征信号,具体为:

11、通过功率谱计算脑电波初始信号的主导频率成分幂级数模型m()和二次模型δ():

12、

13、

14、其中,s′x(ω)为韦尔奇功率谱,ω为信号在频率域中的频率分量,为归一化频率,m(ω)为信任域算法拟合的幂级数模型,为最小二乘回归拟合的二次模型,q为群集分解过程中频率ω作为中心频率的次数,pth为范围阈值,用于缩小峰值选择期间的频率搜索范围;

15、对输入脑电波信号x[n]进行迭代分组滤波得到输出信号y[n],连续两次迭代后计算输出信号的方差σstd:

16、

17、其中,yi-1[n]为输入信号x[n]第一次迭代后的输出信号;

18、当方差σstd大于方差阈值σth时,以输出信号y[n]作为输入信号重复进行迭代分组滤波;

19、当方差σstd小于方差阈值σth时,则终止迭代并更新输入信号,更新公式为:

20、

21、τdelay=argmaxr(τ),

22、其中,是每次分组滤波迭代中生成的残差分量,n为时间,x′it[]为第it次迭代的序列,r(τ)是互相关函数,τ是离散的时间延迟;

23、对更新后的输入信号x0[n]重复进行迭代分组滤波直至s′x(ω)≤pth,然后计算每个信号分量cω[n]和残差分量r[n],计算式为:

24、ocm≡cω[n];m=1,…,|ωd|,

25、

26、ωd:{ω:ω=ωd},

27、r[n]=x[n]it-final,

28、其中,ωd为已识别震荡模式的集合,ωd为输入信号分量的频率,x[n]it-final为迭代分组滤波后的最终残差信号;

29、从分解的多个信号分量cω[n]中提取短时傅立叶变换特征,将一维时间序列脑电波信号转换为二维特征信号,转换公式为:

30、

31、其中,x(m,ω)为脑电波的二维特征信号,表示在时间域中采样的第m个时间窗口中频率为ω的分量;x(n)是脑电波信号在时间域中的离散表示;w(n-m)是窗口函数,e-jωn是频率为ω的复指数信号;

32、然后多模态特征提取层使用vision transformer特征编码器提取脑电波模态数据的热力图特征。

33、作为优选的技术方案,所述基于自注意力机制进行特征融合,具体为:

34、计算任意两种模态数据间的影响因子αi,j,表示为:

35、

36、其中,sij为第i个模态数据的热力图特征与第j个模态数据的热力图特征间的相似性得分,m为模态数据的数量;

37、将第i个模态数据的热力图特征与第j个模态数据的热力图特征分别输入编码器层中得到各自的嵌入向量zi、zj∈rn×d,并转换得到各自的查询投影矩阵键投影矩阵和值投影矩阵其中,n为模态数据中包含的元素数量,d为元素的维度,dq、dk、dv分别为查询投影矩阵、键投影矩阵、值投影矩阵的维度;

38、基于第i个模态数据和第j个模态数据间的影响因子αi,j、各自的嵌入向量zi、zj及各自的投影矩阵加权生成各自的查询向量、键向量及值向量,生成公式为:

39、

40、

41、其中,qi、ki、vi分别为第i个模态数据对应的查询向量、键向量和值向量,qj、kj、vj分别为第j个模态数据对应的查询向量、键向量和值向量,βi,j=1-αi,j为权重影响因子;

42、依据第i个模态数据和第j个模态数据各自的查询向量、键向量及值向量进行特征交换和融合,得到融合特征yi,j,表示为:

43、

44、引入小波阈值函数在特征空间对融合特征yi,j进行对齐突出关键特征,得到小波变换融合特征

45、作为优选的技术方案,所述引入小波阈值函数在特征空间对融合特征yi,j进行对齐突出关键特征,具体为:

46、首先对融合特征yi,j进行离散小波变换,公式为:

47、tl,c=dwt(yi,j),

48、其中,dwt为离散小波变换,tl,c为小波系数的多级分解结果,l代表t的级别,c为t的频率系数;

49、然后应用小波阈值函数对离散小波变换结果进行变换,公式为:

50、

51、其中,t′l,c为小波阈值函数变换后的结果,f()为小波阈值函数;

52、最后运用离散小波逆变换得到小波变换融合特征:

53、

54、其中,idwt为离散小波逆变换,为融合特征y的近似张量。

55、作为优选的技术方案,未受到对抗攻击时,多模态分类器对小波变换融合特征进行识别得到对应的情绪的步骤为:

56、将小波变换融合特征输入卷积嵌入层中进行卷积补丁嵌入得到多个补丁嵌入特征其中,b为批量大小,c为通道数,h为小波变换融合特征的高,w为小波变换融合特征的宽,pe表示卷积嵌入层;

57、使用卷积位置编码层通过卷积运算增强多个补丁嵌入特征的位置编码,将增强后的多个补丁嵌入特征的位置编码重新排列并添加入对应的补丁嵌入特征x得到位置编码特征x′∈rb×c×n=cp(x)+x,n为位置编码特征尺寸,cp表示卷积位置编码层;

58、卷积注意力层采用卷积注意块对位置编码特征x′计算自注意力并通过卷积多层感知机得到最终特征xl∈rb×c,表示为:

59、x′l=sa(x′l-1)+x′l-1,l=1,...,l,

60、xl=mlp(x′l)+x′l,l=1,...,l,

61、其中,l为卷积注意力层的层数,x′l为第l层位置编码特征对应的注意力特征,sa表示卷积注意块;x′l-1为第l-1层位置编码特征对应的注意力特征,l=1时,x′0为初始输入的位置编码特征x′;xl为第l层位置编码特征对应的最终特征,mlp表示卷积多层感知机;

62、把卷积注意力层输出的最终特征输入分类器中,通过全局平均池化操作和两个带有mish激活函数的全连接层进行分类,表示为:

63、y′=hc(xl)=fc(mish(fc(gap(xl)))),

64、其中,y′为分类结果,hc为分类器,fc为全连接层,gap为全局平均池化操作。

65、作为优选的技术方案,所述得到多个补丁嵌入特征,具体为:

66、使用卷积层对小波变换融合特征进行下采样并进行卷积补丁嵌入,直到通道数匹配嵌入维度,表示为:

67、

68、其中,xi,i≥1为第i个补丁嵌入特征;xi-1为第i-1个补丁嵌入特征,当i=1时ci-1为第i-1个补丁嵌入特征的通道数;embeddims为嵌入维度,conv2d为二维卷积层,batchnorm2d为二维归一化层,maxpool2d为最大池化层。

69、作为优选的技术方案,所述得到位置编码特征x′∈rb×c×n,具体为:

70、使用rearrange函数将多个补丁嵌入特征重新排列为特征图x′∈rb×c×h×w;

71、如果卷积位置编码层中的卷积层步长为1,则将卷积层应用于特征图x′并与补丁嵌入特征x进行相加,得到位置编码特征x′;如果卷积位置编码层中的卷积层步长不为1,则仅应用卷积层将特征图x′展平成二维形状并转置展平特征以将通道尺寸作为最后一个尺寸,得到位置编码特征x′,表示为:

72、

73、其中,s为卷积层的步长。

74、作为优选的技术方案,所述采用卷积注意块对位置编码特征x′∈rb×c×n计算自注意力,计算公式为:

75、

76、q=convbnq(x′)*s,

77、k=convbnk(x′),

78、v=convbnv(x′),

79、其中,q为位置编码特征的查询向量,k为位置编码特征的键向量,v为位置编码特征的值向量,convbn为卷积标准化,convbnq为查询向量的卷积标准化,convbnk为见向量的卷积标准化,convbnv为值向量的卷积标准化,s为缩放因子,dimk表示键向量的维度;

80、所述卷积多层感知机包含两个二维卷积层和处于两个二维卷积层中间的mish激活函数;

81、所述通过卷积多层感知机得到最终特征xl∈rb×c,过程为:

82、mlp1output=dropout(batchnorm2d(conv2d(mlp1input))),

83、

84、mlp2input=mish(mlp1output),

85、mlp2output=dropout(batchnorm2d(conv2d(mlp2input))),

86、

87、其中,conv2d为二维卷积层,batchnorm2d为归一化层,dropout为随机丢弃神经元,表示逐元素相加。

88、作为优选的技术方案,当受到对抗攻击时,多模态分类器对小波变换融合特征进行识别得到对应的情绪的步骤为:

89、在卷积嵌入层中,使用卷积层和脉冲神经网络对小波变换融合特征进行下采样得到固定尺寸的嵌入特征x∈rb×c×n,表示为:

90、

91、其中,convbn为卷积标准化,mp为最大池化层,mlif为多步标准脉冲积分;

92、在卷积位置编码层中,使用脉冲神经网络对嵌入特征x∈rb×c×n进行转换后再进行卷积位置编码计算,得到位置编码特征x′∈rb×c×n:

93、x′=mlif(x),

94、

95、其中,x′为嵌入特征x经过脉冲神经网络转换后的特征,s为卷积位置编码层中的卷积层步长;

96、在卷积注意力层中,使用脉冲神经网络来替代线性层和批量归一化层,因此首先计算位置编码特征x′的自注意力,计算公式为:

97、ssa(q,k,v)=convbn(mlif(qktv)*s),

98、q=mlifq(convbnq(mlif(x′))),

99、k=mlifk(convbnk(mlif(x′))),

100、v=mlifv(convbnv(mlif(x′))),

101、其中,ssa(q,k,v)为位置编码特征x′的自注意力,q为位置编码特征x′的查询向量,k为位置编码特征x′的键向量,v为位置编码特征x′的值向量,convbn为卷积标准化,convbnq为查询向量的卷积标准化,convbnk为键向量的卷积标准化,convbnv为值向量的卷积标准化,s为缩放因子;

102、然后通过卷积多层感知机得到最终特征xl∈rb×c,过程为:

103、mlpoutput=conv2d(mlif(mlpinput)),

104、

105、

106、其中,conv2d为二维卷积层,表示逐元素相加;

107、最后将卷积注意力层输出的最终特征输入分类器中得到分类结果y′。

108、作为优选的技术方案,所述方法还包括构建总体损失函数,对多模态特征提取层、多模态特征融合层及多模态分类器进行迭代训练,优化参数;

109、所述总体损失函数表示为:

110、loss=lsce+λ3·loss_p,

111、其中,λ3为权重因子,loss_p为多模态特征融合层的损失函数,表示为:

112、

113、其中,m为模态数据的数量,acci为第i个模态数据的准确率;λ1是平滑参数;

114、lsce为多模态分类器的损失函数,表示为:

115、

116、pi=log(softmax(xi)),

117、其中,n为批大小,λ2是平滑参数,c为情绪类别数量,yi为多模态分类器第i个输入的真实类别,pi为多模态分类器第i个输入预测情绪类别的概率,xi为多模态分类器第i个输入的原始向量,pij表示多模态分类器第i个输入的预测情绪类别属于第j个真实情绪类别的概率。

118、本发明与现有技术相比,具有如下优点和有益效果:

119、1、本发明创新性地提出了一种结合脉冲神经网络和注意力机制的多模态情绪识别方法。该方法充分考虑了生理信号eeg相较于非生理信号的显著优势。eeg信号能够直接映射大脑活动,为情绪状态的识别提供了更为直接和精确的指标。此外,由于eeg信号的高时间分辨率,它能够捕捉到情绪状态的微妙变化,同时由于受到的环境干扰较少,其稳定性较高。这一方法有效解决了仅依赖非生理信号(如视频/图像、语音和文本)进行情绪识别所面临的诸多难题。

120、2、针对多模态信号特征对齐和融合的挑战,本发明进行了技术上的改进。通过提取热力图特征和运用小波阈值函数变换,本发明实现了多模态信号特征的对齐与融合。结合卷积注意力分类器,并通过对总体损失函数的综合分析设计,本发明显著提升了多模态情绪识别的分类准确性。更进一步的,为了降低多模态的计算复杂性及能耗,提高多模态系统的鲁棒性以及分类识别的准确性,本发明还模拟了方法在对抗攻击时的表现,通过引入模拟人脑计算模式的脉冲神经网络与注意力机制相结合,进一步提高了分类识别的准确率。

121、3、本发明在多个多模态应用场景中展现了卓越的鲁棒性和泛化能力。无论是应用于图像、语音、文本和脑电信号的多模态情绪识别,还是基于标准数据集视频流的多模态情绪检测,或是应用于课堂学生注意力识别等场景,本发明均表现出了优异的性能。本发明全面考虑了多模态情绪识别的各种应用环境,能够有效预测和识别各种情绪状态。


技术特征:

1.基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,对于非生理信号,多模态特征提取层使用videomae特征编码器提取视频模态数据的热力图特征,使用clip特征编码器分别提取图像模态数据和文本模态数据的热力图特征,使用wav2vec2特征编码器提取音频模态数据的热力图特征;

3.根据权利要求1所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,所述基于自注意力机制进行特征融合,具体为:

4.根据权利要求3所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,所述引入小波阈值函数在特征空间对融合特征yi,j进行对齐突出关键特征,具体为:

5.根据权利要求1所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,未受到对抗攻击时,多模态分类器对小波变换融合特征进行识别得到对应的情绪的步骤为:

6.根据权利要求5所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,所述得到多个补丁嵌入特征,具体为:

7.根据权利要求5所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,所述得到位置编码特征x′∈rb×c×n,具体为:

8.根据权利要求5所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,所述采用卷积注意块对位置编码特征x′∈rb×c×n计算自注意力,计算公式为:

9.根据权利要求1所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,当受到对抗攻击时,多模态分类器对小波变换融合特征进行识别得到对应的情绪的步骤为:

10.根据权利要求1所述的基于脉冲神经网络和注意力机制的多模态情绪识别方法,其特征在于,所述方法还包括构建总体损失函数,对多模态特征提取层、多模态特征融合层及多模态分类器进行迭代训练,优化参数;


技术总结
本发明公开了一种基于脉冲神经网络和注意力机制的多模态情绪识别方法。该方法首先获取多模态数据集;然后输入多模态特征提取层中获取对应的热力图特征;再把对应的热力图特征输入多模态特征融合层基于自注意力机制进行特征融合,并引入小波阈值函数对特征空间进行对齐突出关键特征得到融合特征;最后判断是否受到对抗攻击,有选择的引入脉冲神经网络,使用包含卷积嵌入层、卷积位置编码层、卷积注意力层和多模态分类器对融合特征进行识别得到对应的情绪,在降低多模态的计算复杂性及能耗的同时,提高多模态系统的鲁棒性以及分类识别的准确性。

技术研发人员:陈国明,钱焯贤,滕毅,邱爽,周如旗,朱雄泳,李万益
受保护的技术使用者:广东第二师范学院
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19285.html

最新回复(0)