1.本发明属于行为识别技术领域,具体涉及一种基于多流融合的骨骼图人体行为识别方法及系统。
背景技术:2.人类在日常生活中有多样的行为与动作,其中蕴含着丰富的信息。随着大数据时代的来临,海量的图片与视频成了信息传播的主要载体,如何理解其中的人体行为成为了计算机视觉领域一个重要的问题。行为识别技术可以应用于人机交互,智能监控,异常检测等领域,具有很强的应用价值与研究意义。
3.相比于rgb数据,骨骼点数据序列有更清晰的外观表示,对人体结构的信息表达更直观,同时人体关节与骨骼的运动以及时空关系也更为明显,使用深度学习在骨骼点数据上进行行为识别的方法也被越来越多的研究人员关注,图卷积网络的提出使得基于骨骼点的人体行为识别有了新的解决方案。不用将骨骼图转化为rgb图像再提取特征,直接从骨骼图中提取运动的时空关系成为了研究的重点。
4.时空图卷积网络被提出用于行为识别,取得了不错的效果。但当前仍然存在以下几个问题:。
5.第一点,该方法中的图卷积网络是基于人体的骨骼图对关节点的邻域关节进行卷积,并得到对应的特征与权重,会忽视远距离关节的联系与全局信息。人体在运动中的信息并不完全取决于相邻的关节点,很多时候距离很远的关节点之间的关系才能反映出行为的特征。如拍手这个动作,核心运动在于两手之间,其他关节之间的联系与运动影响较小。如果仅关注相邻关节,两手之间在骨骼点图中距离很远,算法难以捕捉到长距离的依赖关系,会对部分行为识别的准确性产生影响。
6.第二点,该方法中每一层的图卷积结构基本相似,多层堆叠层层深入,对各层各通道特征一视同仁,缺乏了对特征关注的灵活性与适应性。固定的图卷积结构可能对不同动作的特征提取能力有差别,同时不同的特征通道之间也有联系与区别。如洗脸等动作强调手与头之间的作用关系,而跳跃蹲下等动作则需要关注下半身的运动信息。使用固定的网络则难以注意到不同动作的不同关注,难以针对多种类行为获取最优建模。
7.第三点,该方法在建模与实验中仅使用了人体的关节点信息,虽然在时空骨架图的构建上考虑了空间联系与时间联系,但关节点所表达出的运动信息依然有限,可能会有信息缺失。人体的骨骼图只代表了人体本身的物理结构,仅用25个关节点的空间与时间联系对运动信息的表达并不是最优的,需要有更多补充信息。
技术实现要素:8.本发明的目的在于提供一种基于多流融合的骨骼图人体行为识别方法及系统,以克服现有技术的不足。
9.一种基于多流融合的骨骼图人体行为识别方法,包括以下步骤:
10.s1,从视频骨骼数据中提取四种不同数据流;
11.s2,将四种不同的数据流分别进行网络模型训练得到四种不同的训练模型,将四种不同的训练模型进行多流融合训练得到行为识别模型,利用训练得到的行为模型进行人体行为识别。
12.优选的,四种不同数据流包括关节流,骨架流,关节运动流与骨架运动流。
13.优选的,将关节流,骨架流,关节运动流与骨架运动流的骨架图叠加,将相同关节在时间维度上连接构成时空关系图作为训练模型网络的输入。
14.优选的,用于四种数据流训练的网络模型的网络结构相同,每种数据流的参数设置保持一致。
15.优选的,用于四种数据流训练的网络模型包括空间注意力模块,图卷积模块,通道注意力模块与时域卷积模块;
16.空间注意力模块通过节点精确的位置信息对节点之间的长期依赖进行编码;
17.图卷积模块用于在骨骼图上进行卷积操作生成对应的特征图;
18.通道注意力模块通过建模通道之间的相互依赖关系,自适应调整通道之间的特征表现权重;
19.时域卷积模块为时域维度的卷积神经网络,用于通道数变换。
20.优选的,在一张包含n个关节和t帧的骨架图中,用图节点v表示骨架序列中的所有关节:
21.v={v
ti
|t=1,....,t,i=1,....n}
22.式中v即为关节在三维空间中的坐标,表示为v=(x,y,z);
23.对于指定关节点v1=(x1,y1,z1)与目标关节点v2=(x2,y2,z2),骨骼相邻表示为下式:
24.e
v1,v2
=(x
2-x1,y
2-y1,z
2-z1)。
25.优选的,多维度的时空图卷积网络可以简化表示为下式:
[0026][0027]
式中aj表示关节之间自然连接的邻接矩阵,数量为j,∑
jaj
则表示关节之间体内连接与自连接的加和;其中wj为多个输出通道的权重向量叠加形成的权重矩阵。
[0028]
优选的,将得到的时空关系图以(n,c,t,v,m)的维度输入训练模型中。
[0029]
优选的,采用下式将全局池化分解:
[0030][0031]
式中将二维的gap操作转化成了对一维特征的操作。
[0032]
一种基于多流融合的骨骼图人体行为识别系统,包括预处理模块和识别模块;
[0033]
预处理模块用于从视频骨骼数据中提取四种不同数据流,并将关节流,骨架流,关节运动流与骨架运动流的骨架图叠加,将相同关节在时间维度上连接构成时空关系图作为
训练模型网络的输入,得到四种不同的训练模型,将四种不同的训练模型进行多流融合训练得到行为识别模型存储至识别模块,利用训练得到的行为模型进行人体行为识别。
[0034]
与现有技术相比,本发明具有以下有益的技术效果:
[0035]
本发明为一种基于多流融合的骨骼图人体行为识别方法,从视频骨骼数据中提取四种不同数据流,将四种不同的数据流分别进行网络模型训练得到四种不同的训练模型,将四种不同的训练模型进行多流融合训练得到行为识别模型,利用训练得到的行为模型进行人体行为识别,本发明以人体骨骼点数据为输入,对四种不同数据流进行处理用于模型的训练,使网络对表达不同运动的通道信息更为敏感,以增强运动特征,并通过多层时空图卷积网络结构堆叠训练出行为识别模型;最后将四流训练的模型结果融合,使模型输出相互补强,从而更准确的预测行为动作类别。
[0036]
进一步的,在时空图卷积中通过节点精确的位置信息对节点之间的长期依赖进行编码,可以使节点与其他时空的节点产生联系,提高网络的长距离空间感知能力。
[0037]
进一步的,利用时空图卷积网络使网络对表达不同运动的通道信息更为敏感,以增强运动特征。
[0038]
进一步的,在数据预处理上使用了四种流输入数据,最终使用多流融合的方法使特征相互补强,从而更准确的预测动作类别。
附图说明
[0039]
图1是本发明实施例中多流融合的骨骼图人体行为识别方法的实现流程图。
[0040]
图2是本发明实施例中多流融合时空图卷积网络结构图。
[0041]
图3是本发明实施例中多流融合方法中每个数据流所使用的网络结构图。
[0042]
图4是本发明实施例中空间注意力模块结构图。
[0043]
图5是本发明实施例中通道注意力模块结构图。
[0044]
图6是本发明实施例中多流数据处理图。
[0045]
图7是本发明实施例中多流融合的骨骼图人体行为识别方法效果图。
具体实施方式
[0046]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0047]
如图1所示,一种基于多流融合的骨骼图人体行为识别方法,包括以下步骤;
[0048]
s1,从视频骨骼数据中提取四种不同数据流,将获取的不同数据流进行连接处理得到数据集,将数据集划分为训练集与测试集;
[0049]
四种不同数据流包括关节流,骨架流,关节运动流与骨架运动流;然后进行数据预处理:将关节流,骨架流,关节运动流与骨架运动流的骨架图叠加,将相同关节在时间维度上连接构成时空关系图作为训练模型网络的输入。
[0050]
s2,将四种不同的数据流分别进行网络模型得到四种不同的训练模型,将四种不
同的训练模型进行多流融合训练得到行为识别模型,利用训练得到的行为模型进行人体行为识别
[0051]
具体的,将四种数据流分别使用完整的基于图卷积的网络进行模型训练,得到4个训练模型,每种数据流的参数设置保持一致,且网络结构相同;
[0052]
在多流融合阶段按照不同的比例将多流预测结果相加,得到最终的预测分数,并对行为动作分类;利用训练好的行为识别模型,可以进行基于骨骼图的人体行为识别任务。
[0053]
具体的,本技术采用视频骨骼数据中提取的公开数据作为数据集,将数据集分为训练集和测试集。
[0054]
数据预处理:如图6(a)所示,关节流数据的获取方法:在一张包含n个关节和t帧的骨架图中,用图节点v表示骨架序列中的所有关节,即以下公式:
[0055]
v={v
ti
|t=1,....,t,i=1,....n}
[0056]
式中v即为关节在三维空间中的坐标,可以表示为v=(x,y,z)。
[0057]
图6(b)中则展示了骨架流的结构,对于指定关节点v1=(x1,y1,z1)与目标关节点v2=(x2,y2,z2),骨骼相邻可表示为下式:
[0058]ev1,v2
=(x
2-x1,y
2-y1,z
2-z1)
[0059]
因此骨骼信息不仅包括坐标位置,也包含了方向信息。由于骨骼数据的数量较关节少一个,为了维持输入的一致性,简化网络处理过程,向定义的重心关节添加一个空骨骼,将其值设置为0,并与重心关节绑定。这样便可以将骨骼与关节一一对应,在输入数据的预处理上保持与关节流相同的维度,使得网络可以用相同的方式处理不同的数据流。
[0060]
考虑到运动信息是行为识别的关键所在,仅靠网络通过学习关节与骨架的时空建模中的外观特征与隐性联系可能仍会有所缺失。在rgb图像行为识别领域的经典双流架构中,通过光流图来强化运动信息的表达,并单独用光流图作为一流的输入来补强rgb图片流中的时序信息。因此,在关节流与骨架流的基础上扩充了两个包含运动的数据流。
[0061]
如图6(c)与图6(d)所示的关节运动流与骨架运动流的数据。因为骨架数据是用关节的坐标表示的,所以类似于获取连续帧之间的像素运动信息,关节的运动可以使用同一坐标点沿时间维度的差值表示,即同样,骨骼的运动变化也可以用同一骨骼在连续帧中的向量差表示,即最终,将运动信息同样表示为关节流输入的(c,t,v)维度图,保证网络结构的一致性。
[0062]
如图2所示,本发明采用的识别模型网络,首先加入空间与通道注意力模块(spatial-channal attention,sca),增强图卷积网络对时空特征的提取与建模能力,构建基础的训练模型(sca-gcn网络)。之后对骨骼数据进行预处理,分别生成关节流,骨架流,关节运动流与骨架运动流作为网络的输入,并获取训练模型。最终将多流之间的预测结果融合并输出预测结果。
[0063]
多流融合方法中每个数据流所使用的网络结构相同,具体展开如图3所示,将预处理后的数据以(n,c,t,v,m)的维度输入sca-gcn网络中,首先将输入通过一个批处理规范化层(batch normalization,bn)来规范化数据,因为不同数据流的输入信息有部分差别,而网络需要在不同节点上共享权重,这样可以保持不同节点上输入数据规模的一致性。之后通过一个基础的3*64的ca-gcn网络初步提取特征,并扩充通道到64*64维度;
[0064]
然后利用空间注意力模块(spatial attention,sa)将全局图节点与多帧时间维
度的信息整合,捕获长距离依赖,对特征图进行增强。
[0065]
再将特征图输入9层的ca-gcn网络组中,前三层为64通道,中间三层有128通道,最后三层有256个通道。每个ca-gcn网络包括图卷积网络(graph convolution network,gcn),通道注意力(channel attention,ca)以及时域卷积网络(temporal convolution network,tcn),经过残差结构与relu激活函数后输出特征图。整体结构中第四层与第七层的tcn为池化层,用于通道数变换,步长为2,其余均为步长为1的卷积层。最终对得到的特征张量进行全局池化,得到每个序列的256维特征向量,并输入softmax分类器得到输出进行分类预测。图卷积网络计算过程可写为下式:
[0066][0067]
式中:b(v
ti
)={v
tj
|d(v
tj
,v
ti
)≤d}表示相邻的关节点集,d表示两个节点之间的最短距离,d则为取邻域节点的距离限制。
[0068]
本方法中d=1表示取相邻距离为1的关节点集合;采样函数表示为p(v
ti
,v
tj
)=v
tj
。z
ti
(v
tj
)=|{v
tk
|l
ti
(v
tk
)=l
ti
(v
tj
)|为规范化项,表示相应子集的基数,控制不同子集对输出的影响。其中l
ti
:b(v
ti
)
→
{0,...,k-1}表示将邻域中的节点在其子集的映射标签,共划分为固定数量k个子集。权重函数在此基础上可表示为w(v
ti
,v
tj
)=w
′
(l
ti
(v
tj
))。在划分方式的选取上,根据节点到骨架重心位置的距离划分子集,共分为根节点本身,比根节点更靠近重心的节点集与比根节点更远离重心的节点集,如下式所示:
[0069][0070]
式中:ri表示训练数据集中所有帧上从骨架重心到关节i的平均距离;将邻域集,采样函数,权重函数,规范化项与划分标签带入图卷积网络计算公式即可得到gcn模块的输出结果。
[0071]
因为在输入图的构造中已经包含了连续帧相同节点的连接关系,所以经过图卷积网络后,也可以通过相似的卷积运算进一步获取时域特征。首先拓展邻域的概念,将图从空间连接拓展到时空连接,如下式中表示:
[0072]
b(v
ti
)={v
qj
|d(v
tj
,v
ti
)≤k,|q-t∣≤γ/2}
[0073]
式中γ表示时域核的尺寸,用来控制相邻帧骨架图的时间范围。采样函数与gcn中使用相同,要完成时空图卷积,还需要进一步将权重函数中的标签映射做一定改进。因为相邻帧的时间本就是有序的,故直接将根节点在时空的邻域表示为下式:
[0074]
l
st
(v
qj
)=l
ti
(v
tj
)+(q-t+γ/2)
×k[0075]
式中的l
ti
(v
tj
)为单帧标签映射,用此方法可以对时空图进行更好的卷积运算,从而获取空间与时间上的节点联系与时空特征图。
[0076]
最终多维度的时空图卷积网络可以简化表示为下式:
[0077][0078]
式中aj表示关节之间自然连接的邻接矩阵,数量为j,∑
jaj
则表示关节之间体内连
接与自连接的加和;其中wj为多个输出通道的权重向量叠加形成的权重矩阵,输入特征简化为(c,v,t)的张量;
[0079]
对每个邻接矩阵也附带一个可以学习的权重矩阵m,将其初始化为一个全一的矩阵。
[0080]
空间注意力模块如图4所示,将注意力沿两个不同的方向聚合特征,其中v维度可以沿着节点方向捕获远程依赖关系,建立全局节点之间的联系,同时t维度则沿时间方向保留精确的节点位置信息;之后将生成的特征图分别编码,分别生成方向感知和位置敏感的注意力图;将其激活后添加到输入的特征图中,增强特征中对全局空间信息的感知,使感兴趣的区域可以准确的被捕获和表达。具体操作分为两个步骤:首先是信息聚合模块,为了促进注意力模块能够捕捉精确的关节位置信息和长时间的空间交互,采用下式将全局池化分解:
[0081][0082]
式中将二维的gap操作转化成了对一维特征的操作。给定输入x,使用尺寸为(v,1)和(1,t)的池化核分别沿着空间与时间两个坐标对每个通道进行编码,分别得到(c*v*1)与(c*1*t)的输出。其中节点为v的第c通道的输出与时间为t的第c通道输出可分别表示为与此操作可以分别沿空间位置与时间关系两个方向聚合特征,得到一对特征图。
[0083]
第二步则为注意力生成模块,得到信息聚合模块中获得全局感受野并编码精确位置信息的特征图后,将两组向量进行连接,并使用1
×
1的卷积变换函数f1对其进行变换降维操作,得到特征映射;如下式所示:
[0084]
f=δ(f1([zv,z
t
]))
[0085]
式中[,]表示沿空间维度的concat操作,δ为非线性激活函数。f则表示沿节点信息与时间信息进行编码的中间特征映射,得到维度的特征,其中r为通道缩减比,为了减少通道数提升计算效率,本方法中r取32。之后经过标准化与非线性化将f分解为两个单独的张量fv∈r
c/r
×v与f
t
∈r
c/r
×
t
,并使用两个1
×
1的卷积变换fv和f
t
分别将其扩展到居然相同通道数的张量,得到gv=σ(fv(fv))与g
t
=σ(f
t
(f
t
))。其中σ是sigmiod激活函数,拓展后的gv与g
t
便是注意力权重,最终将权重与输出相乘并通过残差结构相加得到模块的输出。
[0086]
如下式所示:
[0087][0088]
最终得到的输出yc(i,j)保持了与输出相同的维度,同时加权了节点维度v生成的注意力gv代表的空间全局信息与帧数维度t生成的注意力g
t
代表的时间变换信息,增强了特征向量对空间信息的关注能力。
[0089]
通道注意力模块如图5所示,在gcn提取空间特征后加入ca模块,该模块可以建模
通道之间的依赖关系进行建模,并自适应调整通道之间的特征表现权重,起到增强对动作识别有利的通道并抑制其他无关通道的作用。通道注意力模块大体遵循se模块的设计,但将其中的全局平均池化(gap)改为了离散余弦变化(dct),其中证明了gap是二维dct中的一种特例,通过gap得到的结果与二维dct的最低分量成比例。故本通道注意力模块将采用更多频率分量来引入更多的信息。首先将输入x沿着通道划分为n块,记为[x0,x1,
…
,x
n-1
],其中每个xi∈rc′×v×
t
,i∈{0,1,
…
,n-1},之后给每个块分配一个二维的dct分量,2ddct的基本函数记为得到每一块的输出结果如下式所示:
[0090][0091]
式中的[j,k]表示2ddct的分量下标,i∈{0,1,
…
,n-1},这就会对每一块采用不同的频率分量,输出freq∈rc得到多谱向量。之后将其送入全连接层fc中学习得到注意力图,最终多谱通道注意力模块得到的注意力如下式:
[0092]
ms-att=sigmoid(fc(freq))
[0093]
最终将各个通道上的激活值乘以原始特征即可学习到各个通道的权重系数,使增强后的通道特征可以更好的被模型表示,并使用残差连接的方法将增加通道注意力的特征与原始输入加和,得到同维度的输出张量。
[0094]
最后将网络训练后的模型输出送入softmax分类器,输出动作的预测类别。利用训练好的识别模型,可以进行基于骨骼图的人体行为识别任务,如图7所示。
[0095]
本发明为一种基于多流融合的骨骼图人体行为识别方法,针对视频骨骼数据中提取后预处理得到的数据集,可以解决骨骼点行为识别场景下图卷积网络无法捕捉长距离依赖关系,难以获取动作敏感的通道关注以及数据输入单一导致信息获取不充分的问题。
[0096]
本发明采用的训练模型网络框架中引入了空间注意力sa模块,通过节点精确的位置信息对节点之间的长期依赖进行编码,可以使节点与其他时空的节点产生联系,提高网络的长距离空间感知能力。
[0097]
在时空图卷积网络中加入了通道注意力ca模块,使网络对表达不同运动的通道信息更为敏感,以增强运动特征。
[0098]
在数据预处理上使用了四种方法产生四流输入数据,最终使用多流融合的方法使模型输出相互补强,从而更准确的预测动作类别。
[0099]
实施例
[0100]
一种基于多流融合的骨骼图人体行为识别方法,包括以下步骤:
[0101]
s1.从视频骨骼数据中提取四种不同数据流:关节流,骨骼流,关节运动流与骨骼运动流。具体工作流程如下:
[0102]
(1.1)、采用一组公开骨骼点数据集与一组公开rgb数据集;
[0103]
(1.2)、对rgb数据集,使用了公开的openpose工具箱来提取了每一帧人体的18个关节点,并用坐标表示,整合为符合网络输入的数据格式;
[0104]
(1.3)、对(1.1)与(1.2)中的骨骼数据,采用四种不同的预处理方法将数据分为四种不同数据流,如图6所示,分别是关节流,骨骼流,关节运动流与骨骼运动流。
[0105]
s2.将获取的不同数据流进行处理,并划分训练集与测试集。具体工作流程如下:
[0106]
(2.1)、对(1.3)中的骨骼点数据流,使用空间构型划分策略。首先将固件的重心标出,然后将节点的邻域分为3个子集,分别是绿色的节点本身0,蓝色的比节点本身更接近于骨架重心的集合1,以及黄色的比节点本身更原理骨架重心的集合2。这种划分规则在行为识别任务中可以更关注节点的运动,卷积核可以获取更丰富且更准确的节点特征;
[0107]
(2.2)、对于处理后的数据集按照4:1的比例随机切分成训练集和测试集,并对数据集进行随机平移,缩放实现扩充与数据增强;
[0108]
s3.分别将不同流的数据输入到时空图卷积网络中,如图2与图3所示。具体工作流程如下:
[0109]
(3.1)、将步骤(2.2)预处理后的数据都以(n,c,t,v,m)的维度输入sca-gcn网络中,首先将输入通过一个批处理规范化层(batch normalization,bn)来规范化数据;
[0110]
(3.2)、在步骤(3.1)后通过一个基础的3*64的ca-gcn网络初步提取特征,并扩充通道到64*64维度;
[0111]
s4.使用空间注意力模块与通道注意力模块增强网络的特征提取能力,如图4与图5所示。具体工作流程如下:
[0112]
(4.1)、在步骤(3.1)后,特征图通过一个空间注意力模块,将全局图节点与多帧时间维度的信息整合,捕获长距离依赖,对特征图进行增强;
[0113]
(4.2)、在(3.2)中的ca-gcn网络中有图卷积gcn,通道注意力ca与时域卷积tcn层,其中gcn网络负责空间图卷积,tcn网络则为时域维度的卷积神经网络,ca模块将各个通道上的激活值乘以原始特征得到各个通道的权重系数,使增强后的通道特征可以更好的被模型表示。
[0114]
s5.通过多层网络结构堆叠训练出行为识别模型。具体工作流程如下:
[0115]
(5.1)在(4.1)后将特征图送入9层的ca-gcn网络组中提取特征,前三层为64通道,中间三层有128通道,最后三层有256个通道。
[0116]
(5.2)对(5.1)得到的特征张量进行全局池化,得到每个序列的256维特征向量,并输入softmax分类器得到输出进行分类预测。
[0117]
s6.将四流训练的模型结果融合,如图2所示,得到最终的输出结果;
[0118]
s7.对于训练好的多流融合人体行为识别模型,将测试图像作为输入,得到行为识别的结果,如图7所示。具体工作流程如下:
[0119]
(7.1)、对于步骤s6所述的多流融合行为识别模型,将步骤(2.2)所述的测试集作为输入,得到模型分类的结果;
[0120]
(7.2)、将步骤(7.1)所述的多流融合行为识别模型的行为预测结果与实际的动作标签进行对比,发现步骤(7.1)所述的多流融合行为识别模型取得了极好的识别效果,在两个数据集上的准确率表现突出,如图7所示。
技术特征:1.一种基于多流融合的骨骼图人体行为识别方法,其特征在于,包括以下步骤:s1,从视频骨骼数据中提取四种不同数据流;s2,将四种不同的数据流分别进行网络模型训练得到四种不同的训练模型,将四种不同的训练模型进行多流融合训练得到行为识别模型,利用训练得到的行为模型进行人体行为识别。2.根据权利要求1所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,四种不同数据流包括关节流,骨架流,关节运动流与骨架运动流。3.根据权利要求2所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,将关节流,骨架流,关节运动流与骨架运动流的骨架图叠加,将相同关节在时间维度上连接构成时空关系图作为训练模型网络的输入。4.根据权利要求3所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,用于四种数据流训练的网络模型的网络结构相同,每种数据流的参数设置保持一致。5.根据权利要求1所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,用于四种数据流训练的网络模型包括空间注意力模块,图卷积模块,通道注意力模块与时域卷积模块;空间注意力模块通过节点精确的位置信息对节点之间的长期依赖进行编码;图卷积模块用于在骨骼图上进行卷积操作生成对应的特征图;通道注意力模块通过建模通道之间的相互依赖关系,自适应调整通道之间的特征表现权重;时域卷积模块为时域维度的卷积神经网络,用于通道数变换。6.根据权利要求2所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,在一张包含n个关节和t帧的骨架图中,用图节点v表示骨架序列中的所有关节:v={v
ti
|t=1,....,t,i=1,....n}式中v即为关节在三维空间中的坐标,表示为v=(x,y,z);对于指定关节点v1=(x1,y1,z1)与目标关节点v2=(x2,y2,z2),骨骼相邻表示为下式:e
v1,v2
=(x
2-x1,y
2-y1,z
2-z1)。7.根据权利要求5所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,多维度的时空图卷积网络可以简化表示为下式:式中a
j
表示关节之间自然连接的邻接矩阵,数量为j,∑
j
a
j
则表示关节之间体内连接与自连接的加和;其中w
j
为多个输出通道的权重向量叠加形成的权重矩阵。8.根据权利要求3所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,将得到的时空关系图以(n,c,t,v,m)的维度输入训练模型中。9.根据权利要求5所述的一种基于多流融合的骨骼图人体行为识别方法,其特征在于,采用下式将全局池化分解:
式中将二维的gap操作转化成了对一维特征的操作。10.一种基于多流融合的骨骼图人体行为识别系统,其特征在于,包括预处理模块和识别模块;预处理模块用于从视频骨骼数据中提取四种不同数据流,并将关节流,骨架流,关节运动流与骨架运动流的骨架图叠加,将相同关节在时间维度上连接构成时空关系图作为训练模型网络的输入,得到四种不同的训练模型,将四种不同的训练模型进行多流融合训练得到行为识别模型存储至识别模块,利用训练得到的行为模型进行人体行为识别。
技术总结本发明公开了一种基于多流融合的骨骼图人体行为识别方法及系统,从视频骨骼数据中提取四种不同数据流,将四种不同的数据流分别进行网络模型训练得到四种不同的训练模型,将四种不同的训练模型进行多流融合训练得到行为识别模型,利用训练得到的行为模型进行人体行为识别,本发明以人体骨骼点数据为输入,对四种不同数据流进行处理用于模型的训练,使网络对表达不同运动的通道信息更为敏感,以增强运动特征,并通过多层时空图卷积网络结构堆叠训练出行为识别模型;最后将四流训练的模型结果融合,使模型输出相互补强,从而更准确的预测行为动作类别。行为动作类别。行为动作类别。
技术研发人员:田智强 王晨宇 岳如靖 杜少毅
受保护的技术使用者:西安交通大学
技术研发日:2022.05.10
技术公布日:2022/7/5