一种基于张量分解的多源异构数据特征融合方法

allin2022-07-12  209



1.本发明涉及异构数据处理技术领域,特别是涉及一种基于张量分解的多源异构数据特征融合方法。


背景技术:

2.近年来,随着物联网技术的发展和移动设备的普及,大量的异构数据随之产生。异构数据的数据量以前所未有的速度爆炸增长。据国际数据公司idc估计,2020年后全球数据总量将超过40zb,需要将近95亿个4tb的硬盘来存储这些数据。而这些数据中,异构数据的占比达到73%。异构数据的典型特征是多源性和多模态性。多源性指异构数据来源广泛,其中包括各种媒体网站和移动设备。如微博,微信等网站的文本和视频数据,又或者是各种智能场景中传感器采集的数据。而多模态性指一个异构数据对象可能同包含多种类型的数据。典型的如视频数据,同时包含了语音、图片和文本等多个类型数据。因为多模态数据的每种模态之间具有强关联性,所以异构数据对象结构尤为复杂。它们从不同的角度去描述相同的对象。因此,为了发挥数据的价值,需要开发一种高效的数据分析模型对异构数据进行充分的分析和挖掘。
3.异构数据分析和挖掘的目的在于发现隐藏在异构数据和大数据内部的规律,挖掘数据中有价值的信息,为智慧物联网等众多领域提供决策支持和预测服务。例如,在智慧工厂领域,如果对采集于各种传感设备的异构数据进行分析和管理,能够及早的发现设备异常,在事故发生前给出预警信息,采取及时有效的措施,防止事故发生。在智慧交通领域,对道路两侧的各种移动设备的异构数据进行检测和管理,以及红绿灯等交通信号的实时采集,实现智慧化道路交通。然而,异构数据的分析和挖掘的关键步骤在于特征学习。特征学习通过学习数据的特征,抽取隐含在数据内部的有价值的信息,从而为分类和预测提供支持。所以,特征学习是异构数据分析和挖掘的关键环节。
4.然而,传统用于特征提取的深度学习模型难以有效学习到异构数据的特征。如,深度信念网络、卷积神经网络以及他们的各种变形网络。这些模型仅针对单一类型数据进行特征学习,故无法学习到异构数据的特征。为了解决上述问题,相关学者提出多模态深度学习模型。通过利用传统的深度学习模型去独立提取异构数据对象的每个模态的特征,然后利用特征融合技术进行特征拼接或融合,形成异构数据对象的特征向量。由于该模型无法捕捉到异构数据各个模态特征的高阶相关性,同时融合特征向量也很难突出异构数据的关键特征,所以该类模型的分类准确率并不理想。


技术实现要素:

5.本发明所要解决的技术问题是提供一种基于张量分解的多源异构数据特征融合方法,能够提高分类准确率。
6.本发明解决其技术问题所采用的技术方案是:提供一种基于张量分解的多源异构数据特征融合方法,包括以下步骤:
7.构建张量异构数据分层融合模型;
8.其中,所述张量异构数据分层融合模型分为三层;
9.第一层包括张量分解模块、第一张量稀疏自编码器网络和第一组合模块,所述张量分解模块用于提取出与异构数据对应的融合张量因子序列;所述第一张量稀疏自编码器网络用于对所述融合张量因子序列进行初步特征提取,得到张量的不同子空间的低维特征;所述第一组合模块用于利用张量积运算将所述张量的不同子空间的低维特征进行组合,得到第一融合特征;
10.第二层包括第二张量稀疏自编码器网络和第二组合模块,所述第二张量稀疏自编码器网络用于提取所述第一融合特征中每个因素的潜在特性,得到低维融合张量的低维特征;所述第二组合模块用于利用张量积运算将所述低维融合张量的低维特征进行组合,得到第二融合特征;
11.第三层包括第三张量稀疏自编码器网络和输出模块,所述第三张量稀疏自编码器网络用于对所述第二融合特征进行核心特征提取,所述输出模块用于对提取初的核心特征进行数据降维,并作分类判断;
12.采用所述张量异构数据分层融合模型对所述多源异构数据进行特征融合。
13.所述张量分解模块通过张量环分解算子对所述异构数据进行分解,所述张量环分解算子表示为:其中,|| ||
*
表示核范数,|| ||f表示f范数,表示张量因子g的第二维切面矩阵,[g]表示环形张量积序列的因子,λ为调谐参数,x为张量,n表示张量分解后的张量因子个数,ψ( )表示张量环分解算子。
[0014]
所述第一张量稀疏自编码器网络为三层张量神经网络,所述三层张量神经网络在训练过程中使输出的目标值与输入值接近。
[0015]
所述三层张量神经网络的损失函数中加入正则化约束以减少过拟合程度。
[0016]
所述三层张量神经网络的损失函数中加入稀疏惩罚以保证隐层的稀疏性。
[0017]
有益效果
[0018]
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明利用张量环分解的方法得到不同模态数据的量子空间的低维特征,然后通过张量空间的深度学习模型进行初步的特征提取,经过多层特征融合分析,最终得到高精度的张量异构数据分层融合模型。通过该张量异构数据分层融合模型处理的异构数据在准确率方面有了很大的提高。
附图说明
[0019]
图1是本发明实施方式中张量异构数据分层融合模型的结构示意图;
[0020]
图2是本发明实施方式中张量环分解图;
[0021]
图3是本发明实施方式中张量稀疏自编码器的结构示意图;
[0022]
图4是张量环分解组件在不同张量秩下的性能对比图;
[0023]
图5是张量环分解组件重建不同程度的缺失数据实验对比图;
[0024]
图6是基于张量的异构数据融合网络模型的平均训练时间图;
[0025]
图7是tsae网络模型分类对比实验图;
[0026]
图8是模型不同层次的融合特征图。
具体实施方式
[0027]
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0028]
本发明的实施方式涉及一种基于张量分解的多源异构数据特征融合方法,包括以下步骤:构建张量异构数据分层融合模型;采用所述张量异构数据分层融合模型对所述多源异构数据进行特征融合。
[0029]
在学习异构数据特征的过程中,需要充分考虑不同子空间中异构数据的潜在特征之间的关系。为此,本实施方式设计了两种基础组件:张量环分解(trd)算子和多层张量稀疏自编码器(tsae)网络,并基于该组件构建了张量异构数据分层融合模型。该张量异构数据分层融合模型共分为三层,如图1所示,具体包括:
[0030]
第一层:第一层包括张量分解模块和一个张量稀疏自编码器网络,通过模型的第一层提取出与异构数据对应的融合张量因子序列。本实施方式构造了张量环分解(trd)算子,有效地从张量空间的异质数据中提取低维特征。将异构数据通过trd算子进行分解,生成一个低维张量因子序列,将张量因子序列输入到tsae网络中进行初步的特征提取。然后再由第一组合模块利用克罗内克积运算将张量的不同子空间的低维特征进行组合,得到第一层的融合特征。
[0031]
第二层:包括tsae网络和第二组合模块。用来对第一层的融合特征的作进一步提取。本实施方式用tsae网络进一步提取每个因素的潜在特性,然后通过第二组合模块利用克罗内克积运算将低维融合张量的低维特征进行融合。
[0032]
第三层:包括tsae网络和输出模块。通过模型的第三层中的tsae网络对第二层的融合特征进行核心特征提取,然后通过输出模块对数据降维作分类判断。
[0033]
张量分解模块通过张量环分解算子对所述异构数据进行分解,图2为张量环分解图。张量分解的目的是寻找张量数据中的潜在因子,从而将高维张量问题投射到一个低维的多线性张量潜在空间中,低维张量因子可以作为数据的潜在特征。
[0034]
本实施方式用x和x分别表示矩阵和张量,通常将n维的张量记作张量环(tr)分解对应的所有核都是三阶张量,即利用低维核序列上的环形多线性乘积来表示一个大维张量即x={g1,g2,...,gn},其中gn表示张量序列中的第n个。同时,引入两种张量范数形式。是张量的frobenius范数,也叫做张量距离。||
·
||
*
核范数是矩阵奇异值之和。此外,引入两种张量矩阵化展开操作,一种为另一种为
[0035]
接下来,tr分解将x分解为tr因子序列,采用循环乘法的形式,如下所示:
[0036]
[0037]
其中,tr{
·
}为迹运算,为因子张量gk的第ik个横向切片矩阵。进一步定义张量分解算子,x=ψ(g1,g2,...gn)。
[0038]
基于以上定理,可以建立张量环分解模型的优化公式:
[0039]
在传统的tucker分解中,采用frobenius范数来最小化模型误差。本实施方式联合张量距离与核范数建立张量因子优化模型:
[0040]
其中,
[0041]
tr因子会对低维张量产生低秩约束,所以引入了tr因子和低维张量之间的关系:
[0042]
其中,表示张量因子g的第二维切面矩阵。
[0043]
基于以上推论,可以确定张量环分解优化模型:λ>0为调谐参数。
[0044]
采用块坐标下降法(bcd)求上式的优化问题,其中变量可分为以下块:x。
[0045]g(n)
的更新:将g
(n)
按维数模式展开为矩阵,通过利用tr分解的性质求解最小问题,然后逆向求解g
(n)
的优化问题。
[0046]
首先对和最小二乘问题的核范数最小化问题赋予不同的权重,然后通过多次迭代得到最优的通过折叠得到g
(n)

[0047]
x的更新:固定其他变量,确定x的更新方式:
[0048]
张量稀疏自编码器(tsae)模型是一种三层张量神经网络。tsae各层的权值用三阶张量表示,如图3所示。在训练过程中,使网络输出的目标值与输入值接近,从而学习样本中的特征。通过限制隐藏层的激活,网络将被迫压缩数据。当额外的惩罚阻止大多数神经元被激活时,网络可以学习不同的数据特征。在此之前,先介绍两种张量积的定义:
[0049]
定义(1):点积(

):给定n+1阶张量n阶张量a有α子张量,其中每个子张量表示为因此a与b的点积是n阶张量
[0050]
定义(2):克罗内克积对于两个张量和克罗内克积定义如下:
[0051]
tsae模型的形式化描述如下:根据稀疏自编码器原理,输入层x通过激活函数f映射到隐含层h:
[0052]
h=f
θ
(w
(1)

x+b
(1)
)
[0053]
[0054][0055]
其中θ=(w
(1)
,b
(1)
)为编码器参数集。w
(1)
是一个n+1阶张量,b
(1)
是一个n阶张量。解码器函数h将隐藏层数据映射回重构y:
[0056][0057]
其中为θ

=(w
(2)
,b
(2)
)解码器参数集。w
(2)
是一个n+1阶张量,b
(2)
是一个n阶张量。激活函数是sigmod函数,即f
(x)
=1/(1+e-x
)。
[0058]
接下来,在张量空间中推导出模型损失函数j
tsae
。给定输入张量和输出张量假设{(x
(1)
,y
(1)
),...,(x
(n)
,y
(n)
)}是固定训练集,则损失函数可定义为:
[0059][0060]
为了减少模型的过拟合程度,在损失函数中加入正则化约束l2:
[0061][0062]
为了保证隐层的稀疏性,在损失函数中加入稀疏惩罚l
sparse

[0063][0064][0065]
其中,表示隐层的神经元对所有训练数据的平均激活程度。由此可以推导最终的损失函数:j
tsae
=l
θ
+l2+l
sparse

[0066]
为了最小化损失函数,并训练tsae模型参数θ(w
(1)
,b
(1)
;w
(2)
,b
(2)
),采用张量阶反向传播算法。将每个参数固定为一个接近于零的小随机初始值,然后采用随机梯度下降法对以下参数进行优化:
[0067][0068][0069]
其中k=1和2,α为学习速率。经过多次迭代,得到稳定的模型参数和损失值。
[0070]
本实施方式进行了一系列的实验来评估张量环分解组件(htrd)和异构数据层次融合模型,并与其他先进的算法进行了比较。实验数据来源于异构视听数据集cuave。
[0071]
张量环分解组件性能分析:
[0072]
为了测试张量环分解组件在捕捉高维张量数据潜在特征方面的性能,利用分解后的张量因子重构了原始张量,并比较了基于张量环的trals算法和基于t-svd的svd方法。在
实验1中,考察了三种方法对张量秩(tr-rank)选择的鲁棒性,张量秩在2~10范围内。实验结果如图4所示。当张量秩较低时,所有算法都存在明显的欠拟合。当张量秩为4时,所有算法都能很好地重建原始图像。当张量秩逐渐增大时,trals算法和t-svd算法的重构性能因过拟合而逐渐下降,而本发明的htrd组件对张量秩选择具有良好的鲁棒性,并能有效提取出低维潜在特征。此外,在实验2中,使用相对平方误差(squared relative error,rse)来测试三种算法从不同数据缺失率数据中提取数据特征的能力,实验结果如图5所示。当数据缺失率较低时,这三种算法都能有效提取数据特征。当数据缺失率超过70%时,trals算法和t-svd算法的性能都出现了明显的下降。但本发明的htrd组件仍然表现出良好的特征提取性能,对噪声干扰具有较好的鲁棒性,更适合实际应用场景。
[0073]
异构数据融合分层模型分析:
[0074]
为了贴合真实场景,对所有的数据集都添加了50%的噪声,以帮助模型提高抗干扰能力。当训练异构数据分层融合深度模型,首先使用未受训的vletter数据集执行的模型,然后使用90%的数据在vurve数据集作为训练集来调整模型参数,最后用10%的性能测试vurve数据集。实验首先比较了传统向量空间的堆栈自编码器模型和张量空间的单数据源模型。本实施方式研究了每个模型隐含层数与训练时间的关系,如图6所示,当模型层数小于三层时,模型之间的训练时间差异很小。超过三层后,所有模型的训练时间都会显著增加,张量深度学习模型的训练时间比传统深度学习模型的训练时间要大。但是,通过张量分解,本发明提出的模型的训练维数相对较低,所以训练时间比其他张量模型要少。此外,通过多次实验,验证了hdhf模型融合特征的分类可靠性,并探究了tsae隐藏层数对模型分类精度的影响,实验结果如图7所示。结果表明,在任意层数的模型层数下,融合模型的分类精度均高于单数据源模型和矢量空间叠加的autoencoder模型。当隐藏层数为2层或3层时,tsae模型可以在较短的训练时间内获得较好的分类。
[0075]
最后,提取异构数据层次融合模型的不同层次融合特征,如图8所示。该模型利用原始张量在不同层次上的低维特征融合,并利用异质融合特征进行分类,同时保留了张量的相关性。
[0076]
不难发现,本发明利用张量环分解的方法得到不同模态数据的量子空间的低维特征,然后通过张量空间的深度学习模型进行初步的特征提取,经过多层特征融合分析,最终得到高精度的张量异构数据分层融合模型。通过该张量异构数据分层融合模型处理的异构数据在准确率方面有了很大的提高。
转载请注明原文地址: https://www.8miu.com/read-89.html

最新回复(0)