本发明属于机器学习,具体涉及基于自适应鲁棒主成分分析的图像数据处理方法、装置及存储介质。
背景技术:
1、随着各个领域信息技术的快速发展,大量机器学习和计算机视觉应用受到高维图像数据的限制,导致算法性能下降。此外,高维图像数据的计算成本很高,并且图像数据集中的噪声会随着维度的增加而增加。为了解决这些困难,降维技术就显得尤为重要。在过去的几十年中,人们利用了许多算法通过将高维特征空间表示为低维子空间,使其重要信息得到很好的保留。其中,主成分分析(pca)和线性判别分析(lda)是两种最典型的降维方法,它们分别在无监督和监督领域发挥着重要作用。然而,在现实世界中,标记图像数据往往不容易获得,因此无监督降维算法更有价值并得到广泛应用。
2、pca是一种非常经典的无监督降维算法,由于其简单性和有效性而被广泛应用于许多应用中。从不同的角度来看,pca有两个主要的表述:一是pca通过基于平方l2范数最小化投影图像数据样本的重构误差来学习投影子空间,二pca可以通过使用平方l2范数最大化投影子空间中图像数据样本的方差以此得到最优投影矩阵,众所周知,它们是等价的。然而,传统的pca有一个非常明显的缺点,那就是它使用平方l2范数来计算损失函数的值,很容易受到异常值的影响,从而无法学习到最优的投影子空间,而在现实世界中,图像数据集中经常出现大量异常值,这使得pca很难学习到最优的投影子空间。
3、在过去的几十年里,许多研究工作致力于提高主成分分析对异常值的鲁棒性。有些方法利用核范数和l1范数最小化或最大化等不同的准则函数来提高模型的性能。例如,在文献“bernhard,alexander smola,and klaus-robert müller.“nonlinearcomponent analysis as a kernel eigenvalue problem”neural computation 10.5(1998):1299-1319”中,bernhard等人在直接应用积分算子核函数在与输入空间相关的高维特征空间中高效地计算主成分;在文献“xu,huan,constantine caramanis,and sujay“robust pca via outlierpursuit”advances in neural informationprocessingsystems 23(2010)”中,xu等人从矩阵分解的角度提出了一种鲁棒主成分分析,可以准确地恢复损坏的图像数据。随后,这些基于l1范数的方法在这一领域变得非常活跃,并取得了良好的效果。具体地,在文献“wright,john,et al“robust principal component analysis:exact recovery of corrupted low-rank matrices via convex optimization”advances in neural informationprocessing systems 22(2009)”中,wright等人提出了一种鲁棒主成分分析方法从损坏的图像中恢复低秩矩阵,称为l1-pca,值得注意的是损坏的条目是未知的,误差可以任意大,但模型需要假设这些矩阵是稀疏的。在文献“ke,qifa,and takeo kanade“robust l/sub1/norm factorization in the presence of outliersand missing data by alternative convex programming”2005ieee computer societyconference on computer vision and pattern recognition(cvpr'05).vol.1.ieee,2005”中,ke等人提出了子空间估计算法,它使用基于l1范数的迭代凸规划最小化代价函数解决问题,这种方法可以直接处理噪声图像数据以及异常值。最后,在文献“kwak,nojun“principal component analysis based on l1-norm maximization”ieee transactionsonpattern analysis and machine intelligence 30.9(2008):1672-1680”中,kwak等人提出了一种l2范数优化技术,即pca-l1,与传统的基于l2-范数的pca不同,该方法采用了对异常值不敏感的l1-范数,并且具有旋转不变性,因此对异常值具有鲁棒性。此外,pca-l1只需要进行矩阵向量乘法运算,适用于图像数据量大、维度高的情况。这个对应的二维版本2dpca-l1也被作者xi等人在文献“li,xuelong,yanwei pang,and yuan yuan“l1-norm-based 2dpca”ieee transactions on systems,man,and cybernetics,part b(cybernetics)40.4(2010):1170-1175”中被提出,它避免了特征分解过程的计算,并且其迭代步骤很容易执行。2dpca-l1不仅充分利用了空间信息,而且对异常值也具有鲁棒性。而张量版本tpca-l1也被作者pang等人在文献“pang,yanwei,xuelong li,and yuan yuan“robust tensor analysis with l1-norm”ieee transactions on circuits andsystems for video technology 20.2(2009):172-178”中提出,它使用l1-norm来重构误差,并且使用张量分析使得对异常值具有鲁棒性。然后,ding等人在文献“ding,chris,etal“r 1-pca:rotational invariant l 1-norm principal component analysis forrobust subspace factorization”proceedings of the 23rd internationalconference on machine learning.2006”中提出了基于旋转不变性的l1-范数pca(r1pca),其解是r1-协方差矩阵的特征向量,进一步软化了异常值的贡献。后来,r1-pca对其2d版本的扩展可以在文献“yang,jian,et al“two-dimensional pca:a new approachto appearance-based face representation and recognition”ieee transactionsonpattern analysis and machine intelligence 26.1(2004):131-137”中找到,并且鲁棒张量分解方法也在文献“huang,heng,and chris ding“robust tensor factorizationusing r 1norm”2008ieee conference on computer vision and patternrecognition.ieee,2008”中被提出,它使用r1范数作为使用鲁棒协方差矩阵的误差累积函数,而不是像其他l1范数方法那样需要使用二次规划进行计算。
4、值得注意的是,如上所述的现有的鲁棒pca方法通常利用图像数据的均值作为最优均值来获得投影矩阵,即通常假设图像数据的均值为零。然而,这种方法是不合理的,因为高维数据中异常值的存在可能会导致图像数据中心偏离图像数据的平均值,而且,在基于l1范数的鲁棒主成分分析中,它们使用图像数据的算术平均值作为最优平均值,这是不正确的,因为计算图像数据的平均值是基于l2范数的而目标函数是基于l1范数的。此外,这些基于权重的算法没有对权重进行约束,因此图像数据的权重可能不稳定,从而影响投影矩阵的计算,最终导致模型的性能下降。
5、因此,本发明提出基于自适应鲁棒主成分分析的图像数据降维和降噪方法,以用于图像噪声处理,解决上述现有技术存在的问题。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种基于自适应鲁棒主成分分析的数据处理方法、装置及存储介质,本处理方法利用平方l2范数最小化重构误差,降低异常值的影响,具备鲁棒性强、具有严格的收敛保证和闭型解等优点,解决了现有pca方法存在的无法对图像数据权重进行约束、图像数据的权重不稳定和模型鲁棒性差等问题。
3、(二)技术方案
4、为实现上述降低图像数据降维过程中的异常值的影响、提高模型鲁棒性的目的,本发明提供如下技术方案:
5、本发明提供第一种方案:基于自适应鲁棒主成分分析的图像数据处理方法,所述处理方法用于数据降维和降噪,包括
6、步骤1:收集数据,并对图像数据集进行归一化处理;
7、步骤2:建立基于自适应鲁棒主成分分析的数据降维和降噪模型;
8、步骤3:将步骤1预先处理好的数据集带入步骤2建立的基于自适应鲁棒主成分分析的数据降维和降噪模型中进行降维,同时使用优化迭代算法对自适应鲁棒主成分分析模型进行迭代训练,使自适应鲁棒主成分分析模型达到稳定状态;
9、步骤4:将步骤1预先处理好的数据集带入步骤3训练后得到的稳定的自适应鲁棒主成分分析模型中进行求解,获得最优解,然后将所获得的结果利用k-means方法进行聚类,得到最终聚类结果,完成图像数据降维和降噪处理。
10、优选的,步骤2所述基于自适应鲁棒主成分分析的图像数据降维和降噪模型的建立过程包括
11、步骤2.1:在pca模型中加入最有均值,得到改进后的pca模型为:
12、
13、其中,其中,xi表示一个数据样本,e表示投影矩阵,et表示投影矩阵e的转置,i表示单位矩阵,θ表示均值变量;
14、步骤2.2:对上述改进后的pca模型增加一个自适应约束,得到最终的基于自适应鲁棒主成分分析的数据降维和降噪模型为:
15、
16、其中,γ是一个正则化参数,1表示元素全为1的向量,g表示权重,0≤gi≤1,gi对应于每个数据样本的权重,gt表示权重g的转置。
17、优选的,步骤2所述使用优化迭代算法对自适应鲁棒主成分分析模型进行迭代训练的过程包括
18、步骤3.1:将最终的基于自适应鲁棒主成分分析的图像数据降维和降噪模型重新改写为:
19、
20、步骤3.2:当固定每个图像数据样本的权重g时,求解模型(3)的最优解;
21、步骤3.3:当固定投影矩阵e和θ时,求解模型(3)的最优解。
22、优选的,步骤3.2所述当固定每个图像数据样本的权重g时,求解模型(3)的最优解的过程包括
23、步骤3.2.1:当固定每个图像数据样本的权重g时,将模型(3)重新改写为:
24、
25、步骤3.2.2:此时,模型(4)有两个优化变量e和θ,对变量θ求偏导并令其为0,得到:
26、(i-eet)(θ1t-x)gγ=0 (5)
27、其中,x表示整个数据集;
28、步骤3.2.3:令e⊥为e的正交补,[e⊥,e]是一个正交矩阵,得到对于任意一个向量(θ1t-x)gγ被表示为:
29、(θ1t-x)gγ=eα+e⊥β (6)
30、其中,α和β是两个正交参数;
31、将模型(6)带入到模型(5)中,得到:
32、(i-eet)(eα+e⊥β)=0 (7)
33、步骤3.2.4:根据矩阵正交补的性质,得到e⊥β=0,令β=0,有:
34、(θ1t-x)gγ=eα (8)
35、通过化简,得到优化变量θ的最优解为:
36、
37、其中,α是任意一个k维向量,将α设置为零向量;随后,将式(9)带入到式(4)中,得:
38、
39、其中,是一个权重中心矩阵,diag(gγ)是一个对角矩阵,并且第i个对角元素g_ii等于g中的第i个对角元素;
40、步骤3.2.5:让g=diag(gγ)并且得到模型(10)的最优解是xhdxt对应于前k个最大特征值对应的特征向量;当d>n时,使用svd分解得到模型(10)的最优解,则:
41、
42、优选的,步骤3.3所述当固定投影矩阵e和θ时,求解模型(3)的最优解的过程包括
43、步骤3.3.1:当固定投影矩阵e和θ时,将模型(3)改写为:
44、
45、对模型(12)使用拉格朗日乘子法并对变量g求偏导,得到:
46、
47、令模型(13)为0,得到:
48、
49、步骤3.3.2:将约束带入到模型(14)中化简,得到
50、
51、从模型(15)中,得到然后将模型(15)带入模型(14)中,得:
52、
53、至此,通过迭代训练模型,直到模型达到收敛达到稳定状态,得到稳定的自适应鲁棒主成分分析模型。
54、本发明提供第二种方案:基于自适应鲁棒主成分分析的图像图像数据处理装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
55、其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行基于自适应鲁棒主成分分析的图像数据处理方法。
56、本发明提供第三种方案:计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现基于自适应鲁棒主成分分析的图像数据处理方法。
57、(三)有益效果
58、与现有技术相比,本发明提供了基于自适应鲁棒主成分分析的图像数据处理方法、装置及存储介质,具备以下有益效果:
59、1.本发明提出了用于图像数据噪声处理的基于自适应鲁棒主成分分析的数据降维和降噪算法,本方法通过平方l2范数来学习投影矩阵,理论上联系于最小化重构误差,保留了在数据处理过程中传统主成分分析方法的属性并具有旋转不变性;
60、2.在本方法中,为使计算得到的数据均值更加合理,本方法在损失函数的优化过程中自动优化数据的最优均值,能够使得优化获得的数据中心更加合理;
61、3.本方法通过对损失函数施加自约束权重策略,可以更准确地学习投影矩阵;具体来说,通过采用收缩和拉伸的策略,将所有数据样本放置在相对位置,并自动为重构误差较大的项分配相对较小的权重,为重构误差较小的项分配相对较大的权重,能够有效减少异常值的负面影响;
62、4.本发明建立了基于自适应鲁棒主成分分析的图像数据降维和降噪方法模型,本模型可以应用于异常数据检测中,如在二分类的异常检测问题中,具体来说,可以应用于运维中偏离正常值的异常数据的检测;
63、5.最后,本发明设计迭代优化算法对所提出的基于自适应鲁棒主成分分析的数据降维和降噪模型进行求解,并在真实世界的数据集上的广泛实验结果,证明本发明所提出的方法在数据集噪声处理中与其他先进的方法相比的显著的有效性和优越性,可以获得更好的投影向量;实现了降低异常值的影响、提高模型鲁棒性的目的。
1.基于自适应鲁棒主成分分析的图像数据处理方法,其特征在于:所述处理方法用于数据降维和降噪,包括
2.如权利要求1所述的基于自适应鲁棒主成分分析的图像数据处理方法,其特征在于:步骤2所述基于自适应鲁棒主成分分析的数据降维和降噪模型的建立过程包括
3.如权利要求1所述的基于自适应鲁棒主成分分析的图像数据处理方法,其特征在于:步骤2所述使用优化迭代算法对自适应鲁棒主成分分析模型进行迭代训练的过程包括
4.如权利要求3所述的基于自适应鲁棒主成分分析的图像数据处理方法,其特征在于:步骤3.2所述当固定每个数据样本的权重g时,求解模型(3)的最优解的过程包括
5.如权利要求3所述的基于自适应鲁棒主成分分析的图像数据处理方法,其特征在于:步骤3.3所述当固定投影矩阵e和θ时,求解模型(3)的最优解的过程包括
6.基于自适应鲁棒主成分分析的图像数据处理装置,其特征在于:包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
7.计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于自适应鲁棒主成分分析的图像数据处理方法。