基于VAE-GAN的视频重构的方法、装置及存储介质与流程

allin2024-06-17  90


基于vae-gan的视频重构的方法、装置及存储介质
技术领域
1.本发明涉及ai图像领域,尤其涉及一种基于vae-gan的视频重构的方法、装置以及存储介质。


背景技术:

2.目前,图像到视频的转换已经成为计算机视觉中一个重要而广泛研究的领域。它在多媒体内容生成中产生了许多令人兴奋的应用,例如生成面部表情视频时的情感,就可以生成与输入相关的视频。近期,一些列学者如xueetal、walkeretal、babaeizadehetal、lietal、wangetal、panetal等人,利用变分自动编码器(vae)结构对视频中的运动随机性建模,以生成不同的可能未来帧,它使用均方误差(mse)等像素级损失函数来最小化对数似然和最大化变分上限,使模型训练变得易于处理。但是转换任务是视频生成任务的一部分,比需要多个输入的视频预测任务更困难。然而,像素级的损失会导致模型预测的结果仅仅与平均值对应,也就是说,上述模型会产生模糊的样本。
3.除vae外,生成式对抗网络(gan)已经成为视频时代的一个有前途的框架,gan通过对抗性学习将模糊样本从自然样本中区分出来,与vae算法相比,gan算法能获得更真实的合成结果。但是,根据理论研究,gan仍然存在不稳定的梯度和模型坍塌问题,限制了其在复杂动作视频生成中的应用。gan相较于vae能获得更真实的结果,而vae对模型坍塌更具有鲁棒性。这导致人们试图结合gan和vae的优点来获得更高水平的图像质量,同时避免不稳定的梯度。例如在现有技术cn111669587b一种视频图像的拟态压缩方法以及us11042758b2中都采用了vae-gan网络结构,使用了神经网络来训练数据。但两者均未解决如何根据单帧的图像生成连续的高质量视频的技术问题,而上述技术方案使用了原版的vae-gan模型分别实现对于视频图像拟态压缩以及车辆图像的分析再生成。现有的vae-gan方法中,由于图像到视频任务只有一个输入,不像大多数视频预测任务可以通过多个输入来提供运动向量无法图像生成高质量的视频。上述现有技术并没有进行模型架构的调整,所生成的图像即不是高质量的,也无法完成单帧图像到高精度视频的转换。


技术实现要素:

4.为解决上述现有技术的问题,本发明实施例提供了一种基于vae-gan的视频重构的方法,包括以下步骤:
5.获取视频序列,对所述视频序列进行预处理,得到单帧图像以及视频属性;
6.将所述单帧图像以及所述视频属性输入至预先训练好的vae-gan模型中进行视频重建,所述vae-gan模型包括vae编码器网络、vae解码器网络、内容提取器网络以及生成对抗式gan网络,
7.其中,将所述视频序列输入至所述vae编码器网络得到运动向量,将所述单帧图像输入至所述内容提取器网络进行语义提取得到内容特征后,将所述运动向量、所述视频属性以及所述内容特征输入至所述vae解码器网络重建得到模糊图像;
8.其中所述vae解码器包括循环神经网络结构、辅助解码器以及主解码器,将所述运动向量以及输入至所述循环网络结构得到潜在变量,所述潜在变量通过所述辅助解码器中的反卷积层输出反卷积特征,将所述反卷积特征、所述内容特征以及所述潜在变量进行矩阵变换后输入至所述主解码器进行视频转换后,得到所述模糊图像。
9.将所述模糊图像与所述视频序列输入至所述gan网络进行真伪分类,输出重建图像得到重建视频。
10.在上述方案的基础上本发明还可以做如下改进。
11.进一步,通过所述vae编码器网络输出的均值和方差参数化构建高斯模型,所述运动向量还可以从所述高斯模型中采样得到,其中,所述高斯模型均值为0,方差为1。
12.进一步,获取视频序列,对所述视频序列进行预处理具体为,对所述视频序列按预设帧率进行抽帧处理,得到所述单帧图像;将所述视频序列的属性通过one-hot编码进行特征数字化处理,得到视频属性的单热向量。进一步,所述辨别器网络包括二维卷积层集以及三维卷积层集,所述二维卷积层集用于对所述模糊图像和所述单帧图像进行辨别分类,所述三维卷积层用于对所述重建视频和所述视频序列进行辨别分类。
13.进一步,主解码器包括多个二维的反卷积模块和多个三维卷积层;所述辅助解码器包括多个二维反卷积模块,其中每个二维反卷积模块包括两个二维卷积层和一个上采样算子。
14.进一步,基于gan网络模型构建所述vae-gan模型,所述vae-gan模型包括vae组件以及辨别器网络,所述vae组件包括所述vae编码器网络、vae解码器网络以及内容提取器网络,所述vae组件用于对所述运动向量、所述内容特征以及视频属性进行重建,得到重建视频;
15.训练所述vae-gan模型包括:获取视频数据集,利用所述视频数据集对所述vae-gan模型进行多次迭代训练,并通过所述辨别器网络将所述重建视频与所述视频数据集中的视频进行损失比对,并根据损失比对结果对所述vae-gan模型的参数进行更新,直至所述辨别器网络无法识别所述重建视频的真伪。
16.进一步,对于所述vae组件进行训练时,将所述视频序列输入至所述vae编码器网络得到运动向量,对于vae-gan模型进行训练时,所述运动向量通过所述vae编码器网络输出的均值和方差参数化构建高斯模型,从所述高斯模型中采样得到。
17.进一步,通过预设的身份特征匹配损失函数来最小化高层特征之间的距离,利用预设的连接特征损失函数降低所述vae组件和所述辨别器网络连接的特征损失,所述身份特征匹配损失函数表达式如下:
[0018][0019]
其中,v表示视频序列,n为视频属性,ψ-1
为预训练时深度卷积网络输出的张量,t为所述视频序列的帧数,是视频序列的首帧图像,还有和分别是视频序列和重建视频的第t帧图像;
[0020]
所述连接特征匹配损失函数表达式如下:
[0021][0022]
其中,i0为视频序列v的首帧图像,g为重建视频,c为视频属性,em(v)为运动向量,i
t
和为视频序列v和生成视频的第t帧图像,f
dv
为所述辨别器网络中三维卷积层输出的张量,f
di
为所述辨别器网络中二维卷积层输出的张量。
[0023]
本发明另一个目的在于提供一种基于vae-gan的视频重构的装置,包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如上述的基于vae-gan的视频重构的方法。
[0024]
本发明再一个目的在于提供一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器执行以实现如上述的基于vae-gan的视频重构的方法。
[0025]
本发明的有益效果是:采用辅助解码器和内容解码器为一体的双通道解码器,使得视频在不丢失整体的内容信息的同时提高视频连贯性与清晰度,并通过内容提取器对视频特征进行粗优化后,连接一个辅助解码器通道对视频特征进行精细优化,以粗到细的方式进行视频生成。因此,vae解码器组件在粗糙的水平上生成多样化的视频,然后连接辅助解码器通道和内容提取通道对模糊结果进行细化,以获得精细的细节来生成高质量的视频,并只提供视频序列的任一帧和目标视频类别,就可以合成多个高质量视频以及执行多个图像到视频的翻译任务。
附图说明
[0026]
图1为本发明实施例中基于vae-gan的视频重构的方法流程框图;
[0027]
图2为本发明实施例中vae-gan模型整体结构示意图;
[0028]
图3为本发明实施例中双通道解码器的结构示意图;
[0029]
图4为本发明重构视频与现有技术重构后的效果比对图。
具体实施方式
[0030]
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0031]
如图1所示,本发明提供了一种解决上述技术问题的技术方案如下:获取视频序列,对所述视频序列进行预处理,得到单帧图像以及视频属性;将所述单帧图像以及所述视频属性输入至预先训练好的vae-gan模型中进行视频重建,得到重建视频。
[0032]
其中所述vae-gan模型包括vae编码器网络、vae解码器网络、内容提取器网络以及gan(生成对抗式)网络,
[0033]
将所述视频序列输入至所述vae编码器网络得到运动向量z,将所述单帧图像输入
至所述内容提取器网络进行语义提取得到内容特征fc,将所述运动向量、所述视频属性以及所述内容特征输入至所述vae解码器网络重建得到模糊图像;
[0034]
其中,所述vae解码器包括循环神经网络结构、辅助解码器以及主解码器,将所述运动向量以及输入至所述循环网络结构得到潜在变量z0,所述潜在变量通过所述辅助解码器中的反卷积层输出反卷积特征,将所述反卷积特征、所述内容特征以及所述潜在变量进行矩阵变换后输入至所述主解码器进行视频转换后,得到所述模糊图像。
[0035]
将所述模糊图像与所述视频序列输入至所述gan网络进行真伪分类,输出重建图像得到重建视频。
[0036]
本发明通过采用辅助解码器和内容解码器为一体的双通道解码器,使得视频在不丢失整体的内容信息的同时提高视频连贯性与清晰度,并通过内容提取器对视频特征进行粗优化后,连接一个辅助解码器通道对视频特征进行精细优化,以粗到细的方式进行视频生成。因此,vae解码器组件在粗糙的水平上生成多样化的视频,然后连接辅助解码器通道和内容提取通道对模糊结果进行细化,以获得精细的细节来生成高质量的视频,并只提供视频序列的任一帧和目标视频类别,就可以合成多个高质量视频以及执行多个图像到视频的翻译任务。
[0037]
在本实施例中具体地,vae-gan体系结构以及重建视频生成过程如图2所示,由于对图片只是进行一个内容信息的嵌入抽取,用于指导规范后面的视频生成的方向,而全局视帧序列的内容信息应没有较大差别,比如视频序列中的人脸,都是一个人的动作,所以在利用二维卷积层ec从输入视频序列v中进行语义内容提取时可以选定任一单帧图像,由于第一帧和最后一帧的内容信息包括比较多,对后续视频生成方向的规范效果会比较好,所以本发明获取视频序列v={i0,i1,...,i
t
},其中t为视频中的帧总数,选取第一帧i0或最后一帧i
t
的图像来提取语义内容。语义内容用不同大小的张量fc表示。将所述视频序列v输入至所述vae编码器网络得到运动向量z,而在对于整个vae-gan模型进行训练时,所述运动向量z还可以通过所述vae编码器网络输出的均值和方差参数化构建高斯模型,从所述高斯模型z~pθ(z)中采样得到,其中,所述高斯模型均值为0,方差为1。
[0038]
在本实施例中具体地,获取视频序列后,还需要对所述视频序列进行预处理,包括对所述视频序列按预设帧率进行抽帧处理,得到所述单帧图像,根据视频序列的持续时间,我们取样不同数量的子帧,但子帧的数量不超过四个。每个子帧序列的长度为16帧,每个序列包含的视频属性如面部表情都过渡到最突出的部分,然后逐渐降低表情水平;将所述视频序列的属性通过one-hot编码进行特征数字化处理,得到视频属性的单热向量。
[0039]
其中,用c来表示视频序列中的属性,例如我们生成面部表情视频时的情绪。我们将c通过one-hot编码进行特征数字化处理表示为一个one-hot向量,例如c=[1/0/0/0/0/0],其中第一个数字1表示目标生成的面部表情视频应显示特定的表情。通过改变1的位置,模型可以生成六个不同的表情视频。例如每个视频都有六个不同的面部情绪类别之一:愤怒、厌恶、恐惧、快乐、悲伤和惊讶。最后,我们利用运动向量z、语义内容特征fc和单热向量c作为解码器网络p的输入来重建视频在vae-gan结构中。解码器网络p的结构如图3所示。
[0040]
在本实施例中具体地,为了限制vae-gan模型利用采样潜在变量z0中包含的运动向量,我们设计了一个新的双通道vae解码器结构。所述vae解码器包括循环神经网络结构(lstm)、辅助解码器以及主解码器第一个通道是辅助解码器通道,主解码器包括多个二维
的反卷积模块和多个三维卷积层组成。辅助解码器信道有多个二维反卷积模块。每个二维反卷积模块由两个二维卷积层和一个上采样算子组成。根据z0输出不同的反卷积特征。第二个通道是主解码器通道。在每一层中,图像特征由反卷积的先前输出组成,内容特征来自内容提取器ec和来自辅助解码器通道的特征。主解码器通道的初始输入特征是通过重新整合z
t
获得的。双通道vae解码器p如图3所示;对于每个采样的潜在变量z0,要么来自我们训练vae组件时的vae编码器z=em(v),要么来自之前的高斯模型z~pθ(z)在训练gan组件时,我们首先将z及其视频属性c输入lstm网络中以提取获得潜在变量z0~z
t
,其中t代表数字的视频帧。我们还从内容提取器ec中获得了内容特征fc(i0),fc(i0)=eci0。最后,双通道vae解码器可以将潜在变量z0~z
t
和内容特征fc(i0)转换为具有t帧的视频,即表示为其中表示重建视频。
[0041]
在本实施例中具体地,vae-gan结构中的鉴别器,所述辨别器网络包括二维卷积层集以及三维卷积层集。第一个是用于区分生成帧和真实帧之间的单个帧的2d卷积层集di,第二个是用于区分生成帧和真实帧之间的视频的3d卷积层集dv视频和视频序列。d的输出是一个二进制变量y,代表视频是真还是假。而用于视频生成的gan生成器则为vae组件通过生成器损失函数稳定梯度收敛,保持生成视频和视频序列的高层特征一致,并通过在vae和gan组件之间建立连接,以起到保留对象整体结构的作用。
[0042]
在本实施例中具体地,基于gan网络模型构建所述vae-gan模型,所述vae-gan模型包括vae组件以及辨别器网络,获取视频数据集,利用所述视频数据集对所述vae-gan模型进行多次迭代训练,所述vae组件包括所述vae编码器网络、vae解码器网络以及内容提取器网络,所述vae组件用于对所述运动向量、所述内容特征以及视频属性进行重建,得到重建视频,并通过所述辨别器网络将所述重建视频与所述视频数据集中的视频进行损失比对,并根据损失比对结果对所述vae-gan模型的参数进行更新,直至所述辨别器网络无法识别所述重建视频的真伪。
[0043]
在本实施例中具体地,针对vae组件的训练中通过训练一个变分神经网络q
φ
(z|v)来近似其他难以处理的潜在后验p
θ
(z|v)。我们从由vae编码器em(v)输出的均值和方差参数化的高斯模型中采样z。为了简单起见,在这项工作中,这个过程被重新表述为z=em(v)。em是一个3d卷积网络。假设先验p
θ
(z)是已知的,我们利用神经网络来逼近一个复杂的似然p
θ
(v|z),这使得数据最大化似然p
θ
(v)。在我们的图像到视频任务中,为了重建视频,给定第一帧i0和视频属性c,我们建议的解码器是表述为:
[0044][0045]
其中,向量z在vae训练过程中通过z=em(v)得到,fc(i0)=ec(i0)和是重建的重建视频。二维卷积网络ec用于从第一帧i0中提取语义信息内容。对应的内容特征fc(i0)是网络ec的每个卷积层的输出。因此语义内容由几个不同大小的张量组成。在实现解码器时,内容特征以跳接的方式连接到解码器p。解码器p由一个lstm网络和几个卷积和反卷积层组成,总之,当我们在vae-gan结构中训练vae组件时,网络旨在最小化以下损失:
[0046]
[0047]
其中,d
kl
是kullback-leibler(k-l)散度。通过上述公式,我们可以最小化后验q
φ
(z|v)和先验p
θ
(z)之间的kl散度,并最小化l1重建视频和视频序列v之间的重建损失,从解码器表达式中可以看出,视频运动向量由视频属性向量c和采样的潜在运动向量z(即z=em(v))决定,而内容信息由内容特征fc(i0)。
[0048]
l
perceptual
为感知机损失,他可以抑制解码器vae的输出特征差异,其中v指的是视频序列的输出特征,指的是重建视频的输出特征:
[0049][0050]
为了训练vae组件,我们将视频序列v输入到vae解码器em以采样运动向量z,将第一个视频帧i0输入到内容提取器ec内容特征fc。然后将运动向量z、内容特征fc和视频属性c输入到vae解码器p中重构重建视频我们使用的损失是vae损失函数(2)和感知损失函数(3)。对于训练gan组件,我们从先前的z~pθ(z)中采样运动向量z,并将其与内容特征fc和视频属性c结合到vae解码器p也可以重构重建视频为了提高生成视频的质量,我们使用以下gan将目标视频的先验知识输入到训练过程中。在训练gan的过程中,通过gan的生成器g即vae组件生成重构视频:其表达式为,g即vae组件生成重构视频:其表达式为,
[0051]
在本实施例中具体地,辨别器网络包括二维卷积层集以及三维卷积层集,所述二维卷积层集用于对所述模糊图像和所述单帧图像进行辨别分类,所述三维卷积层用于对所述重建视频和所述视频序列进行辨别分类视频和图像判别器,分别表示为dv和di,分别用于区分重建视频和单帧图像。由于g的任务是生成尽可能逼真的视频,我们的判别器损失定义如下:l
dc
为vae-gan的监督器的损失函数。生成网络g的目标就是尽量生成真实的图片去欺骗判别网络d。而d的目标就是尽量把g生成的图片和真实的图片分别开来。这样整个模型训练的过程实际上是g和d一个动态的“博弈过程”,去迫使生成器g去生成尽可能逼真的视频,并且使用了计算交叉熵的方法来制定视频属性的标签,以指定生成视频的目标域:
[0052][0053]
其中l
dc
的最后一项是交叉熵损失。这意味着我们的dv被训练来对自然视频v的类别进行分类。我们利用视频属性的标签信息来指定生成视频的目标域。因此,dv不仅判别真实性,还输出视频对应的类别即视频属性c的概率分布。在我们所有的实验中,λ都设置为1。注意,为了训练gan组件,z是通过从先前的高斯模型z~pθ(z)中采样获得的,但我们也通过对输入视频进行编码z=em(v)进一步训练鉴别器。
[0054]
为了增强视频的时空一致性并避免模式崩溃,我们首先重新审视了vae-gan中用于生成图像的特征匹配损失。我们设计了两个特征匹配损失函数,分别称为a)身份特征匹配损失和b)连接特征匹配损失。这些都具有稳定梯度的作用。让fdv(v)和fdi(i
t
)分别代表鉴别器dv和di的中间层的张量。虽然特征匹配损失l
fm
在一定程度上稳定了梯度,但特征匹
gan的视频重构的方法。作为一个可执行方案,基于vae-gan的视频重构的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。系统/电子设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述系统/电子设备的组成结构仅仅是系统/电子设备的示例,并不构成对系统/电子设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件。例如系统/电子设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
[0063]
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是系统/电子设备的控制中心,利用各种接口和线路连接整个系统/电子设备的各个部分。
[0064]
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现系统/电子设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0065]
本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本发明实施例上述方法的步骤。系统/电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
[0066]
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0067]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
[0068]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种基于vae-gan的视频重构的方法,其特征在于,包括以下步骤:获取视频序列,对所述视频序列进行预处理,得到单帧图像以及视频属性;将所述单帧图像以及所述视频属性输入至预先训练好的vae-gan模型中进行视频重建,所述vae-gan模型包括vae编码器网络、vae解码器网络、内容提取器网络以及生成对抗式gan网络,其中,将所述视频序列输入至所述vae编码器网络得到运动向量,将所述单帧图像输入至所述内容提取器网络进行语义提取得到内容特征后,将所述运动向量、所述视频属性以及所述内容特征输入至所述vae解码器网络重建得到模糊图像;其中所述vae解码器包括循环神经网络结构、辅助解码器以及主解码器,将所述运动向量以及输入至所述循环网络结构得到潜在变量,所述潜在变量通过所述辅助解码器中的反卷积层输出反卷积特征,将所述反卷积特征、所述内容特征以及所述潜在变量进行矩阵变换后输入至所述主解码器进行视频转换后,得到所述模糊图像;将所述模糊图像与所述视频序列输入至所述gan网络进行真伪分类,输出重建图像得到重建视频。2.如权利要求1所述的基于vae-gan的视频重构的方法,其特征在于,通过所述vae编码器网络输出的均值和方差参数化构建高斯模型,所述运动向量还可以从所述高斯模型中采样得到,其中,所述高斯模型均值为0,方差为1。3.如权利要求2所述的基于vae-gan的视频重构的方法,其特征在于,获取视频序列,对所述视频序列进行预处理具体为,对所述视频序列按预设帧率进行抽帧处理,得到所述单帧图像;将所述视频序列的属性通过one-hot编码进行特征数字化处理,得到视频属性的单热向量。4.如权利要求3所述的基于vae-gan的视频重构的方法,其特征在于,所述辨别器网络包括二维卷积层集以及三维卷积层集,所述二维卷积层集用于对所述模糊图像和所述单帧图像进行辨别分类,所述三维卷积层用于对所述重建视频和所述视频序列进行辨别分类。5.如权利要求4所述的基于vae-gan的视频重构的方法,其特征在于,主解码器包括多个二维的反卷积模块和多个三维卷积层;所述辅助解码器包括多个二维反卷积模块,其中每个二维反卷积模块包括两个二维卷积层和一个上采样算子。6.如权利要求5所述的基于vae-gan的视频重构的方法,其特征在于,基于gan网络模型构建所述vae-gan模型,所述vae-gan模型包括vae组件以及辨别器网络,所述vae组件包括所述vae编码器网络、vae解码器网络以及内容提取器网络,所述vae组件用于对所述运动向量、所述内容特征以及视频属性进行重建,得到重建视频;训练所述vae-gan模型包括:获取视频数据集,利用所述视频数据集对所述vae-gan模型进行多次迭代训练,并通过所述辨别器网络将所述重建视频与所述视频数据集中的视频进行损失比对,并根据损失比对结果对所述vae-gan模型的参数进行更新,直至所述辨别器网络无法识别所述重建视频的真伪。7.如权利要求6所述的基于vae-gan的视频重构的方法,其特征在于,对于所述vae组件进行训练时,将所述视频序列输入至所述vae编码器网络得到运动向量,对于vae-gan模型进行训练时,所述运动向量通过所述vae编码器网络输出的均值和方差参数化构建高斯模型,从所述高斯模型中采样得到。
8.如权利要求7所述的基于vae-gan的视频重构的方法,其特征在于,通过预设的身份特征匹配损失函数来最小化高层特征之间的距离,利用预设的连接特征损失函数降低所述vae组件和所述辨别器网络连接的特征损失,所述身份特征匹配损失函数表达式如下:其中,v表示视频序列,n为视频属性,ψ-1
为预训练时深度卷积网络输出的张量,t为所述视频序列的帧数,是视频序列的首帧图像,还有和分别是视频序列和重建视频的第t帧图像;所述连接特征匹配损失函数表达式如下:其中,i0为视频序列v的首帧图像,g为重建视频,c为视频属性,e
m
(v)为运动向量,i
t
和为视频序列v和生成视频的第t帧图像,f
dv
为所述辨别器网络中三维卷积层输出的张量,f
di
为所述辨别器网络中二维卷积层输出的张量。9.一种基于vae-gan的视频重构的装置,其特征在于,包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如权利要求1至8任一所述的基于vae-gan的视频重构的方法。10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器执行以实现如权利要求1至8任一项所述的基于vae-gan的视频重构的方法。

技术总结
本发明涉及一种基于VAE-GAN的视频重构的方法,包括获取视频序列并对其进行预处理后,得到单帧图像以及视频属性;将所述单帧图像以及所述视频属性输入至预先训练好的VAE-GAN模型中进行视频重建,得到重建视频。本发明采用辅助解码器和内容解码器为一体的双通道解码器,使得视频在不丢失整体的内容信息的同时提高视频连贯性与清晰度,并通过内容提取器对视频特征进行粗优化后,连接一个辅助解码器通道对视频特征进行精细优化,以粗到细的方式进行视频生成,获得了精细的细节用以生成高质量的视频。视频。视频。


技术研发人员:王胜利 宋国云 刘沛 任建新 侯正中 郑婕 张翔 谢石木林 林平远 张志宏 刘旭杰 汤泽毅 粘为帆 许倩
受保护的技术使用者:国网信通亿力科技有限责任公司
技术研发日:2022.04.07
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-14574.html

最新回复(0)