本技术涉及图像渲染,特别是涉及一种数字人视频渲染方法、装置、设备及计算机可读存储介质。
背景技术:
1、数字人生成是一个快速发展的领域,涵盖了多种不同的方法和流派。其中,三维扫描与渲染技术通过多机位高精度扫描获取人物的几何形态和表面纹理,再借助三维物理引擎的渲染能力,创造出立体且逼真的数字人模型。神经辐射场(nerf)技术是另一种三维重建方法,其可以分析单目视频实现场景的深度理解和三维重建。神经辐射场技术不仅能够合成新视角的静态图像,还能在训练过程中引入运动编码,实现对数字人的动作控制。
2、然而,以上两种数字人生成技术在制作成本上相对较高,且在处理多人物建模和从海量数据中学习通用规律方面存在局限。相比而言,深度生成模型展现出显著的优势。通过在大量数据上进行训练,深度生成模型能够学习到数字人形态与纹理的普遍特性,并从单张图片中合成出逼真的数字人图像。为了更好地控制合成数字人的表情等运动模式,一些方法通常引入一些中间表征来表达几何或者运动信息,例如使用人脸3dmm(3dmorphable model,三维形变模型)系数或者有监督关键点来作为控制信号,参与到生成图像的训练中。利用大量视频数据进行训练,从而学习根据单张图片和控制信号渲染数字人。但是其渲染技术往往基于类似unet网络构造的图像生成器,甚至基于神经辐射场以及diffusion(扩散)等算法,渲染过程需要较高的计算资源和时间。算法的渲染模块通常是逐帧独立地推理,不存在帧间的信息交互,模型难以推理出时间上一致的纹理信息。3dmm估计的表情和姿态系数,以及有监督关键点本身难以保证高精度,通常会存在一定的时序抖动,难以保证其捕捉真实的运动细节。
3、综上所述,如何有效地解决渲染速度慢、纹理一致性差、难以捕捉真实的运动细节等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
1、本技术的目的是提供一种数字人视频渲染方法,该方法提升了渲染速度,提升了纹理的一致性和稳定性,提升了对运动细节捕捉的真实性;本技术的另一目的是提供一种数字人视频渲染装置、设备及计算机可读存储介质。
2、为解决上述技术问题,本技术提供如下技术方案:
3、一种数字人视频渲染方法,包括:
4、利用目标数字人视频渲染模型中的目标纹理估计器从目标人脸图像中推理剥离第一几何形状的纹理信息;其中,所述纹理信息包括背景图层、前景图层及遮挡物图层;所述前景图层包括多个包含人脸信息的互补图层;
5、利用所述目标数字人视频渲染模型中的目标几何估计器分别从目标视频的各图像帧中推理几何编码向量,并分别利用各几何编码向量进行几何信息编码,得到各第二几何形状;
6、利用所述目标数字人视频渲染模型中的目标分层纹理渲染器分别按照各第二几何形状对所述前景图层进行3d到2d的几何映射,得到各复合前景图层;
7、利用所述目标分层纹理渲染器针对每个复合前景图层,按照所述目标人脸图像中所述背景图层、所述前景图层及所述遮挡物图层的排列顺序,对所述背景图层、所述复合前景图层、所述遮挡物图层进行图层复合,得到渲染图像;
8、利用所述目标数字人视频渲染模型按照各图像帧在所述目标视频中的排列顺序对各渲染图像进行排列,得到目标数字人视频。
9、在本技术的一种具体实施方式中,还包括所述目标数字人视频渲染模型的训练过程,所述目标数字人视频渲染模型的训练过程包括:
10、采集包含人物动作的原始视频数据;
11、从所述原始视频数据中检测背景运动视频片段;
12、将检测到的背景运动视频片段从所述原始视频数据中剔除,得到过滤后视频数据;
13、按照预设的帧间偏离距离最大值对所述过滤后视频数据进行视频切割,得到各视频片段;
14、针对每个视频片段,分别获取各图像帧中的第一人脸框位置;
15、根据各第一人脸框位置计算所述视频片段对应的人脸框平均位置;
16、按照预设比例对所述人脸框平均位置进行外扩,得到目标人脸框大小;
17、按照预设位移量对所述人脸框平均位置进行平移,得到各第一切框位置;
18、按照所述目标人脸框大小对所述视频片段中各第一切框位置的图像帧进行切取,得到第一人脸图像集;
19、构建包含初始纹理估计器、初始几何估计器以及初始分层纹理渲染器的初始数字人视频渲染模型;
20、对所述第一人脸图像集进行交叉重构,得到重构图像帧;
21、利用各重构图像帧对所述初始数字人视频渲染模型进行自监督训练,得到包含所述目标纹理估计器、所述目标几何估计器及所述目标分层纹理渲染器的所述目标数字人视频渲染模型。
22、在本技术的一种具体实施方式中,利用各重构图像帧对所述初始数字人视频渲染模型进行自监督训练,得到包含所述目标纹理估计器、所述目标几何估计器及所述目标分层纹理渲染器的所述目标数字人视频渲染模型,包括:
23、利用各重构图像帧对所述初始数字人视频渲染模型进行自监督训练,得到第一数字人视频渲染模型;
24、获取包含图片标识信息的各图片数据;
25、分别获取各图片数据中的第二人脸框位置,并按照所述预设比例对所述第二人脸框位置进行外扩,得到各第二切框位置;
26、对各第二切框位置的图像帧进行切取,得到第二人脸图像集;
27、利用所述第二人脸图像集对所述第一数字人视频渲染模型进行对抗训练,得到所述目标数字人视频渲染模型。
28、在本技术的一种具体实施方式中,还包括:
29、对接收到的背景替换请求进行解析,得到待替换为的目标背景;
30、利用所述目标背景对所述纹理信息中的背景图层进行替换;
31、相应的,对所述背景图层、所述复合前景图层、所述遮挡物图层进行图层复合,包括:
32、对所述目标背景、所述复合前景图层、所述遮挡物图层进行图层复合。
33、在本技术的一种具体实施方式中,还包括:
34、接收遮挡物处理请求;
35、根据所述遮挡物处理请求对所述遮挡物图层进行处理。
36、在本技术的一种具体实施方式中,利用目标数字人视频渲染模型中的目标纹理估计器从目标人脸图像中推理剥离第一几何形状的纹理信息,包括:
37、利用所述目标纹理估计器中的纹理编码器将所述目标人脸图像映射为初始多层次特征图;
38、通过所述目标数字人视频渲染模型获取所述目标人脸图像的所述第一几何形状,并推理所述第一几何形状对应的几何变换,根据所述几何变换对所述多层次特征图中的各特征图进行几何去除和对齐操作,得到变换后多层次特征图;
39、利用所述目标纹理估计器中的纹理解码器对所述初始多层次特征图和所述变换后多层次特征图进行分层纹理解码,得到所述剥离第一几何形状的纹理信息。
40、在本技术的一种具体实施方式中,利用所述目标数字人视频渲染模型中的目标分层纹理渲染器分别按照各第二几何形状对所述前景图层进行3d到2d的几何映射,包括:
41、利用所述目标几何估计器中的几何解码器根据各第二几何形状预测关键点布局,得到布局后的各3d关键点;
42、利用所述目标数字人视频渲染模型中的目标分层纹理渲染器获取纹理空间中所述前景图层包含的各3d锚点,并根据各3d锚点和各3d关键点的映射关系进行tps插值并截取0平面。
43、一种数字人视频渲染装置,包括:
44、纹理信息推理模块,用于利用目标数字人视频渲染模型中的目标纹理估计器从目标人脸图像中推理剥离第一几何形状的纹理信息;其中,所述纹理信息包括背景图层、前景图层及遮挡物图层;所述前景图像包括多个包含人脸信息的互补图层;
45、第二几何形状获得模块,用于利用所述目标数字人视频渲染模型中的目标几何估计器分别从目标视频的各图像帧中推理几何编码向量,并分别利用各几何编码向量进行几何信息编码,得到各第二几何形状;
46、复合前景图层获得模块,用于利用所述目标数字人视频渲染模型中的目标分层纹理渲染器分别按照各第二几何形状对所述前景图层进行3d到2d的几何映射,得到各复合前景图层;
47、渲染图像获得模块,用于利用所述目标分层纹理渲染器针对每个复合前景图层,按照所述目标人脸图像中所述背景图层、所述前景图层及所述遮挡物图层的排列顺序,对所述背景图层、所述复合前景图层、所述遮挡物图层进行图层复合,得到渲染图像;
48、数字人视频获得模块,用于利用所述目标数字人视频渲染模型按照各图像帧在所述目标视频中的排列顺序对各渲染图像进行排列,得到目标数字人视频。
49、一种数字人视频渲染设备,包括:
50、存储器,用于存储计算机程序;
51、处理器,用于执行所述计算机程序时实现如前所述数字人视频渲染方法的步骤。
52、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述数字人视频渲染方法的步骤。
53、本技术所提供的数字人视频渲染方法,利用目标数字人视频渲染模型中的目标纹理估计器从目标人脸图像中推理剥离第一几何形状的纹理信息;其中,纹理信息包括背景图层、前景图层及遮挡物图层;前景图层包括多个包含人脸信息的互补图层;利用目标数字人视频渲染模型中的目标几何估计器分别从目标视频的各图像帧中推理几何编码向量,并分别利用各几何编码向量进行几何信息编码,得到各第二几何形状;利用目标数字人视频渲染模型中的目标分层纹理渲染器分别按照各第二几何形状对前景图层进行3d到2d的几何映射,得到各复合前景图层;利用目标分层纹理渲染器针对每个复合前景图层,按照目标人脸图像中背景图层、前景图层及遮挡物图层的排列顺序,对背景图层、复合前景图层、遮挡物图层进行图层复合,得到渲染图像;利用目标数字人视频渲染模型按照各图像帧在目标视频中的排列顺序对各渲染图像进行排列,得到目标数字人视频。
54、由上述技术方案可知,通过将目标人脸图像的前景图层分解成多个互补图层,增强了对复杂动态纹理的表达能力,提升了对运动细节捕捉的真实性。通过形变场来将纹理渲染成指定的几何形状。在渲染数字人视频时,只需预先提取一次纹理信息,并通过不断改变维度非常低的几何信息来产生动态画面,较大地降低了数字人相关应用所需占用的计算资源,提升了渲染速度。利用目标数字人视频渲染模型中的目标纹理估计器分离纹理与运动,实现了纹理与运动的解耦。利用目标数字人视频渲染模型中的目标几何估计器推理得到目标视频中各图像帧的第二几何形状,利用目标数字人视频渲染模型中的目标分层纹理渲染器对目标图像中的前景图层根据各第二几何形状进行几何映射,得到各复合前景图层,进而渲染得到目标是数字人视频。通过利用端到端训练得到目标数字人视频渲染模型进行数字人视频渲染,有效提升了纹理的一致性和稳定性。
55、相应的,本技术还提供了与上述数字人视频渲染方法相对应的数字人视频渲染装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
1.一种数字人视频渲染方法,其特征在于,包括:
2.根据权利要求1所述的数字人视频渲染方法,其特征在于,还包括所述目标数字人视频渲染模型的训练过程,所述目标数字人视频渲染模型的训练过程包括:
3.根据权利要求2所述的数字人视频渲染方法,其特征在于,利用各重构图像帧对所述初始数字人视频渲染模型进行自监督训练,得到包含所述目标纹理估计器、所述目标几何估计器及所述目标分层纹理渲染器的所述目标数字人视频渲染模型,包括:
4.根据权利要求1所述的数字人视频渲染方法,其特征在于,还包括:
5.根据权利要求1所述的数字人视频渲染方法,其特征在于,还包括:
6.根据权利要求1所述的数字人视频渲染方法,其特征在于,利用目标数字人视频渲染模型中的目标纹理估计器从目标人脸图像中推理剥离第一几何形状的纹理信息,包括:
7.根据权利要求1所述的数字人视频渲染方法,其特征在于,利用所述目标数字人视频渲染模型中的目标分层纹理渲染器分别按照各第二几何形状对所述前景图层进行3d到2d的几何映射,包括:
8.一种数字人视频渲染装置,其特征在于,包括:
9.一种数字人视频渲染设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数字人视频渲染方法的步骤。