一种视频生成方法、设备、存储介质及计算机程序产品与流程

allin2026-04-05 59

本发明涉及生成式人工智能，特别是涉及一种视频生成方法、设备、存储介质及计算机程序产品。

背景技术：

1、生成式人工智能用人工智能算法生成具有一定创意和质量的内容，通过训练模型和大量数据的学习，可以根据输入的条件或指导，生成与之相关的内容。例如，通过输入关键词、描述或样本，可以生成与之相匹配的文章、图像、音频等。视频生成是生成式人工智能的一个重要分支，提供了一种创新的视频内容创建方式，为创意内容制作、电影、动画、游戏和广告行业提供了快速原型制作和概念验证的新方法。

2、目前基于文本的视频生成方案与基于文本的图像生成方案相似，需要在基于文本的图像生成模型的基础上设计时序自注意力模块。但时序自注意力模块需要大量的视频-文本数据集进行训练，相较于图像-文本数据集带来了更加庞大的算力消耗。

3、如何降低基于文本的视频生成方案的算力消耗，是本领域技术人员需要解决的技术问题。

技术实现思路

1、本发明的目的是提供一种视频生成方法、设备、存储介质及计算机程序产品，用于降低基于文本的视频生成方案的算力消耗。

2、为解决上述技术问题，本发明提供一种视频生成方法，包括：

3、获取初始视频帧生成模型、视频帧序列以及所述视频帧序列对应的视频内容描述文本；一个所述视频帧序列包括相邻的两个视频帧；

4、以所述视频帧序列中的在前视频帧和所述视频内容描述文本为输入，以在后视频帧生成结果为输出，以所述视频帧序列中的在后视频帧为真值，对所述初始视频帧生成模型进行损失优化训练，得到视频帧生成模型；

5、接收与待生成的目标视频对应的用户需求文本；

6、根据所述用户需求文本确定所述目标视频所需包括的实体、所述目标视频中的目标视频帧的数量以及所述目标视频的动态内容需求文本；

7、根据所述实体生成初始图像；

8、利用所述视频帧生成模型执行与所述目标视频帧的数量对应次数的推理计算，得到所述目标视频的各所述目标视频帧；在每次推理计算中，利用所述视频帧生成模型根据所述初始图像、待生成的所述目标视频帧在所述目标视频中的位置以及所述动态内容需求文本生成所述目标视频帧；

9、输出所述目标视频。

10、一方面，所述视频帧生成模型包括语义编码器、运动补偿模型、特征映射模块、向量拼接模块和基于文本的图像到图像模型；

11、其中，所述语义编码器用于将所述动态内容需求文本进行编码得到的视频动态内容语义向量，将所述目标视频帧在所述目标视频中的序号进行编码得到运动控制语义向量，将所述视频动态内容语义向量和所述运动控制语义向量进行拼接得到运动向量；

12、所述运动补偿模型用于根据所述运动向量和所述初始图像的初始图像隐变量得到所述目标视频帧的运动补偿隐变量；

13、所述向量拼接模块用于将所述运动补偿隐变量和所述初始图像隐变量拼接得到状态向量；

14、所述特征映射模块用于根据所述运动向量得到经过特征映射的运动向量；

15、所述基于文本的图像到图像模型用于根据所述状态向量、所述经过特征映射的运动向量和随机高斯噪声生成所述目标视频帧。

16、另一方面，所述基于文本的图像到图像模型为预训练模型；

17、对所述初始视频帧生成模型进行损失优化训练，包括：

18、对所述运动补偿模型和所述特征映射模块进行损失优化训练。

19、另一方面，以所述视频帧序列中的在前视频帧和所述视频内容描述文本为输入，以在后视频帧生成结果为输出，以所述视频帧序列中的在后视频帧为真值，对所述初始视频帧生成模型进行损失优化训练，通过下式表示：

20、；

21、其中，；

22、；

23、；

24、；

25、其中，表示预测损失值，表示在所述视频帧序列所在的视频符合分布、添加噪声分布为高斯分布且时间步为的情形下，表示从高斯噪声中随机采样的噪声，表示所述基于文本的图像到图像模型，表示基于、、、、预测的噪声，表示对、、进行向量拼接处理，表示最大时间步，表示随机采样的时间步，表示预测所述在后视频帧的运动补偿隐变量，表示所述在前视频帧的图像隐变量，为带噪图像隐变量，表示所述运动向量，表示利用所述特征映射模块对所述运动向量进行特征映射处理，表示所述在前视频帧，表示对所述在前视频帧进行图像编码，表示所述在后视频帧，表示根据采样得到的噪声对所述在后视频帧添加噪声，表示所述视频内容描述文本，表示所述在后视频帧相较于所述在前视频帧的运动偏移参数，表示文本编码器，表示利用多层感知机对所述运动向量进行处理，表示运动网络计算，表示所述运动补偿模型的计算过程。

26、另一方面，获取所述视频帧序列以及与所述视频帧序列对应的所述视频内容描述文本，包括：

27、获取视频数据集；

28、对视频数据进行片段切分，得到视频片段；

29、利用视频理解模型生成所述视频片段的视频片段描述文本；

30、自所述视频片段中采样得到所述视频帧序列，并以所述视频片段对应的所述视频片段描述文本为所述视频帧序列的所述视频内容描述文本。

31、另一方面，还包括：

32、计算各所述视频帧序列的所述在后视频帧相较于所述在前视频帧的运动偏移参数；

33、将所述运动偏移参数满足预设静止条件的所述视频帧序列删除。

34、另一方面，所述利用视频理解模型生成所述视频片段的视频片段描述文本，包括：

35、利用密集视频字幕生成模型生成所述视频片段的初始视频片段描述文本；

36、利用预训练语言模型根据所述视频片段对所述初始视频片段描述文本进行扩写，得到所述视频片段描述文本。

37、另一方面，所述用户需求文本包括所述目标视频所需的物体；

38、根据所述用户需求文本确定所述目标视频的所需包括的所述实体，包括：

39、利用预训练语言模型根据所述物体的名称进行扩写，得到包括所述实体的图像描述文本；

40、所述根据所述实体生成初始图像，包括：

41、利用文生图模型根据所述图像描述文本生成所述初始图像；

42、其中，除所述物体外，所述实体的类型还包括关系、属性、行为中的至少一种。

43、另一方面，所述用户需求文本包括所述目标视频所需的物体；

44、根据所述用户需求文本确定所述目标视频的所述动态内容需求文本，包括：

45、采用预训练语言模型根据所述物体的名称进行扩写，得到所述动态内容需求文本。

46、另一方面，所述目标视频为立体视频；

47、在每次推理计算中，利用所述视频帧生成模型根据所述初始图像、待生成的所述目标视频帧在所述目标视频中的位置以及所述动态内容需求文本生成所述目标视频帧，包括：

48、利用所述视频帧生成模型根据所述初始图像、待生成的所述目标视频帧在所述目标视频中的位置以及所述动态内容需求文本自随机高斯噪声起进行一阶段去噪处理后，得到一阶段隐变量；

49、利用所述视频帧生成模型对所述一阶段隐变量进行完全去噪处理后，得到平面视频帧；

50、对所述平面视频帧进行深度预测，得到对应的视差图；

51、根据所述视差图对所述一阶段隐变量进行立体隐变量偏移，得到左视图隐变量和右视图隐变量；

52、分别对所述左视图隐变量和所述右视图隐变量进行完全去噪处理，得到对应的左视频帧和右视频帧；

53、以所述左视频帧和所述右视频帧为所述目标视频帧。

54、另一方面，对所述平面视频帧进行深度预测，得到对应的视差图，通过下式表示：

55、；

56、其中，表示坐标的像素点的视差，表示焦距，表示双目基线距离，表示坐标的像素点的深度。

57、另一方面，根据所述视差图对所述一阶段隐变量进行立体隐变量偏移，得到左视图隐变量和右视图隐变量，通过下式表示：

58、；

59、；

60、其中，表示所述左视图隐变量，表示所述一阶段隐变量，表示所述右视图隐变量，表示对所述左视图隐变量中的像素点的横坐标进行偏移处理，表示用于控制视差偏移大小的控制向量，表示坐标的像素点的视差，表示经过一阶段去噪处理后的剩余去噪次数，，表示总去噪次数。

61、另一方面，分别对所述左视图隐变量和所述右视图隐变量进行完全去噪处理，得到对应的左视频帧和右视频帧，包括：

62、分别对所述左视图隐变量和所述右视图隐变量进行次去噪处理，在每次去噪处理中，记录像素偏移位置，对所述左视图隐变量进行一步去噪处理得到更新后的所述左视图隐变量，并将更新后的所述左视图隐变量对应像素偏移位置的值拷贝至所述右视图隐变量后再对所述右视图隐变量进行一步去噪处理得到更新后的所述右视图隐变量；

63、其中，表示经过一阶段去噪处理后的剩余去噪次数，，表示总去噪次数。

64、为解决上述技术问题，本发明还提供一种视频生成设备，包括：

65、存储器，用于存储计算机程序；

66、处理器，用于执行所述计算机程序，所述计算机程序被所述处理器执行时实现如权利上述任意一项所述视频生成方法的步骤。

67、为解决上述技术问题，本发明还提供一种非易失性存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述视频生成方法的步骤。

68、为解决上述技术问题，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述视频生成方法的步骤。

69、本发明所提供的视频生成方法，有益效果在于通过包括相邻两个视频帧的视频帧序列中的在前视频帧和视频帧序列对应的视频内容描述文本为输入，以在后视频帧生成结果，以视频帧序列中的在后视频帧为真值，训练得到视频帧生成模型，相较于传统训练时序自注意力模块的视频生成方案所需的数据集由几十帧乃至更多的视频文本数据集变为只需两帧的视频帧序列及其描述文本，有效降低了训练过程的算力消耗，显著降低了模型训练成本；在执行视频生成任务时，根据用户需求文本提取实体生成初始图像，再利用视频帧生成模型执行与目标视频所包括目标视频帧的数量对应次数的推理计算，在每次推理计算中，都利用视频帧生成模型根据初始图像、待生成的目标视频帧在目标视频中的位置以及根据用户需求文本得到的动态内容需求文本生成目标视频帧，由此得到并输出目标视频，降低了基于文本的视频生成方案的算力消耗。

70、本发明还提供一种视频生成设备、存储介质及计算机程序产品，具有上述有益效果，在此不再赘述。

技术特征：

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的视频生成方法，其特征在于，所述视频帧生成模型包括语义编码器、运动补偿模型、特征映射模块、向量拼接模块和基于文本的图像到图像模型；

3.根据权利要求2所述的视频生成方法，其特征在于，所述基于文本的图像到图像模型为预训练模型；

4.根据权利要求2所述的视频生成方法，其特征在于，以所述视频帧序列中的在前视频帧和所述视频内容描述文本为输入，以在后视频帧生成结果为输出，以所述视频帧序列中的在后视频帧为真值，对所述初始视频帧生成模型进行损失优化训练，通过下式表示：

5.根据权利要求1所述的视频生成方法，其特征在于，获取所述视频帧序列以及与所述视频帧序列对应的所述视频内容描述文本，包括：

6.根据权利要求5所述的视频生成方法，其特征在于，还包括：

7.根据权利要求5所述的视频生成方法，其特征在于，所述利用视频理解模型生成所述视频片段的视频片段描述文本，包括：

8.根据权利要求1所述的视频生成方法，其特征在于，所述用户需求文本包括所述目标视频所需的物体；

9.根据权利要求1所述的视频生成方法，其特征在于，所述用户需求文本包括所述目标视频所需的物体；

10.根据权利要求1所述的视频生成方法，其特征在于，所述目标视频为立体视频；

11.根据权利要求10所述的视频生成方法，其特征在于，对所述平面视频帧进行深度预测，得到对应的视差图，通过下式表示：

12.根据权利要求10所述的视频生成方法，其特征在于，根据所述视差图对所述一阶段隐变量进行立体隐变量偏移，得到左视图隐变量和右视图隐变量，通过下式表示：

13.根据权利要求10所述的视频生成方法，其特征在于，分别对所述左视图隐变量和所述右视图隐变量进行完全去噪处理，得到对应的左视频帧和右视频帧，包括：

14.一种视频生成设备，其特征在于，包括：

15.一种非易失性存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13任意一项所述视频生成方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13任意一项所述视频生成方法的步骤。

技术总结
本发明涉及生成式人工智能技术领域，具体公开了一种视频生成方法、设备、存储介质及计算机程序产品，通过包括相邻两个视频帧的视频帧序列训练得视频帧生成模型，相较于传统训练时序自注意力模块的视频生成方案有效降低了训练过程的算力消耗；在执行视频生成任务时，根据用户需求文本提取实体生成初始图像，再利用视频帧生成模型执行与目标视频所包括目标视频帧的数量对应次数的推理计算，在每次推理计算中，都利用视频帧生成模型根据初始图像、待生成的目标视频帧在目标视频中的位置以及根据用户需求文本得到的动态内容需求文本生成目标视频帧，由此得到并输出目标视频，降低了基于文本的视频生成方案的算力消耗。

技术研发人员：赵坤,公维锋,刘伟,李昂
受保护的技术使用者：浪潮计算机科技有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-27451.html

专利

最新回复(0)