一种虚拟角色的表情与语音同步方法及系统与流程

allin2026-02-13 34

本发明涉及图像处理，特别涉及一种虚拟角色的表情与语音同步方法及系统。

背景技术：

1、在虚拟角色生成技术中，表情和语音的同步处理是虚拟人物实现自然交互体验的关键。现有技术中，语音与表情的同步处理方法多为线性匹配，难以达到自然逼真的效果。此外，设备的处理能力有限，也对同步效率提出了挑战。存在同步效率低、同步延迟大、设备负载高的技术问题。

技术实现思路

1、本发明提供一种虚拟角色的表情与语音同步方法及系统，以解决现有技术中同步效率低、同步延迟大、设备负载高的技术问题，实现提高同步效率、降低同步延迟、优化同步表现的技术效果。

2、第一方面，本发明提供了一种虚拟角色的表情与语音同步方法，其中，所述方法包括：

3、激活双通道，所述双通道包括语音信号处理通道和表情生成通道，对所述双通道进行时间戳校准。读取当前处理设备的设备负载，根据所述设备负载配置预加载窗口，调用所述语音信号处理通道读取预加载窗口内的音频信号，对所述音频信号进行信号解析，建立带有时间标识的语音信号特征。将所述语音信号特征同步至所述表情生成通道，利用表情生成通道建立与语音信号特征映射的响应表情，并预生成表情关键帧。通过所述表情生成通道接收实时语音信号，并基于表情关键帧进行分层表情拟合，建立分层表情拟合结果。执行虚拟角色的输出数据流评价，建立输出数据流评价结果，通过所述输出数据流评价结果配置平滑帧密度，以平滑帧密度进行分层表情拟合结果的平滑拟合。通过所述双通道进行同时间节点下的实时语音信号和平滑拟合结果输出。

4、第二方面，本发明还提供了一种虚拟角色的表情与语音同步系统，其中，所述系统包括：

5、时间戳校准模块，所述时间戳校准模块用于激活双通道，所述双通道包括语音信号处理通道和表情生成通道，对所述双通道进行时间戳校准。

6、信号解析模块，所述信号解析模块用于读取当前处理设备的设备负载，根据所述设备负载配置预加载窗口，调用所述语音信号处理通道读取预加载窗口内的音频信号，对所述音频信号进行信号解析，建立带有时间标识的语音信号特征。

7、表情预生成模块，所述表情预生成模块用于将所述语音信号特征同步至所述表情生成通道，利用表情生成通道建立与语音信号特征映射的响应表情，并预生成表情关键帧。

8、分层表情拟合模块，所述分层表情拟合模块用于通过所述表情生成通道接收实时语音信号，并基于表情关键帧进行分层表情拟合，建立分层表情拟合结果。

9、平滑拟合模块，所述平滑拟合模块用于执行拟角色的输出数据流评价，建立输出数据流评价结果，通过所述输出数据流评价结果配置平滑帧密度，以平滑帧密度进行分层表情拟合结果的平滑拟合。

10、同步输出模块，所述同步输出模块用于通过所述双通道进行同时间节点下的实时语音信号和平滑拟合结果输出。

11、本发明公开了一种虚拟角色的表情与语音同步方法及系统，包括：激活包括语音信号处理通道和表情生成通道的双通道，并对两者进行时间戳校准；读取当前处理设备的设备负载，根据设备负载配置预加载窗口，调用语音信号处理通道，读取预加载窗口内的音频信号，并对其进行信号解析，生成带有时间标识的语音信号特征；将语音信号特征同步至表情生成通道，通过该通道建立与语音信号特征相映射的响应表情，并预生成表情关键帧；在表情生成通道内，接收实时语音信号，并利用表情关键帧进行分层表情拟合，生成分层表情拟合结果；执行虚拟角色的输出数据流评价，生成输出数据流评价结果，并根据该评价结果配置平滑帧密度，对分层表情拟合结果进行平滑拟合；通过双通道在同一时间节点下输出实时语音信号和平滑拟合的表情结果。本发明公开的一种虚拟角色的表情与语音同步方法及系统解决了同步效率低、同步延迟大、设备负载高的技术问题，实现了提高同步效率、降低同步延迟、优化同步表现的技术效果。

技术特征：

1.一种虚拟角色的表情与语音同步方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种虚拟角色的表情与语音同步方法，其特征在于，所述建立带有时间标识的语音信号特征，还包括：

3.如权利要求2所述的一种虚拟角色的表情与语音同步方法，其特征在于，所述分别通过语音特征识别网络的基础语音特征提取层和高级特征提取层进行特征提取，建立特征提取结果，还包括：

4.如权利要求2所述的一种虚拟角色的表情与语音同步方法，其特征在于，所述调用添加的时间戳，对所述特征提取结果进行时序变化分析，以时序变化分析结果构建语音信号特征，还包括：

5.如权利要求4所述的一种虚拟角色的表情与语音同步方法，其特征在于，所述方法还包括：

6.如权利要求1所述的一种虚拟角色的表情与语音同步方法，其特征在于，所述方法还包括：

7.如权利要求1所述的一种虚拟角色的表情与语音同步方法，其特征在于，所述方法还包括：

8.一种虚拟角色的表情与语音同步系统，其特征在于，所述系统用于执行权利要求1-7任意一项所述的一种虚拟角色的表情与语音同步方法，所述系统包括：

技术总结
本发明公开了一种虚拟角色的表情与语音同步方法及系统，涉及图像处理技术领域，所述方法包括：激活包括语音信号处理通道和表情生成通道的双通道进行时间戳校准；读取当前设备负载配置预加载窗口，调用语音信号处理通道读取窗口内的音频信号，解析信号并建立带时间标识的语音信号特征，同步至表情生成通道。建立与语音信号特征映射的响应表情，并预生成表情关键帧；接收实时语音信号，基于表情关键帧进行分层表情拟合；评价虚拟角色的输出数据流，建立评价结果并配置平滑帧密度，进行分层表情拟合结果的平滑拟合；通过双通道输出同时间节点下的实时语音信号和平滑拟合结果。进而达成提高同步效率、降低同步延迟、优化同步表现的技术效果。

技术研发人员：董志刚
受保护的技术使用者：北京妙音数科股份有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-26501.html

专利

最新回复(0)