多意图语音交互方法、存储介质及电子设备与流程

allin2025-05-25 185

本申请涉及人机语音交互，尤其涉及一种基于大语言模型的语音交互方法、存储介质及电子设备。

背景技术：

1、随着智能交互技术的大力推广，语音交互技术在各类终端设备中得到了越来越多的应用。大语言模型(large language model,llm)作为新兴技术与新型生产力，从pc端与移动设备端接入较多，应用于包括文本翻译、内容创作、问答搜索、虚拟助理和客户支持，以及办公、科研提效等场景。

2、随着人工智能技术的不断发展，大语言模型已能够较佳地与用户之间进行多意图语音交互，然而多个意图提示音之间的音频间隔过大，使得生成式播报间隔不流畅，导致用户听感生硬，降低了系统的多意图语音交互体验。

3、针对上述问题，目前业界暂未提出较佳的解决方案。

技术实现思路

1、本申请提供一种多意图语音交互方法、存储介质及电子设备，用以至少解决目前相关技术中多意图语音播报间隔不流畅而导致听感生硬的问题。

2、第一方面，本申请实施例提供一种多意图语音交互方法，包括：获取待交互的人机对话结果，并解析所述人机对话结果所对应对话文本语段、提示音tts链接和意图分句描述信息；所述对话文本语段包含多个具有相应对话意图的意图分句，且所述意图分句描述信息用于定义各个所述意图分句的界限信息；根据所述提示音tts链接、所述意图分句描述信息和所述对话文本语段，生成对应的音频播放请求队列；所述音频播放请求队列中的每一音频播放请求分别用于指示相应的意图提示音；基于所述音频播放请求队列中的各个音频播放请求预置播放器组中相应播放器的音频资源播放参数；根据所述音频播放请求队列，顺序调用经预置的播放器响应执行相应的音频播放请求。

3、第二方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例的多意图语音交互方法的步骤。

4、第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请任一实施例的多意图语音交互方法的步骤。

5、第四方面，本申请实施例提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任一实施例的多意图语音交互方法的步骤。

6、本申请实施例的有益效果在于：

7、通过解析人机对话结果并生成对应的音频播放请求队列，确保了意图分句与相应的提示音之间的衔接更加紧密。通过预置播放器组的设计使得音频资源播放参数可以提前设置，大幅减少了播放请求之间的延迟，保证了意图提示音的连续性和一致性，进而顺序调用预置的播放器响应音频播放请求，实现无缝衔接的音频播放，有效提升了多意图人机语音交互过程的流畅度。

技术特征：

1.一种多意图语音交互方法，包括：

2.根据权利要求1所述的方法，其中，所述解析所述人机对话结果所对应对话文本语段、提示音tts链接和意图分句描述信息，包括：

3.根据权利要求1所述的方法，其中，所述根据所述提示音tts链接、所述意图分句描述信息和所述对话文本语段，生成对应的音频播放请求队列，包括：

4.根据权利要求1所述的方法，其中，所述基于所述音频播放请求队列中的各个音频播放请求预置播放器组中相应播放器的音频资源播放参数，包括：

5.根据权利要求4所述的方法，其中，所述根据所述音频播放请求队列，顺序调用经预置的播放器响应执行相应的音频播放请求，包括：

6.根据权利要求5所述的方法，其中，在生成第一播放器结束事件之前，所述方法还包括：

7.根据权利要求5所述的方法，其中，所述基于所述音频播放请求队列中的各个音频播放请求预置播放器组中相应播放器的音频资源播放参数，包括：

8.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其中，该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

技术总结
本申请提供一种多意图语音交互方法、存储介质及电子设备，涉及人机语音交互技术领域，该方法包括：获取待交互的人机对话结果，并解析人机对话结果所对应对话文本语段、提示音TTS链接和意图分句描述信息；根据提示音TTS链接、意图分句描述信息和对话文本语段，生成对应的音频播放请求队列；基于音频播放请求队列中的各个音频播放请求预置播放器组中相应播放器的音频资源播放参数；根据音频播放请求队列，顺序调用经预置的播放器响应执行相应的音频播放请求。由此，保证了意图提示音的连续性和一致性，实现无缝衔接的音频播放，有效提升了多意图人机语音交互过程的流畅度。

技术研发人员：张恒,云先甫,杨才君
受保护的技术使用者：思必驰科技股份有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-21449.html

专利

最新回复(0)