一种基于文本表述驱动的说话人生成方法

allin2026-06-10 28

本发明涉及语音合成领域，尤其涉及一种基于文本表述驱动的说话人生成方法。

背景技术：

1、对于多说话人语音合成技术，当想合成特定人音色的语音时，往往需要提供给系统这个人的一段参考语音，用来提取语音中这个人的音色信息。基于这个设定，限定了所能合成的人的音色只能是能够找到参考语音的人对应的音色。另外，在一些游戏场景，当需要给一些游戏角色赋予声音的时候，如果使用他人的音色，可能带来一些法律上的问题。因此，如何能在没有参考语音的情况下，表征一个说话人的音色，或者生成所想要的，但不存在的说话人的音色，合成想要的音色的语音，是需要研究的。

2、因此，本领域的技术人员致力于开发一种基于文本表述驱动的说话人生成方法。

技术实现思路

1、有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何在没有参考语音的情况下表征一个说话人的音色，或者生成想要但不存在说话人的音色。

2、为实现上述目的，本发明提供了一种基于文本表述驱动的说话人生成方法，其特征在于，所述方法包括以下步骤：

3、s101：将文本表述输入到描述编码器，所述文本表述设置为描述说话人的音色特点；

4、s103：所述描述编码器采用区分性方法和/或生成式方法，将所述文本表述编码为音色特征向量，并将所述文本表述和所述说话人的音色特征映射到同一个空间；

5、s105：将所述音色特征向量和文本内容输入到多说话人tts系统，所述多说话人tts系统生成对应音色的语音；

6、s107：所述多说话人tts系统生成的所述语音的音色与所述音色特征向量中编码的音色一致，所述语音的内容与输入的所述文本内容一致。

7、进一步地，所述区分性方法包括语言模型roberta、快速自适应模块lora和映射层，所述语言模型roberta为预训练的语言模型，能够理解文本的语义，所述快速自适应模块lora使所述语言模型roberta快速地自适应，所述映射层包括多个线性层，用于将所述语言模型roberta的输出映射到和说话人表征同样的维度。

8、进一步地，所述语言模型roberta在大量文本数据上进行预训练，并在训练的过程中固定所述语言模型roberta的权重参数。

9、进一步地，所述语言模型roberta在预训练结束后加入所述快速自适应模块lora，使所述语言模型roberta适配所述多说话人tts系统。

10、进一步地，所述快速自适应模块lora设置为轻量级的低质适应模块。

11、进一步地，所述区分性方法包括如下步骤：

12、s1031：接收所述文本描述，并从所述文本描述中拼接得到cls令牌；

13、s1032：将所述文本表述和所述cls令牌输入到预训练好的所述语言模型roberta中，所述语言模型roberta输出所述cls令牌对应位置的输出；

14、s1033：所述快速自适应模块lora接收所述cls令牌对应位置的输出，并将所述cls令牌对应位置的输出映射到对应的所述音色特征向量。

15、进一步地，所述生成式方法使用流匹配生成式模型，根据所述文本表述，生成一个关于所述音色特征向量的分布，所述分布由高斯分布转换得到。

16、进一步地，所述流匹配生成式模型使用流匹配算法，通过对一个常微分方程积分的方式将所述高斯分布从时间t＝0积分到时间t＝1得到目标分布。

17、进一步地，所述常微分方程为：

18、

19、其中，φt(x)为常微分方程在时间t积分时x变量对应的分布，x为随时间变化的变量，ocls为cls令牌位置的输出，为音色特征向量，θ为神经网络的参数，vt为分布φt(x)对时间的导数，φ0(x)为初始的高斯分布，x0为常微分方程在时间点为0时的值，n(0,i)为一个各个维度方差都为1且均值为0的高斯分布。

20、进一步地，所述区分性方法和所述生成式方法可以级联结合使用，所述区分性方法的输出可以作为所述生成式方法的输入。

21、在本发明的较佳实施方式中，和现有技术相比，本发明具有如下有益效果：

22、1、本发明提出的通过文本来控制说话人的生成，同时结合了生成式方法和区分性方法，使得生成的表征与文本描述更加一致，生成的结果更具有多样性，两种方法具有互补性，进一步提升了性能；

23、2、本发明可以使用任意文本描述，生成对应音色说话人的表征，这个表征可以用来驱动多说话人系统生成对应音色的语音。

24、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

技术特征：

1.一种基于文本表述驱动的说话人生成方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述区分性方法包括语言模型roberta、快速自适应模块lora和映射层，所述语言模型roberta为预训练的语言模型，能够理解文本的语义，所述快速自适应模块lora使所述语言模型roberta快速地自适应，所述映射层包括多个线性层，用于将所述语言模型roberta的输出映射到和说话人表征同样的维度。

3.如权利要求2所述的方法，其特征在于，所述语言模型roberta在大量文本数据上进行预训练，并在训练的过程中固定所述语言模型roberta的权重参数。

4.如权利要求3所述的方法，其特征在于，所述语言模型roberta在预训练结束后加入所述快速自适应模块lora，使所述语言模型roberta适配所述多说话人tts系统。

5.如权利要求4所述的方法，其特征在于，所述快速自适应模块lora设置为轻量级的低质适应模块。

6.如权利要求5所述的方法，其特征在于，所述区分性方法包括如下步骤：

7.如权利要求6所述的方法，其特征在于，所述生成式方法使用流匹配生成式模型，根据所述文本表述，生成一个关于所述音色特征向量的分布，所述分布由高斯分布转换得到。

8.如权利要求7所述的方法，其特征在于，所述流匹配生成式模型使用流匹配算法，通过对一个常微分方程积分的方式将所述高斯分布从时间t＝0积分到时间t＝1得到目标分布。

9.如权利要求8所述的方法，其特征在于，所述常微分方程为：

10.如权利要求9所述的方法，其特征在于，所述区分性方法和所述生成式方法可以级联结合使用，所述区分性方法的输出可以作为所述生成式方法的输入。

技术总结
本发明公开了一种基于文本表述驱动的说话人生成方法，涉及语音合成领域，包括如下步骤：将文本表述输入到描述编码器，上述文本表述设置为描述说话人的音色特点；描述编码器采用区分性方法和/或生成式方法，将文本表述编码为音色特征向量，并将文本表述和说话人的音色特征映射到同一个空间；将音色特征向量和文本内容输入到多说话人TTS系统，多说话人TTS系统生成对应音色的语音；多说话人TTS系统生成的语音的音色与音色特征向量中编码的音色一致，语音的内容与输入的文本内容一致。本发明可以使用任意文本描述，生成对应音色说话人的表征，这个表征可以用来驱动多说话人系统生成对应音色的语音，能够在保持文本描述和生成质量两个方面达到权衡。

技术研发人员：钱彦旻,陈正阳
受保护的技术使用者：上海交通大学
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-28245.html

专利

最新回复(0)