一种语音合成方法、装置、设备及存储介质与流程

allin2024-10-01  67



1.本技术涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、设备及存储介质。


背景技术:

2.语音合成是一种将文字转换成语音的智能语音技术,它是实现人机交互的关键技术之一。合成语音的音色是影响用户对于语音合成产品使用感受的因素之一,符合用户喜好的合成语音音色能够带来好的产品体验,提升产品价值。
3.然而,目前的语音合成方案只能合成出单一固定音色的语音数据,可以理解的是,不同用户对于合成语音音色的喜好通常不同,单一固定音色不可能受所有用户的喜爱,可见,目前的语音合成方案并不能满足用户对于合成语音音色的个性化需求。


技术实现要素:

4.有鉴于此,本技术提供了一种语音合成方法、装置、设备及存储介质,用以解决现有的语音合成方案只能合成出单一固定音色的语音数据,无法满足用户对于合成语音音色的个性化需求的问题,其技术方案如下:
5.一种语音合成方法,包括:
6.获取用于进行语音合成的文本特征以及指定说话人的语音数据;
7.对所述指定说话人的语音数据提取说话人特征,作为原始音色特征向量;
8.基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量;
9.基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
10.可选的,所述基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量,包括:
11.根据所述设定音色维度下的音色调整参数和所述设定音色维度下的音色拉伸向量,确定所述设定音色维度下的音色特征调整向量;
12.根据所述原始音色特征向量和所述设定音色维度下的音色特征调整向量,确定用户定制音色的音色特征向量。
13.可选的,所述基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据,包括:
14.根据所述文本特征和所述说话人特征,获取帧级的特征向量序列;
15.根据所述帧级的特征向量序列和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
16.可选的,所述根据所述文本特征和所述说话人特征,获取帧级的特征向量序列,包
括:
17.根据所述文本特征,获取音素级别的上下文特征向量;
18.以所述音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;
19.以所述音素的发音时长帧数为依据,将所述音素级别的上下文特征向量展开成帧级的特征向量序列。
20.可选的,所述设定音色维度包括一个或多个音色维度;
21.确定所述设定音色维度下的音色拉伸向量,包括:
22.获取语音数据总集,所述语音数据总集中包括多个说话人的语音数据,每个说话人的语音数据标注有所述设定音色维度下的音色属性的音色属性值;
23.将所述设定音色维度包含的每个音色维度作为目标音色维度,根据所述语音数据总集中的语音数据标注的音色属性值,从所述语音数据总集中获取与所述目标音色维度相关的语音数据;
24.根据与所述目标音色维度相关的语音数据,确定所述目标音色维度下的音色拉伸向量。
25.可选的,为一说话人的语音数据标注所述设定音色维度下的音色属性的音色属性值的过程包括:
26.获取多个标注人员分别根据该说话人的语音数据在所述设定音色维度下的音色属性上标注的音色属性值,以得到多个标注人员的标注结果;
27.根据所述多个标注人员的标注结果,确定该说话人的语音数据在所述设定音色维度下的音色属性的音色属性值,并为该说话人的语音数据标注确定出的音色属性值。
28.可选的,所述根据所述语音数据总集中的语音数据标注的音色属性值,从所述语音数据总集中获取与所述目标音色维度相关的语音数据,包括:
29.从所述语音数据总集中获取第一音色属性的属性值为第一目标属性值的语音数据,组成第一语音数据集,其中,所述第一音色属性为与所述目标音色维度相关的音色属性,所述第一目标属性值为与所述目标音色维度相关的属性值;
30.从所述语音数据总集中获取第二音色属性的属性值为第二目标属性值的语音数据,组成第二语音数据集,其中,所述第二音色属性为与所述第一音色属性相关的音色属性,所述第二目标属性值为与所述第一音色属性相关的属性值。
31.可选的,所述根据与所述目标音色维度相关的语音数据,确定所述目标音色维度下的音色拉伸向量,包括:
32.对所述第一语音数据集中每个说话人的语音数据提取说话人特征,并计算对所述第一语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为所述目标音色维度下的第一平均音色向量;
33.对所述第二语音数据集中每个说话人的语音数据提取说话人特征,并计算对所述第二语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为所述目标音色维度下的第二平均音色向量;
34.根据所述目标音色维度下的第一平均音色向量和所述目标音色维度下的第二平均音色向量,确定所述目标音色维度下的音色拉伸向量。
35.可选的,所述对所述指定说话人的语音数据提取说话人特征,包括:
36.利用预先构建的语音生成模块,对所述指定说话人的语音数据提取说话人特征;
37.所述基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据,包括:
38.基于所述语音生成模块、所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
39.可选的,所述语音生成模块为语音合成模型,所述语音合成模型采用多个说话人的多条训练语音数据和所述多条训练语音数据分别对应的训练文本训练得到;
40.所述基于所述语音生成模块、所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据,包括:
41.基于所述语音合成模型的文本编码模块,对所述文本特征进行编码,以得到音素级别的上下文特征向量;
42.基于所述语音合成模型的时长预测模块,以所述音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;
43.基于所述语音合成模型的长度调整模块,以所述音素的发音时长帧数为依据,将所述音素级别的上下文特征向量展开成帧级的特征向量序列;
44.基于所述语音合成模型的解码模块,以所述帧级的特征向量序列和所述用户定制音色的音色特征向量为依据,预测频谱特征;
45.根据所述频谱特征,合成用户定制音色的语音数据。
46.可选的,所述基于所述语音合成模型、所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据,包括:
47.基于所述语音合成模型的文本编码模块,对所述文本特征进行编码,以得到音素级别的上下文特征向量;
48.基于所述语音合成模型的时长预测模块,以所述音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;
49.基于所述语音合成模型的长度调整模块,以所述音素的发音时长帧数为依据,将所述音素级别的上下文特征向量展开成帧级的特征向量序列;
50.基于所述语音合成模型中的解码模块,以所述帧级的特征向量序列和所述用户定制音色的音色特征向量为依据,预测频谱特征;
51.根据所述频谱特征,合成用户定制音色的语音数据。
52.一种语音合成装置,包括:数据获取模块、说话人特征提取模块、音色特征向量确定模块和语音合成模块;
53.所述数据获取模块,用于获取用于进行语音合成的文本特征以及指定说话人的语音数据;
54.所述说话人特征提取模块,用于对所述指定说话人的语音数据提取说话人特征,作为原始音色特征向量;
55.所述音色特征向量确定模块,用于基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量;
56.所述语音合成模块,用于基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
57.一种语音合成设备,包括:存储器和处理器;
58.所述存储器,用于存储程序;
59.所述处理器,用于执行所述程序,实现上述任一项所述的语音合成方法的各个步骤。
60.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的语音合成方法的各个步骤。
61.本技术提供的语音合成方法、装置、设备及存储介质,首先获取用于进行语音合成的文本特征以及指定说话人的语音数据,然后对指定说话人的语音数据提取说话人特征,以得到原始音色特征向量,接着基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量,最后基于文本特征和用户定制音色的音色特征向量,合成用户定制音色的语音数据。经由本技术提供的语音合成方法能够合成出用户深入定制音色的语音数据,合成出的语音数据更加符合用户的喜好,可见,本技术提供的语音合成方法能够满足用户对于合成语音音色的个性化需求,另外,让用户深度参与合成语音音色的选择,使得语音合成更具趣味性和交互性,从而能够提升用户体验。
附图说明
62.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
63.图1为本技术实施例提供的语音合成方法的流程示意图;
64.图2为本技术实施例提供的基于语音合成模型实现语音合成的流程示意图;
65.图3为本技术实施例提供的语音合成模型的一结构示意图;
66.图4为本技术实施例提供的确定设定音色维度下的音色拉伸向量的流程示意图;
67.图5为本技术实施例提供的语音合成装置的结构示意图;
68.图6为本技术实施例提供的语音合成设备的结构示意图。
具体实施方式
69.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
70.由于目前的语音合成方案只能合成出单一固定音色的语音数据,因此,其不能满足用户对于合成语音音色的个性化需求,有鉴于此,申请人进行了研究,起初的思路是,在一个场景下为用户提供具有多个音色的音库,让用户按照个人喜好选择使用,然而在实际应用时,可提供的音色通常有限,这意味着用户对音色的选择范围有限,用户仍然只能被动
接受提供的音色。
71.针对上述思路的缺陷,申请人想到,若能让用户深入参与到合成语音音色的选择(即,让用户深入定制自己喜爱的合成语音音色),将大大提升用户体验,让用户深入参与到合成语音音色的选择,一方面能够合成出更加符合用户个人喜好的语音,另一方面能够提升语音合成产品的趣味性和交互性,沿着上述思路,申请人继续进行研究,通过不断研究,最终提供了一种语音合成方法,该语音合成方法可合成出用户定制音色的语音。
72.本技术提供的语音合成方法可应用于具有处理能力的电子设备,该电子设备可以为网络侧的服务器(服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心),也可以为用户侧使用的终端(终端可以但并不限定为pc、笔记本、智能手机、车载终端、智能家居设备、可穿戴设备等),网络侧的服务器或用户侧使用的终端可按本技术提供的语音合成方法合成出音色更加符合用户个人喜好的语音。本领域技术人员应能理解,上述列举的服务器、终端仅为举例,其它现有的或今后可能出现的服务器、终端如可适用于本技术,也应包含在本技术保护范围以内,并在此以引用方式包含于此。
73.接下来,通过下述实施例对本技术提供的语音合成方法进行介绍。
74.第一实施例
75.请参阅图1,示出了本技术实施例提供的语音合成方法的流程示意图,该方法可以包括:
76.步骤s101:获取用于进行语音合成的文本特征以及指定说话人的语音数据。
77.其中,用于进行语音合成的文本特征根据用于语音合成的文本获取,文本特征可以包括音素信息、声调信息、韵律分词信息等。需要说明的是,声调信息为音素层面的信息,韵律分词信息也是音素层面的信息,其通过将词层面的韵律分词信息处理到音素层面而得到,总的来说,本实施例中用于进行语音合成的文本特征包含的信息为音素级别的信息。
78.步骤s102:对指定说话人的语音数据提取说话人特征,作为原始音色特征向量。
79.本实施例将对指定说话人的语音数据提取的说话人特征作为原始音色特征向量,原始音色特征向量为指定说话人的原始音色的特征向量。
80.步骤s103:基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量。
81.其中,设定音色维度为用户可调整的音色维度,其可根据人对音色的感知维度设定,设定音色维度可以包括一个音色维度,也可以包括多个音色维度,具体的音色维度和音色维度的具体数量可根据具体的应用场景设定。示例性的,设定音色维度可以包括与性别无关的“鼻音感”维度、与性别有关的“女声甜美”维度和“男声浑厚”维度。
82.其中,设定音色维度下的音色拉伸向量为用于调整音色的基础向量,设定音色维度下的音色拉伸向量预先确定,即在实际进行语音合成之前确定,设定音色维度下的音色拉伸向量的确定方式将在后续实施例介绍。
83.其中,音色调整参数为用于调整音色的参数,其由用户决定,可选的,可展示音色调节界面,用户可基于音色调节界面改变音色调整参数,进而基于音色调整参数同时结合音色拉伸向量实现对音色的调整。
84.步骤s104:基于文本特征和用户定制音色的音色特征向量,合成用户定制音色的
语音数据。
85.可选的,基于文本特征和用户定制音色的音色特征向量,合成用户定制音色的语音数据的过程可以包括:根据文本特征和说话人特征,获取帧级的特征向量序列;根据帧级的特征向量序列和用户定制音色的音色特征向量,合成用户定制音色的语音数据。
86.其中,根据文本特征和说话人特征,获取帧级的特征向量序列的过程包括包括:根据文本特征,获取音素级别的上下文特征向量;以音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;以音素的发音时长帧数为依据,将音素级别的上下文特征向量展开成帧级的特征向量序列。
87.由于最终合成语音数据所基于的音色特征向量为用户定制音色的音色特征向量,因此基于文本特征和用户定制音色的音色特征向量能够合成出用户定制音色的语音数据,用户定制音色的语音数据为音色符合用户个人喜好的语音数据。
88.本技术实施例提供的语音合成方法,首先获取用于进行语音合成的文本特征以及指定说话人的语音数据,然后对指定说话人的语音数据提取说话人特征,以得到原始音色特征向量,接着基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量,最后基于文本特征和用户定制音色的音色特征向量,合成用户定制音色的语音数据。经由本技术实施例提供的语音合成方法能够合成出用户深入定制音色的语音数据,合成出的语音数据更加符合用户的喜好,可见,本技术实施例提供的语音合成方法能够满足用户对于合成语音音色的个性化需求,另外,让用户深度参与合成语音音色的选择,使得语音合成更具趣味性和交互性,从而能够提升用户体验。
89.第二实施例
90.本技术提供的语音合成方法可基于预先构建的语音生成模块实现,可选的,语音生成模块可以为语音合成模型,当然,本实施例并不限定于此,语音生成模块除了可以为模型,还可以为其它形式的模块,比如基于语音生成规则的模块,本实施例对语音生成模块的具体形式不做限定。
91.其中,语音合成模型采用训练语音数据和训练语音数据对应的训练文本训练得到,训练语音数据对应的训练文本即为训练语音数据的标注文本。优选的,为了能够合成不同说话人的语音数据,用于训练语音合成模型的训练语音数据采用多个(比如上千个)不同说话人的语音数据(比如,说话人a的语音数据、说话人b的语音数据、说话人c的语音数据、

),每个说话人的语音数据为多条(比如100条以上),优选的,每个说话人的每条语音数据的时长可在十秒左右。
92.需要说明的是,为了使得基于语音合成模型能够较好合成出用户从设定音色维度定制音色的语音数据,在收集训练语音数据时,需要考虑设定音色维度,示例性的,设定音色维度包括“女声甜美”、“男声浑厚”和“鼻音感”,则要收集男女比例均衡(比如收集600个男性说话人的语音数据,收集600个女性说话人的语音数据),且同时具有“鼻音感”、“女声甜美”和“男声浑厚”特点的说话人的语音数据,并保证具有“鼻音感”、“女声甜美”和“男声浑厚”特点的说话人在五十人以上,比如,收集的所有语音数据中需要包括60个具有“鼻音感”特点的说话人的语音数据,65个具有“女声甜美”特点的说话人的语音数据,60个具有“男声浑厚”特点的说话人的语音数据。
93.接下来以语音生成模块为语音合成模型为例,对基于语音合成模型实现语音合成的过程进行介绍。
94.请参阅图2,示出了基于语音合成模型实现语音合成的流程示意图,可以包括:
95.步骤s201:获取用于进行语音合成的文本特征以及指定说话人的语音数据。
96.其中,用于进行语音合成的文本特征根据用于语音合成的文本获取,用于进行语音合成的文本特征可以包括音素信息、声调信息、韵律分词信息等。
97.步骤s202:基于语音合成模型,对指定说话人的语音数据提取说话人特征,提取的说话人特征作为原始音色特征向量。
98.具体的,如图3所示,语音合成模型可以包括说话人编码模块301,可基于语音合成模型的说话人编码模块对指定说话人的语音数据提取说话人特征,将提取的说话人特征作为原始音色特征向量。
99.步骤s203:基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量。
100.具体的,基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量的过程可以包括:
101.步骤s2031、根据设定音色维度下的音色调整参数和音色拉伸向量,确定设定音色维度下的音色特征调整向量。
102.其中,设定音色维度下的音色特征调整向量为用于在设定音色维度对原始音色特征向量进行调整的向量。
103.具体的,根据设定音色维度下的音色调整参数和音色拉伸向量,确定设定音色维度下的音色特征调整向量的过程可以包括:将设定音色维度下的音色调整参数与音色拉伸向量相乘,相乘结果作为设定音色维度下的音色特征调整向量。需要说明的是,在设定音色维度包括多个音色维度的情况下,将同一维度下的音色调整参数与音色拉伸向量相乘,从而得到每个音色维度下的音色拉伸向量。
104.步骤s2032、根据原始音色特征向量和设定音色维度下的音色特征调整向量,确定用户定制音色的音色特征向量。
105.具体的,根据原始音色特征向量和设定音色维度下的音色特征调整向量,确定用户定制音色的音色特征向量的过程可以包括:将原始音色特征向量与设定音色维度下的音色特征调整向量求和,求和结果作为用户定制音色的音色特征向量。
106.示例性的,设定音色维度包括“女声甜美”、“男声浑厚”和“鼻音感”,其中,“女声甜美”这一音色维度下的音色调整参数为λ
甜美
,“男声浑厚”这一音色维度下的音色调整参数为λ
浑厚
,“鼻音感”这一音色维度下的音色调整参数为λ
鼻音
,“女声甜美”这一音色维度下的音色拉伸向量为d
甜美
,“男声浑厚”这一音色维度下的音色拉伸向量为d
浑厚
,“鼻音感”这一音色维度下的音色拉伸向量为d
鼻音
,则“女声甜美”这一音色维度下的音色特征调整向量为λ
甜美
×d甜美
,“男声浑厚”这一音色维度下的音色特征调整向量为λ
浑厚
×d浑厚
,“鼻音感”这一音色维度下的音色特征调整向量为λ
鼻音
×d鼻音
,用户定制音色的音色特征向量s
定制
为:
107.s
定制
=s
原始

甜美
×d甜美

浑厚
×d浑厚

鼻音
×d鼻音
ꢀꢀꢀꢀꢀ
(1)
108.其中,s
原始
表示原始音色特征向量,λ
甜美
、λ
浑厚
、λ
鼻音
为连续值,取值范围为[0,1]。需要说明的是,当λ
甜美
、λ
浑厚
、λ
鼻音
均为0时,合成语音的音色为指定说话人的原始音色,当λ
甜美
、λ
浑厚

λ
鼻音
中任一个为非0值时,合成语音的音色不再为指定说话人的原始音色,而是新的音色,用户可以调整λ
甜美
、λ
浑厚
、λ
鼻音
以生成不同音色,从容满足自己的个性化需求。
[0109]
步骤s204:基于语音合成模型、文本特征和用户定制音色的音色特征向量为依据,合成用户定制音色的语音数据。
[0110]
具体的,如图3所示,语音合成模型除了包括上述的说话人编码模块301外,还包括文本编码模块302、时长预测模块303、长度调整模块304和解码模块305,则基于语音合成模型、文本特征和用户定制音色的音色特征向量为依据,合成用户定制音色的语音数据的过程可以包括:
[0111]
步骤s2041、基于语音合成模型的文本编码模块302,对文本特征进行编码,以得到音素级别的上下文特征向量。
[0112]
具体的,将文本特征输入语音合成模型的文本编码模块302进行编码,文本编码模块302输出音素级别的上下文特征向量。
[0113]
步骤s2042、基于语音合成模型中的时长预测模块303,以音素级别的上下文特征向量和说话人特征为依据,预测音素的发音时长帧数。
[0114]
具体的,将文本编码模块302输出的音素级别的上下文特征向量和说话人编码模块301输出的说话人特征,输入语音合成模型中的时长预测模块303,语音合成模型中的时长预测部分303输出预测的每个音素的发音时长帧数。需要说明的是,为了保留指定说话人的时长语速韵律特征,输入时长预测模块的为直接对指定说话人的语音数据提取的说话人特征。
[0115]
步骤s2043、基于语音合成模型中的长度调整模块304,以音素的发音时长帧数为依据,将音素级别的上下文特征向量展开成帧级的特征向量序列。
[0116]
步骤s2044、基于语音合成模型中的解码模块305,以帧级的特征向量序列和用户定制音色的音色特征向量为依据,预测频谱特征。
[0117]
预测出的频谱特征即为待合成语音的频谱特征。
[0118]
步骤s2045、根据频谱特征,合成用户定制音色的语音数据。
[0119]
具体的,可将解码部分305输出的频谱特征输入声码器,从而得到用户定制音色的合成语音。
[0120]
接下来对采用训练语音和训练语音对应的训练文本对语音合成模型进行训练的过程进行介绍。
[0121]
采用训练语音数据和训练语音数据对应的训练文本训练语音合成模型的过程可以包括:
[0122]
步骤a1、获取训练语音数据和训练语音数据对应的训练文本,并根据训练文本获取文本特征,获取的文本特征作为训练文本特征。
[0123]
其中,训练文本特征包括训练文本的音素信息、声调信息、韵律分词信息等。
[0124]
步骤a2、基于语音合成模型对训练语音数据提取说话人特征,提取的说话人特征作为训练说话人特征。
[0125]
具体的,获取训练语音的频谱特征,将训练语音数据的频谱特征输入语音合成模型的说话人编码模块,说话人编码模块从训练语音数据的频谱特征中提取句子级别的说话人表征特征,即说话人特征。
[0126]
步骤a3、基于语音合成模型、训练文本特征和训练说话人特征,预测频谱特征,并根据预测的频谱特征合成语音数据。
[0127]
具体的,基于语音合成模型、训练文本特征和训练说话人特征,预测频谱特征的过程包括:
[0128]
步骤a31、基于语音合成模型的文本编码模块,对训练文本特征进行编码,以得到训练文本对应的音素级别的上下文特征向量。
[0129]
具体的,将训练文本特征输入语音合成模型的文本编码模块进行编码,文本编码模块输出训练文本对应的音素级别的上下文特征向量。
[0130]
步骤a32、基于语音合成模型中的长度调整模块,以音素的实际发音时长帧数为依据,将训练文本对应的音素级别的上下文特征向量展开成帧级的特征向量序列,以得到训练文本对应的帧级的特征向量序列。
[0131]
其中,音素的实际发音时长帧数指的是根据训练文本获得的每个音素的实际发音时长,音素的实际发音时长帧数可基于训练语音数据确定。
[0132]
步骤a33、基于语音合成模型中的解码部分,以训练文本对应的帧级的特征向量序列和训练说话人特征为依据,预测频谱特征,并根据预测的频谱特征合成语音数据。
[0133]
步骤a4、基于预测的频谱特征、实际的频谱特征、实际的音素信息以及预测的音素信息,确定语音合成模型的预测损失。
[0134]
其中,实际的频谱特征为训练语音数据的频谱特征,实际的音素信息为根据训练文本获得的音素信息,比如,根据训练文本获得的音素时长信息、音素状态时长等,预测的音素信息为根据合成的语音数据对应的文本获得的音素信息,比如,根据合成的语音数据对应的文本获得的音素时长信息、音素状态时长等。
[0135]
具体的,可基于下式确定语音合成模型的预测损失l:
[0136][0137]
其中,t为训练语音数据的总帧数,yi表示训练语音数据的第i帧的频谱特征,为合成的语音数据的第i帧的频谱特征,p为根据训练文本获得的音素的总数量,dj为表示根据训练文本获得的第j个音素的音素信息,比如,根据训练文本获得的第j个音素的音素时长信息,即第j个音素的实际音素时长信息,表示根据合成的语音数据对应的文本获得的第j个音素的音素信息,比如,根据合成的语音数据对应的文本获得的第j个音素的音素时长信息。
[0138]
步骤a5、根据语音合成模型的预测损失对语音合成模型进行参数更新。
[0139]
按上述步骤a1~步骤a5的方式对语音合成模型进行多次训练,直至满足训练结束条件。
[0140]
第三实施例
[0141]
上述第一实施例提到,为了能够合成用户定制音色的语音数据,需要基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,本实施例重点对确定设定音色维度下的音色拉伸向量的具体实现过程进行介绍。
[0142]
请参阅图4,示出了确定设定音色维度下的音色拉伸向量的流程示意图,可以包
括:
[0143]
步骤s401:获取语音数据总集。
[0144]
本实施例中的语音数据总集中包括对上述用于训练语音合成模型的语音数据进行音色属性值标注后的数据,即,语音数据总集中包括多个说话人的语音数据(比如,说话人a的语音数据、说话人b的语音数据、说话人c的语音数据

),每个说话人的语音数据标注有设定音色维度下的音色属性的音色属性值,示例性的,设定音色维度包括“女声甜美”、“男声浑厚”、“鼻音感”,设定音色维度下的音色属性包括“性别属性”、“甜美属性”、“浑厚属性”、“鼻音属性”,则语音数据总集中每个说话人的语音数据标注有“性别属性”的属性值、“甜美属性”的属性值、“浑厚属性”的属性值、鼻“鼻音属性”的属性值。
[0145]
在对多个说话人的语音数据进行音色属性标注时,可针对设定音色维度下的音色属性,对每个说话人的语音数据进行音色属性值的标注。为了能够获得鲁棒一致的音色属性值,本实施例优选为采用整合多人标注结果的方式,即,针对每个说话人的语音数据,首先获取多个标注人员对该说话人的语音数据在设定音色维度下的音色属性上标注的音色属性值,然后根据多个标注人员的标注结果确定该说话人的语音数据在设定音色维度下的音色属性上的最终音色属性值,最后为该说话人的语音数据标注确定出的最终音色属性值。
[0146]
接下来通过一具体实例对为一说话人的语音数据标注设定音色维度下的音色属性的音色属性值的实现过程进行说明:
[0147]
设定音色维度包括“女声甜美”、“男声浑厚”、“鼻音感”,设定音色维度下的音色属性包括“性别属性”、“甜美属性”、“浑厚属性”、“鼻音属性”,标注人员在对一说话人的语音数据进行音色属性值的标注时,对于“性别属性”,若声音为女声,则将“性别属性”的音色属性值标注为“女”,若声音为男声,则将“性别属性”的音色属性值标注为“男”,对于“甜美属性”,若为女声且声音甜美,则将“甜美属性”的音色属性值标注为“1”,否则,将“甜美属性”的音色属性值标注为“0”,对于“浑厚属性”,若为男声且声音浑厚,则将“浑厚属性”的音色属性值标注为“1”,否则,将“浑厚属性”的音色属性值标注为“0”,对于“鼻音属性”,若声音音色有鼻音,则将“鼻音属性”的属性值标注为“1”,否则将“鼻音属性”的属性值标注为“0”。
[0148]
针对一说话人a的语音数据,可获取6个标注人员(优选为3男3女)的标注结果,根据6个标注人员的标注结果确定最终的标注结果。可选的,可从说话人a的所有语音数据中抽取一条语音数据,每个标注人员根据该条语音数据进行标注。需要说明的是,上述标注人员的数量6仅为示例,标注人员的数量还可为其它,比如8、10等。
[0149]
具体的,对于“性别属性”,获取6个标注人员人对说话人a的语音数据在“性别属性”上标注的音色属性值,根据6个标注人员对说话人a的语音数据在“性别属性”上的标注结果确定说话人a的语音数据在“性别属性”上的最终标注结果,具体的,若6个标注人员对说话人a的语音数据在“性别属性”上的标注结果不一致,则将说话人a的语音数据在“性别属性”上的最终属性值标注为“invalid”,即l
gender
=invalid,若6个标注人员对说话人a的语音数据在“性别属性”上的标注结果一致,且均为“男”,则将说话人a的语音数据在“性别属性”上的最终属性值标注为“男”,即l
gender
=男,若6个标注人员对说话人a的语音数据在性别属性上的标注结果一致,且均为“女”,则将说话人a的语音数据在性别属性上的最终属性值标注为女,即l
gender
=女。
[0150]
对于“甜美属性”,获取6个标注人员对说话人a的语音数据在“甜美属性”上标注的音色属性值,根据6个标注人员对说话人a的语音数据在“甜美属性”上的标注结果确定说话人a的语音数据在“甜美属性”上的最终标注结果,具体的,若6个标注人员对说话人a的语音数据在“甜美属性”上的标注结果一致且均为“1”,则将说话人a的语音数据在“甜美属性”上的最终属性值标注为1,即l
甜美女声
=1,若6个标注人员对说话人a的语音数据在“甜美属性”上的标注结果一致且均为0,或者,6个标注人员对说话人a的语音数据在“甜美属性”上的标注结果不一致,则将说话人a的语音数据在“甜美属性”上的最终属性值标注为0,即l
甜美女声
=0。
[0151]
对于“浑厚属性”,获取6个标注人员对说话人a的语音数据在“浑厚属性”上标注的音色属性值,根据6个标注人员对说话人a的语音数据在“浑厚属性”上的标注结果确定说话人a的语音数据在“浑厚属性”上的最终标注结果,具体的,若6个标注人员对说话人a的语音数据在“浑厚属性”上的标注结果一致且均为“1”,则将说话人a的语音数据在“浑厚属性”上的最终音色属性值标注为“1”,即l
浑厚男声
=1,若6个标注人员对说话人a的语音数据在“浑厚属性”上的标注结果一致且均为“0”,或者,6个标注人员对说话人a的语音数据在“浑厚属性”上的标注结果不一致,则将说话人a的语音数据在“浑厚属性”上的最终音色属性值标注为“0”,即l
浑厚男声
=0。
[0152]
对于“鼻音属性”,获取6个标注人员对说话人a的语音数据在“鼻音属性”上标注的音色属性值,根据6个标注人员对说话人a的语音数据在“鼻音属性”上的标注结果确定说话人a的语音数据在“鼻音属性”上的最终标注结果,具体的,若6个标注人员对说话人a的语音数据在“鼻音属性”上的标注结果一致且均为“1”,则将说话人a的语音数据在“鼻音属性”上的最终音色属性值标注为“1”,即l
鼻音
=1,若6个标注人员对说话人a的语音数据在“鼻音属性”上的标注结果一致且均为“0”,或者,6个标注人员对说话人a的语音数据在“鼻音属性”上的标注结果不一致,则将说话人a的语音数据在“鼻音属性”上的最终音色属性值标注为“0”,即l
鼻音
=0。
[0153]
步骤s402:将设定音色维度包含的每个音色维度作为目标音色维度,根据语音数据总集中的语音数据标注的音色属性值,从语音数据总集中获取与目标音色维度相关的语音数据。
[0154]
具体的,根据语音数据总集中的语音数据标注的音色属性值,从语音数据总集中获取与目标音色维度相关的语音数据的实现过程可以包括:从语音数据总集中获取第一音色属性的属性值为第一目标属性值的语音数据,组成第一语音数据集;从语音数据总集中获取第二音色属性的属性值为第二目标属性值的语音数据,组成第二语音数据集;第一语音数据集中的语音数据和第二语音数据集中的语音数据作为与目标音色维度相关的语音数据。可选的,在从语音数据总集中获取第一音色属性的属性值为第一目标属性值的语音数据时,针对一个说话人可只获取一条语音数据,同样的,在从语音数据总集中获取第二音色属性的属性值为第二目标属性值的语音数据时,针对一个说话人可只获取一条语音数据。
[0155]
其中,第一音色属性为与目标音色维度相关的音色属性,第一音色属性具有多个可选音色属性值,第一目标属性值为第一音色属性的多个可选音色属性值中与目标音色维度相关的属性值,第二音色属性为与第一音色属性相关的音色属性,第二音色属性具有多个可选音色属性值,第二目标属性值为第二音色属性的多个可选音色属性值中与第一音色
属性相关的属性值。
[0156]
示例性的,目标音色维度为“女声甜美”,则第一音色属性为“甜美属性”,第二音色属性为“性别属性”,第一目标属性值为“1”,第二目标属性值为“女”,从语音数据总集中获取与“女声甜美”相关的语音数据的过程包括:从语音数据总集中获取“甜美属性”的属性值为“1”(即l
甜美女声
=1)的语音数据,组成第一语音数据集,从语音数据总集中获取“性别属性”的属性值为“女”(即l
gender
=女)的语音数据,组成第二语音数据集。
[0157]
示例性的,目标音色维度为“男声浑厚”,则第一音色属性为“浑厚属性”,第二音色属性为“性别属性”,第一目标属性值为“1”,第二目标属性值为“男”,从语音数据总集中获取与“男声浑厚”相关的语音数据的过程包括:从语音数据总集中获取“浑厚属性”的属性值为“1”(即l
浑厚男声
=1)的语音数据,组成第一语音数据集,从语音数据总集中获取“性别属性”的属性值为“男”(即l
gender
=男)的语音数据,组成第二语音数据集。
[0158]
示例性的,目标音色维度为“鼻音感”,则第一音色属性为“鼻音属性”,第二音色属性为“性别属性”,第一目标属性值为“1”,第二目标属性值为“男”和“女”,从语音数据总集中获取与“鼻音感”相关的语音数据的过程包括:从语音数据总集中获取“鼻音属性”的属性值为“1”(即l
鼻音
=1)的语音数据,组成第一语音数据集,从语音数据总集中获取“性别属性”的属性值为“男”(即l
gender
=男)的语音数据以及“性别属性”的属性值为“女”(即l
gender
=女),组成第二语音数据集。
[0159]
步骤s403:根据与目标音色维度相关的语音数据,确定目标音色维度下的音色拉伸向量。
[0160]
具体的,基于第一语音数据集和第二语音数据集,确定目标音色维度下的音色拉伸向量。
[0161]
更为具体的,基于第一语音数据集和第二语音数据集,确定目标音色维度下的音色拉伸向量的过程可以包括:对第一语音数据集中每个说话人的语音数据提取说话人特征(比如,第一语音数据集中包括100个说话人的语音数据,则对每个说话人的语音数据提取说话人特征后,会得到100个说话人特征),并计算对第一语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为所述目标音色维度下的第一平均音色向量;对第二语音数据集中每个说话人的语音数据提取说话人特征(比如,第二语音数据集中包括150个说话人的语音数据,则对每个说话人的语音数据提取说话人特征后,会得到150个说话人特征),并计算对第二语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为目标音色维度下的第二平均音色向量;根据目标音色维度下的第一平均音色向量和目标音色维度下的第二平均音色向量,确定目标音色维度下的音色拉伸向量。
[0162]
示例性的,目标音色维度为“女声甜美”,第一语音数据集中包括l
甜美女声
=1的语音数据,第二语音数据集中包括l
gender
=女的语音数据,则“女声甜美”这一音色维度下的第一平均音色向量s
甜美女声
和第二平均音色向量sf可表示为:
[0163][0164][0165]
式(3)中的n
甜美女声
表示第一语音数据集中的语音数据所涉及的说话人的数量,比
如,第一语音数据集中包括100个说话人的语音数据,则式(3)中的n
甜美女声
=100,式(3)中的si表示第一语音数据集中的语音数据所涉及的n
甜美女声
个说话人中第i个说话人的说话人特征,式(4)中的nf表示第二语音数据集中的语音数据所涉及的说话人的数量,比如,第二语音数据集中包括150个说话人的语音数据,则nf=150,式(4)中sj表示第二语音数据集中的语音数据所涉及的nf个说话人中第j个说话人的说话人特征。
[0166]
在获得“女声甜美”这一音色维度下的第一平均音色向量s
甜美女声
和第二平均音色向量sf后,可根据下式确定“女声甜美”这一音色维度下的音色拉伸向量d
甜美

[0167]d甜美
=s
甜美女声-sfꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0168]
示例性的,目标音色维度为“男声浑厚”,第一语音数据集中包括l
浑厚男声
=1的语音数据,第二语音数据集中包括l
gender
=男的语音数据,则“男声浑厚”这一音色维度下的第一平均音色向量s
浑厚男声
和第二平均音色向量sm可表示为:
[0169][0170][0171]
式(6)中的n
浑厚男声
表示第一语音数据集中的语音数据所涉及的说话人的数量,式(6)中的si表示第一语音数据集中的语音数据所涉及的n
浑厚男声
个说话人中第i个说话人的说话人特征,式(7)中的nm表示第二语音数据集中的语音数据所涉及的说话人的数量,式(7)中的sj表示第二语音数据集中的语音数据所涉及的nm个说话人中第j个说话人的说话人特征。
[0172]
在获得“男声浑厚”这一音色维度下的第一平均音色向量s
浑厚男声
和第二平均音色向量sm后,可根据下式确定“男声浑厚”这一音色维度下的音色拉伸向量d
浑厚

[0173]d浑厚
=s
浑厚男声-smꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0174]
示例性的,目标音色维度为“鼻音感”,第一语音数据集中包括l
鼻音
=1的语音数据,第二语音数据集中包括l
gender
=男的语音数据和l
gender
=女的语音数据,则“鼻音感”这一音色维度下的第一平均音色向量s
鼻音
和第二平均音色向量s
avg
可表示为:
[0175][0176][0177]
式(9)中的n
鼻音
表示第一语音数据集中的语音数据所涉及的说话人的数量,式(9)中的si表示第一语音数据集中的语音数据所涉及的n
鼻音
个说话人中第i个说话人的说话人特征,式(10)中的n表示第二语音数据集中的语音数据所涉及的说话人的数量,式(10)中的sj表示第二语音数据集中的语音数据所涉及的n个说话人中第j个说话人的说话人特征。
[0178]
在获得“鼻音感”这一音色维度下的第一平均音色向量s
鼻音
和第二平均音色向量s
avg
后,可根据下式确定“鼻音感”这一音色维度下的音色拉伸向量d
鼻音

[0179]d鼻音
=s
鼻音-s
avg
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0180]
经由本实施例提供的方法可确定出设定音色维度下的音色拉伸向量,比如,“女声甜美”这一音色维度下的音色拉伸向量、“男声浑厚”这一音色维度下的音色拉伸向量、“鼻
音感”这一音色维度下的音色拉伸向量。
[0181]
第四实施例
[0182]
本技术实施例还提供了一种语音合成装置,下面对本技术实施例提供的语音合成装置进行描述,下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。
[0183]
请参阅图5,示出了本技术实施例提供的语音合成装置的结构示意图,可以包括:数据获取模块501、说话人特征提取模块502、音色特征向量确定模块503和语音合成模块504。
[0184]
数据获取模块501,用于获取用于进行语音合成的文本特征以及指定说话人的语音数据。
[0185]
说话人特征提取模块502,用于对所述指定说话人的语音数据提取说话人特征,作为原始音色特征向量。
[0186]
音色特征向量确定模块503用于基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量。
[0187]
语音合成模块504,用于基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
[0188]
可选的,音色特征向量确定模块503在基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量时,具体用于:
[0189]
根据所述设定音色维度下的音色调整参数和所述设定音色维度下的音色拉伸向量,确定所述设定音色维度下的音色特征调整向量;
[0190]
根据所述原始音色特征向量和所述设定音色维度下的音色特征调整向量,确定用户定制音色的音色特征向量。
[0191]
可选的,语音合成模块504在基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据时,具体用于:
[0192]
根据所述文本特征和所述说话人特征,获取帧级的特征向量序列;
[0193]
根据所述帧级的特征向量序列和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
[0194]
可选的,语音合成模块504在根据所述文本特征和所述说话人特征,获取帧级的特征向量序列时,具体用于:
[0195]
根据所述文本特征,获取音素级别的上下文特征向量;
[0196]
以所述音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;
[0197]
以所述音素的发音时长帧数为依据,将所述音素级别的上下文特征向量展开成帧级的特征向量序列。
[0198]
可选的,所述设定音色维度包括一个或多个音色维度。
[0199]
可选的,本技术实施例提供的语音合成装置还包括:用于确定所述设定音色维度下的音色拉伸向量的音色拉伸向量确定模块。音色拉伸向量确定模块在确定所述设定音色维度下的音色拉伸向量时,具体用于:
[0200]
获取语音数据总集,所述语音数据总集中包括多个说话人的语音数据,每个说话人的语音数据标注有所述设定音色维度下的音色属性的音色属性值;
[0201]
将所述设定音色维度包含的每个音色维度作为目标音色维度,根据所述语音数据总集中的语音数据标注的音色属性值,从所述语音数据总集中获取与所述目标音色维度相关的语音数据;
[0202]
根据与所述目标音色维度相关的语音数据,确定所述目标音色维度下的音色拉伸向量。
[0203]
可选的,本技术实施例提供的语音合成装置还包括:音色属性值标注模块。
[0204]
音色属性值标注模块在为一说话人的语音数据标注所述设定音色维度下的音色属性的音色属性值时,具体用于:
[0205]
获取多个标注人员分别根据该说话人的语音数据在所述设定音色维度下的音色属性上标注的音色属性值,以得到多个标注人员的标注结果;
[0206]
根据所述多个标注人员的标注结果,确定该说话人的语音数据在所述设定音色维度下的音色属性的音色属性值,并为该说话人的语音数据标注确定出的音色属性值。
[0207]
可选的,音色拉伸向量确定模块在根据所述语音数据总集中的语音数据标注的音色属性值,从所述语音数据总集中获取与所述目标音色维度相关的语音数据时,具体用于:
[0208]
从所述语音数据总集中获取第一音色属性的属性值为第一目标属性值的语音数据,组成第一语音数据集,其中,所述第一音色属性为与所述目标音色维度相关的音色属性,所述第一目标属性值为与所述目标音色维度相关的属性值;
[0209]
从所述语音数据总集中获取第二音色属性的属性值为第二目标属性值的语音数据,组成第二语音数据集,其中,所述第二音色属性为与所述第一音色属性相关的音色属性,所述第二目标属性值为与所述第一音色属性相关的属性值。
[0210]
可选的,音色拉伸向量确定模块在根据与所述目标音色维度相关的语音数据,确定所述目标音色维度下的音色拉伸向量时,具体用于:
[0211]
对所述第一语音数据集中每个说话人的语音数据提取说话人特征,并计算对所述第一语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为所述目标音色维度下的第一平均音色向量;
[0212]
对所述第二语音数据集中每个说话人的语音数据提取说话人特征,并计算对所述第二语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为所述目标音色维度下的第二平均音色向量;
[0213]
根据所述目标音色维度下的第一平均音色向量和所述目标音色维度下的第二平均音色向量,确定所述目标音色维度下的音色拉伸向量。
[0214]
可选的,说话人特征提取模块502在对所述指定说话人的语音数据提取说话人特征时,具体用于:
[0215]
利用预先构建的语音生成模块,对所述指定说话人的语音数据提取说话人特征。
[0216]
语音合成模块504在基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据时,具体用于:
[0217]
基于所述语音生成模块、所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
[0218]
可选的,所述语音生成模块为语音合成模型,所述语音合成模型采用多个说话人的多条训练语音数据和所述多条训练语音数据分别对应的训练文本训练得到。
[0219]
语音合成模块504在基于所述语音生成模块、所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据时,具体用于:
[0220]
基于所述语音合成模型的文本编码模块,对所述文本特征进行编码,以得到音素级别的上下文特征向量;
[0221]
基于所述语音合成模型的时长预测模块,以所述音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;
[0222]
基于所述语音合成模型的长度调整模块,以所述音素的发音时长帧数为依据,将所述音素级别的上下文特征向量展开成帧级的特征向量序列;
[0223]
基于所述语音合成模型中的解码模块,以所述帧级的特征向量序列和所述用户定制音色的音色特征向量为依据,预测频谱特征;
[0224]
根据所述频谱特征,合成用户定制音色的语音数据。
[0225]
本技术实施例提供的语音合成装置,首先获取用于进行语音合成的文本特征以及指定说话人的语音数据,然后对指定说话人的语音数据提取说话人特征,以得到原始音色特征向量,接着基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量,最后基于文本特征和用户定制音色的音色特征向量,合成用户定制音色的语音数据。经由本技术实施例提供的语音合成装置能够合成出用户深入定制音色的语音数据,合成出的语音数据更加符合用户的喜好,可见,本技术实施例提供的语音合成装置能够满足用户对于合成语音音色的个性化需求,另外,让用户深度参与合成语音音色的选择,使得语音合成更具趣味性和交互性,从而能够提升用户体验。
[0226]
第五实施例
[0227]
本技术实施例还提供了一种语音合成设备,请参阅图6,示出了该语音合成设备的结构示意图,该语音合成设备可以包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604;
[0228]
在本技术实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
[0229]
处理器601可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0230]
存储器603可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0231]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0232]
获取用于进行语音合成的文本特征以及指定说话人的语音数据;
[0233]
对所述指定说话人的语音数据提取说话人特征,作为原始音色特征向量;
[0234]
基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量;
[0235]
基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语
音数据。
[0236]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0237]
第六实施例
[0238]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0239]
获取用于进行语音合成的文本特征以及指定说话人的语音数据;
[0240]
对所述指定说话人的语音数据提取说话人特征,作为原始音色特征向量;
[0241]
基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量;
[0242]
基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。
[0243]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0244]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0245]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0246]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种语音合成方法,其特征在于,包括:获取用于进行语音合成的文本特征以及指定说话人的语音数据;对所述指定说话人的语音数据提取说话人特征,作为原始音色特征向量;基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量;基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。2.根据权利要求1所述的语音合成方法,其特征在于,所述基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量,包括:根据所述设定音色维度下的音色调整参数和所述设定音色维度下的音色拉伸向量,确定所述设定音色维度下的音色特征调整向量;根据所述原始音色特征向量和所述设定音色维度下的音色特征调整向量,确定用户定制音色的音色特征向量。3.根据权利要求1所述的语音合成方法,其特征在于,所述基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据,包括:根据所述文本特征和所述说话人特征,获取帧级的特征向量序列;根据所述帧级的特征向量序列和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。4.根据权利要求3所述的语音合成方法,其特征在于,所述根据所述文本特征和所述说话人特征,获取帧级的特征向量序列,包括:根据所述文本特征,获取音素级别的上下文特征向量;以所述音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;以所述音素的发音时长帧数为依据,将所述音素级别的上下文特征向量展开成帧级的特征向量序列。5.根据权利要求1所述的语音合成方法,其特征在于,所述设定音色维度包括一个或多个音色维度;确定所述设定音色维度下的音色拉伸向量,包括:获取语音数据总集,所述语音数据总集中包括多个说话人的语音数据,每个说话人的语音数据标注有所述设定音色维度下的音色属性的音色属性值;将所述设定音色维度包含的每个音色维度作为目标音色维度,根据所述语音数据总集中的语音数据标注的音色属性值,从所述语音数据总集中获取与所述目标音色维度相关的语音数据;根据与所述目标音色维度相关的语音数据,确定所述目标音色维度下的音色拉伸向量。6.根据权利要求5所述的语音合成方法,其特征在于,为一说话人的语音数据标注所述设定音色维度下的音色属性的音色属性值的过程包括:获取多个标注人员分别根据该说话人的语音数据在所述设定音色维度下的音色属性
上标注的音色属性值,以得到多个标注人员的标注结果;根据所述多个标注人员的标注结果,确定该说话人的语音数据在所述设定音色维度下的音色属性的音色属性值,并为该说话人的语音数据标注确定出的音色属性值。7.根据权利要求5所述的语音合成方法,其特征在于,所述根据所述语音数据总集中的语音数据标注的音色属性值,从所述语音数据总集中获取与所述目标音色维度相关的语音数据,包括:从所述语音数据总集中获取第一音色属性的属性值为第一目标属性值的语音数据,组成第一语音数据集,其中,所述第一音色属性为与所述目标音色维度相关的音色属性,所述第一目标属性值为与所述目标音色维度相关的属性值;从所述语音数据总集中获取第二音色属性的属性值为第二目标属性值的语音数据,组成第二语音数据集,其中,所述第二音色属性为与所述第一音色属性相关的音色属性,所述第二目标属性值为与所述第一音色属性相关的属性值。8.根据权利要求7所述的语音合成方法,其特征在于,所述根据与所述目标音色维度相关的语音数据,确定所述目标音色维度下的音色拉伸向量,包括:对所述第一语音数据集中每个说话人的语音数据提取说话人特征,并计算对所述第一语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为所述目标音色维度下的第一平均音色向量;对所述第二语音数据集中每个说话人的语音数据提取说话人特征,并计算对所述第二语音数据集中的语音数据提取的若干说话人特征的均值,计算得到的均值作为所述目标音色维度下的第二平均音色向量;根据所述目标音色维度下的第一平均音色向量和所述目标音色维度下的第二平均音色向量,确定所述目标音色维度下的音色拉伸向量。9.根据权利要求1所述的语音合成方法,其特征在于,所述对所述指定说话人的语音数据提取说话人特征,包括:利用预先构建的语音生成模块,对所述指定说话人的语音数据提取说话人特征;所述基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据,包括:基于所述语音生成模块、所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。10.根据权利要求9所述的语音合成方法,其特征在于,所述语音生成模块为语音合成模型,所述语音合成模型采用多个说话人的多条训练语音数据和所述多条训练语音数据分别对应的训练文本训练得到;所述基于所述语音生成模块、所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据,包括:基于所述语音合成模型的文本编码模块,对所述文本特征进行编码,以得到音素级别的上下文特征向量;基于所述语音合成模型的时长预测模块,以所述音素级别的上下文特征向量和所述说话人特征为依据,预测音素的发音时长帧数;基于所述语音合成模型的长度调整模块,以所述音素的发音时长帧数为依据,将所述
音素级别的上下文特征向量展开成帧级的特征向量序列;基于所述语音合成模型的解码模块,以所述帧级的特征向量序列和所述用户定制音色的音色特征向量为依据,预测频谱特征;根据所述频谱特征,合成用户定制音色的语音数据。11.一种语音合成装置,其特征在于,包括:数据获取模块、说话人特征提取模块、音色特征向量确定模块和语音合成模块;所述数据获取模块,用于获取用于进行语音合成的文本特征以及指定说话人的语音数据;所述说话人特征提取模块,用于对所述指定说话人的语音数据提取说话人特征,作为原始音色特征向量;所述音色特征向量确定模块,用于基于所述原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及所述设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量;所述语音合成模块,用于基于所述文本特征和所述用户定制音色的音色特征向量,合成用户定制音色的语音数据。12.一种语音合成设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1~10中任一项所述的语音合成方法的各个步骤。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的语音合成方法的各个步骤。

技术总结
本发明提供了一种语音合成方法、装置、设备及存储介质,其中,语音合成方法包括:获取用于进行语音合成的文本特征以及指定说话人的语音数据;对指定说话人的语音数据提取说话人特征,作为原始音色特征向量;基于原始音色特征向量、设定音色维度下由用户决定的音色调整参数以及设定音色维度下的音色拉伸向量,确定用户定制音色的音色特征向量;基于文本特征和用户定制音色的音色特征向量,合成用户定制音色的语音数据。本发明提供的语音合成方法能够满足用户对于合成语音音色的个性化需求,另外,让用户深度参与合成语音音色的选择,使得语音合成更具趣味性和交互性,从而能够提升用户体验。户体验。户体验。


技术研发人员:刘利娟 胡亚军 江源 潘嘉 刘庆峰 刘迪源 胡郁
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2022.03.15
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-16647.html

最新回复(0)