本发明涉及音频合成领域,具体为一种基于神经网络模型实现小语种音频合成的系统。
背景技术:
1、在音频合成领域中,随着深度学习技术的飞速发展,需要更为智能且快捷有效的语种音频合成的系统,语种音频合成系统简单来概况就是把文本转化为声音,但是对于小语种音频合成,现有的方法系统效果不佳。
2、目前现有的小语种音频合成系统,由于在小语种方面可能会出现数据稀缺、语言特性复杂以及资源分配不均等问题,也就是小语种相比主流语言,其语料库规模较小,且质量参差不齐,这导致在训练神经网络系统时,容易出现过拟合现象,限制了模型的泛化能力和生成音频的自然度,致使影响音频合成后的效果,并且传统音频合成方法往往依赖于复杂的信号处理技术和大量的手工调参,不仅费时费力且合成后的音频效果参差不齐,以及现有技术中的声学特征预测模型在处理小语种时,可能无法准确捕捉其特有的声学特性,导致生成的音频在音质和清晰度方面存在不足。
技术实现思路
1、本发明的目的在于提供一种基于神经网络模型实现小语种音频合成的系统,解决了上述背景技术中所提出的问题。
2、为实现上述目的,本发明提供如一种基于神经网络模型实现小语种音频合成的系统,包括:
3、数据采集模块:用于收集小语种的文本数据,将文本数据输入至处理模块内;
4、处理模块:用于对文本数据进行清洗,并进行音素标注和基于梅尔频谱提取特征,输出处理后的文本数据;
5、合成模块:用于处理后的文本数据输入,输出在位置t和维度p上编码后的文本表示、在位置t和特征维度f上预测的mel频谱图特征和第n个音频帧上的音频特征表示;
6、集成模块:用于将在位置t和维度p上编码后的文本表示、在位置t和特征维度f上预测的mel频谱图特征和第n个音频帧上的音频特征表示集成到模型中;
7、训练模块:用于从数据采集模块中加载文本数据,对集成模块合成的模型循环训练,在训练过程中定期评估模型的性能。
8、可选的,所述合成模块包括编码子模块、特征子模块、生成子模块和循环优化子模块。
9、可选的,所述编码子模块处理过程如下:
10、;
11、;
12、其中:
13、ecut,p指代在位置t和维度p上编码后的文本表示、ccdt指代条件参数;
14、ecuat,p指代处理后的文本数据在位置t和维度p上的嵌入表示、ecut-1,p指代在位置t-1和维度p上编码后的文本表示;
15、t指代位置、p指代维度、p指代编码的维度总数;
16、relu指代激活函数一、lstm指代长短期记忆网络、⊙指代逐元素乘法、wcond,p指代在维度p上生成条件参数的权重矩阵、bscond指代ccdt的偏置项;
17、a1,p和a1,p分别指代维度p编码层的权重一和权重二;
18、初始化神经网络模型构建中编码器网络的参数,将处理后的文本数据序列中每个元素转化为处理后的文本数据在位置t和维度p上的嵌入表示ecuat,p,将ecuat,p作为输入通过编码器网络传播,并基于激活函数一relu、长短期记忆网络lstm输出位置t和维度p上编码后的文本表示ecut,p,并基于输出位置t和维度p上编码后的文本表示ecut,p生成条件参数ccdt。
19、可选的,所述特征子模块处理过程如下:
20、melt,f=sigmoid[b3,f×relu(b4,f×ecut,p+csi+b4,f)]⊙exp[-1/2(b5,f×srnpt,f+b5,f)2+b6,f];
21、其中:
22、melt,f指代在位置t和特征维度f上预测的mel频谱图特征,melt,f泛指声学特征;
23、csi指代第i次迭代的条件向量、srnpt,f指代在位置t和特征维度f上与melt,f预测相关的声学特征;
24、sigmoid指代激活函数二、exp指代指数函数、f指代特征维度;
25、b3,f、b4,f、b5,f、b4,f、b5,f和b6,f分别指代在特征维度f上的权重矩阵一、权重矩阵二、权重矩阵三、偏置项一、偏置项二和偏置项三;
26、将位置t和维度p上编码后的文本表示ecut,p和在位置t和特征维度f上与melt,f预测相关的声学特征srnpt,f输入至特征子模块中,并基于第i次迭代的条件向量csi、激活函数二sigmoid和指数函数exp捕捉复杂的声学特征,输出在位置t和特征维度f上预测的mel频谱图特征melt,f。
27、可选的,所述生成子模块处理过程如下:
28、audn=sigmoid[cr×(melt,f⊙ccdt+cr)⊙exp(-|cl×melt,n+bs|2)];
29、其中:
30、audn指代第n个音频帧上的音频特征表示;
31、cr、cl、cr和bs分别指代将melt,f和ccdt结合生成audn的偏置项一、偏置项二、偏置三和偏置项四;
32、基于神经网络模型构建中声码器模型,将位置t和特征维度f上预测的mel频谱图特征melt,f和条件参数ccdt作为输入,生成子模块输出第n个音频帧上的音频特征表示audn。
33、可选的,所述循环优化子模块处理过程如下:
34、首先:设定计算公式csi+1=activationfunction(ou×[csi;audn]+s);
35、其次:设置循环终止条件:
36、条件一:迭代次数i为95次;
37、条件二:|csi+1-csi|<γ,γ=0.00042;
38、其中:
39、csi+1指代第i+1迭代后的条件向量;
40、activationfunction指代激活函数三、ou指代权重矩阵、s指代调节因子;
41、[csi+1;audn]指代csi与audn的向量拼接;
42、基于第n个音频帧上的音频特征表示audn与第i次迭代的条件向量csi的向量运算,通过调节因子s和权重矩阵ou来调整第i次迭代的条件向量csi变化程度,输出第i+1迭代后的条件向量csi+1,将第i+1迭代后的条件向量csi+1替换特征子模块中的第i次迭代的条件向量csi,以不断调节melt,f和audn,通过循环终止条件达成循环终止目的。
43、可选的,所述文本数据包括文字数据和语音数据;
44、所述文字数据为小语种文本语料库,具体为小语种的句子、小语种短语和小语种单词;
45、所述语音数据为小语种语音录音,具体为对应小语种文本语料库的小语种语音录音。
46、可选的,所述语音数据中要求音质清晰和无噪音,并覆盖多语音特性,所述多语音特性包括不同性别、年龄和语速等。
47、与现有技术相比,本发明的有益效果如下:
48、一、本发明基于神经网络的迭代合成方法能够自动学习音频特征,减少对手工调参的依赖,并提高合成音频的自然度和连贯性。
49、二、本发明通过编码子模块得出在位置t和特征维度f上预测的mel频谱图特征ecuat,p,编码子模块通过神经网络的文本编码与条件生成方法更加灵活,可处理更广泛的文本输入和更复杂的语言现象,且ecut,p捕获了文本序列中的长期依赖关系,进而形成对整句话或段落的深刻理解,使得整体的系统模型具有灵活性和可扩展性,相较于现有的系统可能是基于统计或规则的文本分析方法,本神经网络模型能够更好地处理复杂语言现象。
50、三、本发明通过特征子模块得出在位置t和特征维度f上预测的mel频谱图特征melt,f,本特征子模块通过直接预测mel频谱图特征,整体系统可绕过复杂的声学模型和声码器来提高音频生成的效率,且利用深度学习模型的强大拟合能力系统可更准确地预测出与文本内容相匹配的声学特征,以及通过多层神经网络整体的系统模型能够捕捉到文本与声学特征之间的复杂映射关系生成高质量的声学特征,本神经网络模型能够更好地处理非线性关系和复杂数据分布,且可与其他声学特征预测方法相比,基于神经网络的预测方法通常具有更高的精准性。
51、四、本发明通过生成子模块得出第n个音频帧上的音频特征表示audn,本子模实现了从声学特征到音频波形的转换,且系统能够实现对mel频谱图特征的非线性缩放,因此更精细地控制音频的音质和动态范围,逐元素乘法操作使得mel频谱图特征和条件参数能够在每个时间步和频率点上相互作用,增强了音频生成的灵活性和表现力,最终生成的音频样本在音质上接近自然语音,具有较高的可听性和舒适度。
52、五、本发明通过循环优化子模块对特征子模块中的参数进行循环迭代,系统能动态的适应音频合成过程中的变化从而生成更加符合期望的音频输出,因此能减少音频合成中的不连续性和不自然感,从而提高生成音频的整体质量,通过引入迭代和反馈机制整体的模型能够学习到更多关于小语种音频特性的知识,能增强其在新数据或未见过的场景下的泛化能力,对于小语种音频合成尤为重要,通过迭代的形式可更准确地调整模型内部状态,系统可更快地收敛到最优解,有助于缩短模型训练时间进而提高开发效率,以及基于神经网络的迭代合成方法能够自动学习音频特征,减少对手工调参的依赖并提高合成音频的自然度和连贯性。
1.一种基于神经网络模型实现小语种音频合成的系统,其特征在于,包括:
2.根据权利要求1所述的基于神经网络模型实现小语种音频合成的系统,其特征在于:所述特征子模块的计算公式如下:
3.根据权利要求2所述的基于神经网络模型实现小语种音频合成的系统,其特征在于:所述生成子模块的计算公式如下:
4.根据权利要求3所述的基于神经网络模型实现小语种音频合成的系统,其特征在于:所述循环优化子模块的处理过程如下:
5.根据权利要求1所述的基于神经网络模型实现小语种音频合成的系统,其特征在于:所述文本数据包括文字数据和语音数据;
6.根据权利要求5所述的基于神经网络模型实现小语种音频合成的系统,其特征在于:所述语音数据中要求音质清晰和无噪音,并覆盖多语音特性,所述多语音特性包括不同性别、年龄和语速。