语音识别方法、装置、电子设备和存储介质与流程

allin2024-08-01  78



1.本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。


背景技术:

2.随着人工智能技术的迅速发展,语音识别技术在教育、娱乐、医疗、交通等各领域得到的广泛应用。
3.目前,多通过采集通用场景下的大量语料数据训练得到语音识别模型,并基于语音识别模型进行语音识别。然而,该语音识别模型应用于特定领域场景下时,语音识别精度较低。


技术实现要素:

4.本发明提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中在特定领域场景下语音识别精度较低的缺陷。
5.本发明提供一种语音识别方法,包括:
6.确定待识别语音;
7.将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;
8.所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;
9.所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。
10.根据本发明提供的一种语音识别方法,所述语音识别模型的训练步骤包括:
11.对所述领域样本语音的语音特征进行扰动,并将扰动后的领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的所述第一识别文本;
12.将所述领域样本语音的语音特征输入至所述教师模型,得到所述教师模型输出的所述第二识别文本;
13.基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到所述语音识别模型;
14.所述学生模型的初始化参数基于所述通用样本语音及其标签识别文本迭代得到。
15.根据本发明提供的一种语音识别方法,所述基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到所述语音识别模型,包括:
16.基于领域样本语音的标签识别文本和第一识别文本之间的差异,确定第一损失
值;
17.基于所述第一识别文本和第二识别文本之间的差异,确定第二损失值;
18.基于所述第一损失值和所述第二损失值,对所述学生模型进行参数迭代,得到所述语音识别模型。
19.根据本发明提供的一种语音识别方法,所述领域样本语音的标签识别文本的确定步骤包括:
20.将所述领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的第一标签识别文本;
21.将所述领域样本语音的语音特征输入至通用语音识别模型,得到所述通用语音识别模型输出的第二标签识别文本;
22.基于所述领域样本语音的语音时长,从所述第一标签识别文本和所述第二标签识别文本中确定所述领域样本语音的标签识别文本;
23.所述通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且所述通用语音识别模型与所述学生模型的结构不同。
24.根据本发明提供的一种语音识别方法,所述基于所述领域样本语音的语音时长,从所述第一标签识别文本和所述第二标签识别文本中确定所述领域样本语音的标签识别文本,包括:
25.基于所述领域样本语音的语音时长,以及所述第一标签识别文本的字符数,确定所述领域样本语音的单位时长字符数;
26.若所述领域样本语音的单位时长字符数小于字符阈值,则将所述第一标签识别文本作为所述标签识别文本;若否,则将所述第二标签识别文本作为所述领域样本语音的标签识别文本。
27.根据本发明提供的一种语音识别方法,所述将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本,之后还包括:
28.基于所述识别文本的字符数以及所述待识别语音的语音时长,对所述识别文本进行校正,得到校正文本。
29.根据本发明提供的一种语音识别方法,所述基于所述识别文本的字符数以及所述待识别语音的语音时长,对所述识别文本进行校正,得到校正文本,包括:
30.基于所述识别文本的字符数以及所述待识别语音的语音时长,确定所述待识别语音的单位时长字符数;
31.若所述待识别语音的单位时长字符数大于等于字符阈值,则将所述待识别语音的语音特征输入至通用语音识别模型,得到所述通用语音识别模型输出的通用识别文本,并以所述通用识别文本作为所述校正文本;
32.若所述待识别语音的单位时长字符数小于所述字符阈值,则将所述识别文本作为所述校正文本;
33.所述通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且所述通用语音识别模型与所述学生模型的结构不同。
34.本发明还提供一种语音识别装置,包括:
35.语音确定单元,用于确定待识别语音;
36.语音识别单元,用于将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;
37.所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;
38.所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。
39.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法。
40.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
41.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
42.本发明提供的语音识别方法、装置、电子设备和存储介质,基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,从而使得学生模型不仅能够基于领域样本语音的标签识别文本和第一识别文本之间的差异学习领域样本语音中的特定语言表达方式,而且还能够基于第一识别文本和第二识别文本之间的差异从教师模型中学习领域样本语音中的通用语言表达方式,进而能够使得训练得到的语音识别模型在领域场景下能够准确进行语音识别。
附图说明
43.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1是本发明提供的语音识别方法的流程示意图之一;
45.图2是本发明提供的语音识别模型训练方法的流程示意图之一;
46.图3是本发明提供的语音识别模型训练方法中步骤230的实施方式的流程示意图;
47.图4是本发明提供的本发明提供的语音识别模型训练方法的流程示意图之二;
48.图5是本发明提供的领域样本语音的标签识别文本确定方法的流程示意图;
49.图6是本发明提供的领域样本语音的标签识别文本确定方法中步骤530的实施方式的流程示意图;
50.图7是本发明提供的校正文本确定方法的流程示意图;
51.图8是本发明提供的语音识别方法的流程示意图之二;
52.图9是本发明提供的语音识别装置的结构示意图;
53.图10是本发明提供的电子设备的结构示意图。
具体实施方式
54.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
55.随着人工智能技术的迅速发展,语音识别技术在教育、娱乐、医疗、交通等各领域得到的广泛应用。目前,多通过采集通用场景下的大量语料数据训练得到语音识别模型,并基于语音识别模型进行语音识别,且该语音识别模型应用于通用场景下时具有较好的识别效果。
56.然而,由于特定领域场景与通用场景分别对应的待识别语音在信道、主题、话者、环境噪声等方面均存在不同程度的差异,从而在将传统方法中训练得到的语音识别模型应用于特定场景下时,识别效果较差。
57.对此,本发明提供一种语音识别方法。图1是本发明提供的语音识别方法的流程示意图之一,如图1所示,该方法包括如下步骤:
58.步骤110、确定待识别语音。
59.具体地,待识别语音即需要进行语音识别的语音数据。其中,待识别语音可以是用户通过电子设备实时录制的语音数据,此处电子设备可以是智能手机、平板电脑,还可以是智能电器例如音响、电视和空调等,电子设备在得到待识别语音后,还可以对待识别语音进行放大和降噪,另外,待识别语音也可以是已存储或接收到的语音数据,本发明实施例对此不作具体限定。
60.步骤120、将待识别语音的语音特征输入至语音识别模型,得到语音识别模型输出的识别文本;
61.语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;
62.第一识别文本是学生模型基于领域样本语音的语音特征确定的,第二识别文本是教师模型基于领域样本语音的语音特征确定的,教师模型基于通用样本语音及其标签识别文本训练得到。
63.具体地,通用样本语音是在通用场景下采集的语音,其标签识别文本为通用样本语音对应的标签,从而基于通用样本语音及其标签识别文本训练得到的教师模型可以理解为是传统方法中适用于通用场景下的语音识别模型。领域样本语音是在领域场景下采集的语音,其标签识别文本为领域样本语音对应的标签。其中,领域场景下的语音与通用场景下的语音之间在信道、主题、话者、环境噪声等方面均存在不同程度的差异,如通用场景可以为一般的生活场景,而领域场景可以为特定行业领域场景,如领域场景可以为医疗领域场景。
64.在确定待识别语音后,可以提取待识别语音的语音特征。其中,可以通过特征提取算法提取待识别语音的语音特征,如可以基于傅里叶变换提取待识别语音的语音特征。
65.在得到待识别语音的语音特征后,将待识别语音的语音特征输入至语音识别模型,由语音识别模型对待识别语音的语音特征进行语音识别,得到识别文本。其中,语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文
本和第二识别文本之间的差异,对学生模型进行参数迭代得到的。
66.此处,第一识别文本是学生模型基于领域样本语音的语音特征确定的,从而领域样本语音的标签识别文本和第一识别文本之间的差异用于表征学生模型在领域场景下的模型性能,差异越小,表明学生模型在领域场景下的识别效果越好。第二识别文本是教师模型基于领域样本语音的语音特征确定的,从而第一识别文本和第二识别文本之间的差异用于表征应用于领域场景下时,学生模型与教师模型之间的性能差异,第一识别文本和第二识别文本之间的差异越小,表明在领域场景下学生模型与教师模型的性能差异越小,也即表明学生模型从教师模型中学习到的知识越多,性能越好。
67.需要说明的是,若单独基于领域样本语音及其标签识别文本对传统方法中语音识别模型的初始模型进行训练,为了能够使得训练得到的模型能够具有较好的识别效果,则需要大量领域样本语音,但在领域场景下的样本语音通常不易获取,也就是获取足量领域样本语音的难度较大。
68.由于传统方法中的语音识别模型在通用场景下具备良好的识别效果,也就是传统方法中的语音识别模型具备识别通用场景下语音的功能,但对于领域场景下的某些特定词语、特定语句等识别效果较差。
69.对此,本发明实施例针对传统方法中的语音识别模型(即教师模型)具备一定语音识别能力的基础上,再结合领域样本语音及其标签识别文本对学生模型进行参数迭代,使得学生模型不仅能够基于领域样本语音的标签识别文本和第一识别文本之间的差异学习领域样本语音中的特定词语、特定语句等的语言表达方式,而且还能够基于第一识别文本和第二识别文本之间的差异从教师模型中学习领域样本语音中的通用词语、通用语句等的语言表达方式,从而能够使得训练得到的语音识别模型在领域场景下能够准确进行语音识别。
70.此外,由于教师模型是基于通用样本语音及其标签识别文本训练得到的,而通用样本语音较易获取,从而可以基于足量样本语音对教师模型的初始模型进行训练,使得教师模型能够准确识别通用场景下的语音,也就是教师模型能够准确对语音中的通用词语、通用语句等进行识别,而领域场景下的语音中既包括通用词语和通用语句,也包括特定词语和特定语句,本发明实施例结合能够准确识别语音中的通用词语和通用语句的教师模型对学生模型进行训练,从而可以不需要针对领域场景下的通用词语、通用语句等方面去增量获取对应的领域样本语音进行训练,也就是不仅减少了领域样本语音的采集量,而且加快了学生模型的收敛速度。
71.本发明实施例提供的语音识别方法,基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,从而使得学生模型不仅能够基于领域样本语音的标签识别文本和第一识别文本之间的差异学习领域样本语音中的特定语言表达方式,而且还能够基于第一识别文本和第二识别文本之间的差异从教师模型中学习领域样本语音中的通用语言表达方式,进而能够使得训练得到的语音识别模型在领域场景下能够准确进行语音识别。
72.基于上述实施例,图2是本发明提供的语音识别模型训练方法的流程示意图之一,如图2所示,语音识别模型的训练步骤包括:
73.步骤210、对领域样本语音的语音特征进行扰动,并将扰动后的领域样本语音的语
音特征输入至学生模型,得到学生模型输出的第一识别文本;学生模型的初始化参数基于通用样本语音及其标签识别文本迭代得到。
74.步骤220、将领域样本语音的语音特征输入至教师模型,得到教师模型输出的第二识别文本;
75.步骤230、基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到语音识别模型。
76.具体地,学生模型的初始化参数基于通用样本语音及其标签识别文本迭代得到,即可以理解为学生模型的初始化模型与教师模型均是传统方法中的语音识别模型。
77.在确定领域样本语音的语音特征后,对领域样本语音的语音特征进行扰动,并将扰动后的领域样本语音特征输入至学生模型,由学生模型基于扰动后的领域样本语音特征进行语音识别,得到第一识别文本。同时,将领域样本语音的语音特征输入至教师模型,由教师模型基于领域样本语音特征进行语音识别,得到第二识别文本。
78.随即,基于领域样本语音的标签识别文本和第一识别文本之间的差异,使得学生模型学习领域样本语音中的特定词语、特定语句等的语言表达方式,以及基于第一识别文本和第二识别文本之间的差异,使得学生模型从教师模型中学习领域样本语音中的通用词语、通用语句等的语言表达方式,进而能够使得训练得到的语音识别模型在领域场景下能够准确进行语音识别。
79.其中,对领域样本语音的语音特征进行扰动,可以实现对领域样本语音的扩充,使得学生模型能够更好学习到领域场景下的语音的语言表达方式。可选地,在对领域样本语音的语音特征进行扰动时,可以采用对领域样本语音的语音特征进行掩码处理,得到语音特征对应的掩码特征,以扩充领域样本语音。
80.由此可见,本发明实施例基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,从而使得得到的语音识别模型能够在领域场景下准确进行语音识别。
81.基于上述任一实施例,图3是本发明提供的语音识别模型训练方法中步骤230的实施方式的流程示意图,如图3所示,步骤230具体包括:
82.步骤231、基于领域样本语音的标签识别文本和第一识别文本之间的差异,确定第一损失值;
83.步骤232、基于第一识别文本和第二识别文本之间的差异,确定第二损失值;
84.步骤233、基于第一损失值和第二损失值,对学生模型进行参数迭代,得到语音识别模型。
85.具体地,第一损失值的大小用于表征学生模型在领域场景下的识别效果,第一损失值越小,表明学生模型在领域场景下的识别效果越好。第二损失值的大小用于表征在领域场景下学生模型与教师模型之间的性能差异程度,第二损失值越小,表明在领域场景下学生模型与教师模型的性能差异越小,也即表明学生模型从教师模型中学习到的知识越多,性能越好。
86.在确定第一损失值和第二损失值后,可以对两者进行权重相加,得到学生模型的损失值,并基于损失值对学生模型进行参数迭代,得到语音识别模型。由于学生模型是基于第一损失值和第二损失值进行参数迭代后得到的,从而学生模型既能基于第一损失值学习
到领域样本语音中特定表达方式,同时也能基于第二损失值从教师模型中学习到领域样本语音中通用表达方式,从而使得训练得到的语音识别模型在领域场景下能够准确进行语音识别。
87.基于上述任一实施例,图4是本发明提供的本发明提供的语音识别模型训练方法的流程示意图之二,如图4所示,该训练方法包括:
88.首先,提取领域样本语音的语音特征fb,接着对领域样本语音的语音特征进行扰动(如掩码处理tfmask),并将扰动后的领域样本语音的语音特征输入至学生模型student,得到学生模型输出的第一识别文本predict_s。同时,将领域样本语音的语音特征fb输入至教师模型teacher,得到教师模型teacher输出的第二识别文本predict_t。其中,学生模型student的初始化参数基于通用样本语音及其标签识别文本迭代得到。
89.随即,基于领域样本语音的标签识别文本pseudo label和第一识别文本predict_s之间的差异,确定第一损失值,并基于第一识别文本predict_s和第二识别文本predict_t之间的差异,确定第二损失值。
90.然后,对第一损失值和第二损失值进行权重相加,得到学生模型的损失值,并基于该损失值对学生模型进行参数迭代,得到语音识别模型。其中,学生模型的损失值loss可以基于如下公式确定:
91.loss=λ
×
ce+(1-λ)
×
kld
92.其中,ce表示第一损失值,kld表示第二损失值,λ表示权重,是可调参数,取值范围为(0,1)。
93.基于上述任一实施例,图5是本发明提供的领域样本语音的标签识别文本确定方法的流程示意图,如图5所示,领域样本语音的标签识别文本的确定步骤包括:
94.步骤510、将领域样本语音的语音特征输入至学生模型,得到学生模型输出的第一标签识别文本;
95.步骤520、将领域样本语音的语音特征输入至通用语音识别模型,得到通用语音识别模型输出的第二标签识别文本;
96.步骤530、基于领域样本语音的语音时长,从第一标签识别文本和第二标签识别文本中确定领域样本语音的标签识别文本;
97.通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且通用语音识别模型与学生模型的结构不同。
98.此处需要说明的是,若采用人工标注领域样本语音获取其对应的标签识别文本,则需要特定领域的语言专家来进行标注,不仅需要耗费较长的时间,而且标注成本较高。
99.对此,本发明实施例首先将领域样本语音的语音特征输入至学生模型,由学生模型基于领域样本语音的语音特征进行语音识别,得到第一标签识别文本。同时,将领域样本语音的语音特征输入至通用语音识别模型,由通用语音识别模型基于领域样本语音的语音特征进行语音识别,得到第二标签识别文本。其中,通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且通用语音识别模型与学生模型的结构不同,如学生模型的结构可以为端到端模型结构,通用语音识别模型可以为声学模型+语言模型的结构,其中声学模型可以采用三音子模型结构,语音模型可以采用n-gram模型结构,本发明实施例对此不作具体限定。
100.由于学生模型与教师模型的结构不同,从而学生模型输出的第一标签识别文本和第二标签识别文本可能存在差异,此时需要从第一标签识别文本和第二标签识别文本中筛选出精度更高的文本作为领域样本语音的标签识别文本。
101.由于学生模型是基于领域样本语音及其标签识别文本进行迭代训练得到的,也就是随着学生模型的不断更新,其在领域场景下的语音识别精度会越来越高,但通用语音识别模型是基于通用样本语音及其标签识别文本训练得到,也就是通用语音识别模型虽然能够准确识别通用场景下的语音,但对于领域场景下的语音识别精度是不变的。为了能够准确获取领域样本语音的标签识别文本,本发明实施例在基于学生模型和通用语音识别模型确定领域样本语音的标签识别文本时,优先考虑学生模型输出的第一标签识别文本作为领域样本语音的标签识别文本,在第一标签识别文本不准确的情况下,再以第二标签识别文本作为领域样本语音的标签识别文本。
102.具体地,在某些情况下,学生模型在对领域样本语音进行语音识别时,可能会存在插入错误,例如领域样本语音为“我爱工作”,但学生模型可能在识别过程中存在插入错误,从而导致得到的第一标签识别文本可能为“我爱爱爱爱爱爱爱工作”,明显存在过多插入词“爱”。鉴于通常情况下用户在单位时长内说话的字符数是有上限的,从而基于领域样本语音的语音时长,可以确定领域样本语音的单位时长字符数。若单位时长字符数较大,则表明学生模型中输出的第一标签识别文本存在插入错误的概率越高,进而可以选择第二标签识别文本作为领域样本语音的标签识别文本;若单位时长字符数较小,则表明学生模型中输出的第一标签识别文本存在插入错误的概率越低,进而可以选择第一标签识别文本作为领域样本语音的标签识别文本。
103.由此可见,本发明实施例基于领域样本语音的语音时长,可以准确识别第一标签识别文本中的插入错误,进而能够准确从第一标签识别文本和第二标签识别文本中确定领域样本语音的标签识别文本。
104.图6是本发明提供的领域样本语音的标签识别文本确定方法中步骤530的实施方式的流程示意图,如图6所示,步骤530包括:
105.步骤531、基于领域样本语音的语音时长,以及第一标签识别文本的字符数,确定领域样本语音的单位时长字符数;
106.步骤532、若领域样本语音的单位时长字符数小于字符阈值,则将第一标签识别文本作为标签识别文本;若否,则将第二标签识别文本作为领域样本语音的标签识别文本。
107.具体地,领域样本语音的单位时长字符数指学生模型对领域样本语音进行识别时得到的第一标签识别文本对应的单位时长字符数,其可以通过领域样本语音的语音时长以及第一标签识别文本的字符数确定,如领域样本语音的单位时长字符数=第一标签识别文本的字符数/领域样本语音的语音时长。
108.若领域样本语音的单位时长字符数小于字符阈值,则表明学生模型中输出的第一标签识别文本存在插入错误的概率较低,进而可以选择第一标签识别文本作为领域样本语音的标签识别文本。若领域样本语音的单位时长字符数大于等于字符阈值,则表明学生模型中输出的第一标签识别文本存在插入错误的概率较高,进而可以选择第二标签识别文本作为领域样本语音的标签识别文本。
109.由此可见,本发明实施例基于领域样本语音的单位时长字符数以及字符阈值,可
以确定第一标签识别文本中是否存在插入错误,进而能够准确从第一标签识别文本和第二标签识别文本中确定领域样本语音的标签识别文本。
110.基于上述任一实施例,步骤120将待识别语音的语音特征输入至语音识别模型,得到语音识别模型输出的识别文本,之后还包括:
111.基于识别文本的字符数以及待识别语音的语音时长,对识别文本进行校正,得到校正文本。
112.具体地,语音识别模型在对领域样本语音进行语音识别时,可能会存在插入错误,例如待识别语音为“我爱工作”,但语音识别模型可能在识别过程中存在插入错误,从而导致得到的识别文本可能为“我爱爱爱爱爱爱爱工作”,明显存在过多插入词“爱”。鉴于通常情况下用户在单位时长内说话的字符数是有上限的,从而基于识别文本的字符数以及待识别语音的语音时长,可以确定待识别语音的单位时长字符数。若单位时长字符数较大,则表明语音模型中输出的识别文本存在插入错误的概率越高,需要对其进行校正,得到校正文本,从而能够更加准确获取待识别语音对应的语音识别结果。
113.基于上述任一实施例,图7是本发明提供的校正文本确定方法的流程示意图,如图7所示,基于识别文本的字符数以及待识别语音的语音时长,对识别文本进行校正,得到校正文本,包括:
114.步骤710、基于识别文本的字符数以及待识别语音的语音时长,确定待识别语音的单位时长字符数;
115.步骤720、若待识别语音的单位时长字符数大于等于字符阈值,则将待识别语音的语音特征输入至通用语音识别模型,得到通用语音识别模型输出的通用识别文本,并以通用识别文本作为校正文本;
116.若待识别语音的单位时长字符数小于字符阈值,则将识别文本作为校正文本;
117.通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且通用语音识别模型与学生模型的结构不同。
118.具体地,待识别语音的单位时长字符数指语音识别模型对待识别语音进行识别时得到的识别文本对应的单位时长字符数,其可以通过待识别语音的语音时长以及识别文本的字符数确定,如待识别语音的单位时长字符数=识别文本的字符数/待识别语音的语音时长。
119.若待识别语音的单位时长字符数小于字符阈值,则表明语音识别模型中输出的识别文本存在插入错误的概率较低,进而可以选择识别文本作为校正文本。若待识别语音的单位时长字符数大于等于字符阈值,则表明语音识别模型中输出的识别文本存在插入错误的概率较高,进而可以选择通用识别文本作为领域样本语音的标签识别文本。其中,字符阈值可以根据实际情况设置,本发明实施例对此不作具体限定。
120.此外,通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且通用语音识别模型与学生模型的结构不同,也即通用语音识别模型与语音识别模型的结构不同。如学生模型的结构可以为端到端模型结构,通用语音识别模型可以为声学模型+语言模型的结构,其中声学模型可以采用三音子模型结构,语音模型可以采用n-gram模型结构,本发明实施例对此不作具体限定。
121.由此可见,本发明实施例基于待识别语音的单位时长字符数以及字符阈值,可以
确定识别文本中是否存在插入错误,进而能够准确获取校正文本。
122.基于上述任一实施例,本发明还提供一种语音识别方法,图8是本发明提供的语音识别方法的流程示意图之二,如图8所示,该方法包括:
123.首先,提取待识别语音的语音特征。接着,将待识别语音的语音特征分别输入至语音识别模型以及通用语音识别模型,得到语音识别模型输出的识别文本,以及通用语音识别模型输出的通用识别文本。
124.然后,基于识别文本的字符数以及待识别语音的语音时长,确定待识别语音的单位时长字符数。若单位时长字符数小于字符阈值,则将识别文本作为待识别语音的识别结果;若否,则将通用识别文本作为待识别语音的识别结果。其中,语音识别模型的结构为端到端结构,通用语音识别模型的结构为声学模型+语言模型的结构。
125.具体地,语音识别模型的训练步骤包括:
126.首先,对领域样本语音的语音特征进行扰动,并将扰动后的领域样本语音的语音特征输入至学生模型,得到学生模型输出的第一识别文本。同时,将领域样本语音的语音特征输入至教师模型,得到教师模型输出的第二识别文本。然后基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到语音识别模型。其中,学生模型的初始化参数基于通用样本语音及其标签识别文本迭代得到;教师模型基于通用样本语音及其标签识别文本训练得到。
127.此外,领域样本语音的标签识别文本的确定步骤包括:
128.首先,将领域样本语音的语音特征输入至学生模型,得到学生模型输出的第一标签识别文本。同时,将领域样本语音的语音特征输入至通用语音识别模型,得到通用语音识别模型输出的第二标签识别文本。其中,通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且通用语音识别模型与学生模型的结构不同。
129.若领域样本语音的单位时长字符数小于字符阈值,则将第一标签识别文本作为标签识别文本;若否,则将第二标签识别文本作为领域样本语音的标签识别文本。其中,领域样本语音的单位时长字符数基于领域样本语音的语音时长,以及第一标签识别文本的字符数确定。
130.下面对本发明提供的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
131.基于上述任一实施例,本发明还提供一种语音识别装置,图9是本发明提供的语音识别装置的结构示意图,如图9所示,该装置包括:
132.语音确定单元910,用于确定待识别语音;
133.语音识别单元920,用于将待识别语音的语音特征输入至语音识别模型,得到语音识别模型输出的识别文本;
134.语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;
135.第一识别文本是学生模型基于领域样本语音的语音特征确定的,第二识别文本是教师模型基于领域样本语音的语音特征确定的,教师模型基于通用样本语音及其标签识别文本训练得到。
136.基于上述任一实施例,所述装置还包括:
137.第一识别单元,用于对所述领域样本语音的语音特征进行扰动,并将扰动后的领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的所述第一识别文本;
138.第二识别单元,用于将所述领域样本语音的语音特征输入至所述教师模型,得到所述教师模型输出的所述第二识别文本;
139.参数迭代单元,用于基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到所述语音识别模型;
140.所述学生模型的初始化参数基于所述通用样本语音及其标签识别文本迭代得到。
141.基于上述任一实施例,所述参数迭代单元,包括:
142.第一损失确定单元,用于基于领域样本语音的标签识别文本和第一识别文本之间的差异,确定第一损失值;
143.第二损失确定单元,用于基于所述第一识别文本和第二识别文本之间的差异,确定第二损失值;
144.迭代子单元,用于基于所述第一损失值和所述第二损失值,对所述学生模型进行参数迭代,得到所述语音识别模型。
145.基于上述任一实施例,所述装置还包括:
146.第一标签识别单元,用于将所述领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的第一标签识别文本;
147.第二标签识别单元,用于将所述领域样本语音的语音特征输入至通用语音识别模型,得到所述通用语音识别模型输出的第二标签识别文本;
148.标签确定单元,用于基于所述领域样本语音的语音时长,从所述第一标签识别文本和所述第二标签识别文本中确定所述领域样本语音的标签识别文本;
149.所述通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且所述通用语音识别模型与所述学生模型的结构不同。
150.基于上述任一实施例,所述标签确定单元,包括:
151.第一字符数确定单元,用于基于所述领域样本语音的语音时长,以及所述第一标签识别文本的字符数,确定所述领域样本语音的单位时长字符数;
152.标签确定子单元,用于若所述领域样本语音的单位时长字符数小于字符阈值,则将所述第一标签识别文本作为所述标签识别文本;若否,则将所述第二标签识别文本作为所述领域样本语音的标签识别文本。
153.基于上述任一实施例,所述装置还包括:
154.校正单元,用于在将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本之后,基于所述识别文本的字符数以及所述待识别语音的语音时长,对所述识别文本进行校正,得到校正文本。
155.基于上述任一实施例,所述校正单元,包括:
156.第二字符数确定单元,用于基于所述识别文本的字符数以及所述待识别语音的语音时长,确定所述待识别语音的单位时长字符数;
157.校正文本确定单元,用于若所述待识别语音的单位时长字符数大于等于字符阈
值,则将所述待识别语音的语音特征输入至通用语音识别模型,得到所述通用语音识别模型输出的通用识别文本,并以所述通用识别文本作为所述校正文本;
158.若所述待识别语音的单位时长字符数小于所述字符阈值,则将所述识别文本作为所述校正文本;
159.所述通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且所述通用语音识别模型与所述学生模型的结构不同。
160.图10是本发明提供的电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、存储器(memory)1020、通信接口(communications interface)1030和通信总线1040,其中,处理器1010,存储器1020,通信接口1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1020中的逻辑指令,以执行语音识别方法,该方法包括:确定待识别语音;将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。
161.此外,上述的存储器1020中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
162.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音识别方法,该方法包括:确定待识别语音;将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。
163.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音识别方法,该方法包括:确定待识别语音;将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定
的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。
164.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
165.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
166.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种语音识别方法,其特征在于,包括:确定待识别语音;将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型的训练步骤包括:对所述领域样本语音的语音特征进行扰动,并将扰动后的领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的所述第一识别文本;将所述领域样本语音的语音特征输入至所述教师模型,得到所述教师模型输出的所述第二识别文本;基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到所述语音识别模型;所述学生模型的初始化参数基于所述通用样本语音及其标签识别文本迭代得到。3.根据权利要求2所述的语音识别方法,其特征在于,所述基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到所述语音识别模型,包括:基于领域样本语音的标签识别文本和第一识别文本之间的差异,确定第一损失值;基于所述第一识别文本和第二识别文本之间的差异,确定第二损失值;基于所述第一损失值和所述第二损失值,对所述学生模型进行参数迭代,得到所述语音识别模型。4.根据权利要求1所述的语音识别方法,其特征在于,所述领域样本语音的标签识别文本的确定步骤包括:将所述领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的第一标签识别文本;将所述领域样本语音的语音特征输入至通用语音识别模型,得到所述通用语音识别模型输出的第二标签识别文本;基于所述领域样本语音的语音时长,从所述第一标签识别文本和所述第二标签识别文本中确定所述领域样本语音的标签识别文本;所述通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且所述通用语音识别模型与所述学生模型的结构不同。5.根据权利要求4所述的语音识别方法,其特征在于,所述基于所述领域样本语音的语音时长,从所述第一标签识别文本和所述第二标签识别文本中确定所述领域样本语音的标签识别文本,包括:基于所述领域样本语音的语音时长,以及所述第一标签识别文本的字符数,确定所述
领域样本语音的单位时长字符数;若所述领域样本语音的单位时长字符数小于字符阈值,则将所述第一标签识别文本作为所述标签识别文本;若否,则将所述第二标签识别文本作为所述领域样本语音的标签识别文本。6.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本,之后还包括:基于所述识别文本的字符数以及所述待识别语音的语音时长,对所述识别文本进行校正,得到校正文本。7.根据权利要求6所述的语音识别方法,其特征在于,所述基于所述识别文本的字符数以及所述待识别语音的语音时长,对所述识别文本进行校正,得到校正文本,包括:基于所述识别文本的字符数以及所述待识别语音的语音时长,确定所述待识别语音的单位时长字符数;若所述待识别语音的单位时长字符数大于等于字符阈值,则将所述待识别语音的语音特征输入至通用语音识别模型,得到所述通用语音识别模型输出的通用识别文本,并以所述通用识别文本作为所述校正文本;若所述待识别语音的单位时长字符数小于所述字符阈值,则将所述识别文本作为所述校正文本;所述通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且所述通用语音识别模型与所述学生模型的结构不同。8.一种语音识别装置,其特征在于,包括:语音确定单元,用于确定待识别语音;语音识别单元,用于将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。

技术总结
本发明提供一种语音识别方法、装置、电子设备和存储介质,所述方法包括:将待识别语音的语音特征输入至语音识别模型,得到语音识别模型输出的识别文本;语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;第一识别文本是学生模型基于领域样本语音的语音特征确定的,第二识别文本是教师模型基于领域样本语音的语音特征确定的,教师模型基于通用样本语音及其标签识别文本训练得到。本发明提供的语音识别方法、装置、电子设备和存储介质,在特定领域场景下能够准确进行语音识别。在特定领域场景下能够准确进行语音识别。在特定领域场景下能够准确进行语音识别。


技术研发人员:杨军 方磊 桑宏报 胡鹏 何雪 周振昆 宣璇 方四安 柳林
受保护的技术使用者:合肥讯飞数码科技有限公司
技术研发日:2022.03.15
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-15880.html

最新回复(0)