一种文本顺滑的语音识别方法、系统及存储介质与流程

allin2024-04-04 154

1.本发明涉及语音识别技术领域，特别涉及一种文本顺滑的语音识别方法、系统及存储介质。

背景技术：

2.语音识别作为人机交互的一个重要入口，现已被广泛应用于各类场景，例如语音输入、语音搜索、语音翻译、智能家居等等。其中某些场景对在线识别的实时性有着较高的要求，如语音控制，会议纪要等
3.自动语音识别得到的文本中往往含有大量不流畅的现象，这些不流畅现象会对后面的自然语言理解系统造成严重干扰。文本顺滑任务作为语音识别系统和自然语言理解系统之间的一个任务，是对语音识别后的文本不顺滑现象进行检测。经过顺滑后的文本不仅能有效提高语音识别后文本的可阅读性，且能减少对后续自然语言处理任务的干扰。
4.现有的语音识别方法没有考虑到序列生成算法解码时的不可控性，顺滑后的文本忠诚度和流畅度不够，另外生成系列到系列模型通常有重复片段的系列生成，使得顺滑后的句子或多或少的改变着口语文本原有的含义，使得语音识别结果不够准确，或可读性不强，难以满足复杂场景的需求。

技术实现要素：

5.鉴于上述的分析，本发明旨在提供一种文本顺滑的语音识别方法、系统及存储介质；解决现有技术中语音识别方法无法满足复杂场景的需求，且生成的口语转写文本忠诚度和流畅度不高的问题。
6.本发明的目的主要是通过以下技术方案实现的：
7.一方面，本发明提供了一种文本顺滑的语音识别方法，包括以下步骤：
8.获取待识别语音；
9.将待识别语音转换为待顺滑文本；
10.将转换得到的待顺滑文本利用文本顺滑模型得到识别后的顺滑文本；其中，文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前不顺滑文本对应的顺滑文本；不顺滑有序标签通过不顺滑标签预测任务采用crf方法预测得到；顺滑文本通过顺滑文本生成任务采用集束搜索方法搜索得到。
11.进一步的，将待识别语音转换为待顺滑文本，包括，使用基于wav2vec2.0模型的参数微调方法进行语音识别，wav2vec2.0模型包括特征提取层、上下文编码层和输出层三部分；特征提取层使用多层卷积网络实现语音帧级别的特征提取；上下文编码层用于提取帧间的关联特征，输出层使用预训练的语言模型输出语音识别后的待顺滑文本；
12.进一步的，文本顺滑模型使用t5-base的预训练模型作为初始模型进行模型训练得到，包括输入层、编码器-解码器层和输出层；
13.编码器使用t5原生的基于自注意力机制的编码模型；根据输入的不顺滑文本得到
具有不流畅文本上下文表示的隐向量；
14.解码器用于根据编码器隐向量，通过注意力计算，得到目标文本单词概率分布；
15.输出层包括所述不顺滑标签预测和所述顺滑文本生成任务；用于输出不顺滑标签序列和顺滑文本。
16.进一步的，所述模型训练包括：
17.通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充，得到扩充后的训练样本集合；
18.利用训练样本集合对初始模型进行训练，并使用损失函数进行梯度更新，得到文本顺滑模型。
19.进一步的，构造包含伪标签的不顺滑语料对，包括：构造只包含“filter”类别的语料对、构造只包含“restart”类别的语料对和构造同时包含“filter”和“restart”类别的语料对；其中，
20.使用语气词集合，随机插入到原语句的任意位置，以构造得到只包含“filter”类别的语料对；
21.随机从原始语句中选择一个文本片段，插入到该片段前的邻接位置，以构造得到只包含“restart”类别的语料对；
22.对同一语句依次执行构造只包含“filter”类别的语料对和构造只包含“restart”类别的样本流程，构造出同时包含“filter”和“restart”类别的语料对；
23.构造不包含标签的扩充语料对包括，将原语料库中不包含标签的语料对输入到相似文本扩展模型，得到与原句相似的文本，构造出不含标签的扩充语料对。
24.进一步的，损失函数包括标签序列识别的损失函数、目标文本生成的损失函数以及两者结合的损伤函数，其中；
25.标签序列识别的损失函数为：
[0026][0027]srealpath
为输入文本的真实标签路径，为某个时刻所有标签的总得分，是某个时刻标签为i的得分；指第i个词被标记为zi的概率；表示从标签zi到z
i+1
的转移概率；η为crf权重；
[0028]
目标文本生成的损失函数为：
[0029][0030]
λ为平衡参数，δ为coverage的权重参数，为时间步t时刻的目标词；
[0031]
两者结合后的损失函数：
[0032]
l(x,y,z|θ)＝(1-β)l(x,y|θ)+βl(x,z|θ)
[0033]
其中，β为加权因子。
[0034]
进一步的，模型训练过程中，引入coverage机制，包括：
[0035]
解码器在注意力计算过程中，将当前时间步之前的注意力分数求和，得到覆盖特征向量c
t
；将c
t
作为计算注意力的输入时有，
[0036][0037]
其中，c
t
为当前时间步t之前的所有解码时间步输出的注意力分数之和，a
t
′
为在解码过程中，第t’步的注意力分数；
[0038]
解码器采用下述公式计算带覆盖机制的注意力分布：
[0039][0040]
其中，v、wh、ws、wc、b为可学习的参数；为覆盖特征向量。
[0041]
进一步的，模型训练过程中，引入copy机制，将解码器每步生成的单词概率分布与拷贝原文的单词概率看做一个混合模型，利用注意力得分作为拷贝单词的概率，其中，利用下述公式计算目标文本单词的概率分布：
[0042][0043][0044][0045]
其中，p(w)为最终的目标文本单词概率分布，p
gen
为复制输入序列的单词概率，p
vocab(w)
为词汇表中生成的单词概率分布，w为任意一个词，为输入序列中所有等于w的词所在的时间步t对应a
t
相应维度的概率值，a
t
为注意力分布，即a
t
＝softmax(e
t
)，e
t
为归一化之前的注意力分布；为编码器的上下文编码向量，hi为编码器隐状态，s
t
为解码器状态，b
ptr
、v
′
、v、b、b
′
为可学习的参数。
[0046]
另一方面，还提供了一种文本顺滑系统，包括语音识别装置和文本顺滑装置；
[0047]
语音识别装置，用于识别语音数据流，并生成原始的口语转写文本；
[0048]
文本顺滑装置，包括文本顺滑系统和辅助标注系统，文本顺滑系统，用于将原始的口语转写文本经过顺滑文本生成，得到顺滑文本；辅助标注系统，用于将语音转写文本经过不流畅检测，得到不顺滑标签序列。
[0049]
第三方面，还提供了一种计算机可读存储介质，存储介质存储有计算机指令，指令用于被计算机执行以实现前述的文本顺滑的语音识别方法。
[0050]
本技术方案的有益效果：
[0051]
本发明引入不流畅序列标签标注任务和流畅文本生成两个任务，能够满足辅助标注和顺滑生成的复杂场景需求，进一步减少了获取大量标记数据耗费的人力成本、时间成本，并且模型具有较强的文本顺滑能力。
[0052]
本发明引入忠诚度和流畅度提升策略及抑制重复片段生成策略，使得生成的顺滑后的文本在不改变原有含义的前提下可阅读性更强。
[0053]
本发明的关键技术点：
[0054]
1.通过构造包含伪标签的训练样本和构造不含标签的扩充训练样本，对原有样本进行扩充，很大程度上增强了训练样本集合。
[0055]
2.引入特殊符号《rm/》用来填充目标序列中不顺滑的空缺位，降低了顺滑模型学习难度并让模型更关注序列本身的上下文语义。
[0056]
3.引入不流畅序列标签标注任务和流畅文本生成两个任务，能满足辅助标注和顺滑生成的复杂场景需求，进一步减少了获取大量标记数据耗费的人力成本、时间成本，并且模型具有比较强的文本顺滑能力。
[0057]
4.引入忠诚度和流畅度提升策略及抑制重复片段生成策略，使得生成的顺滑后的文本在不改变原有含义的前提下可阅读性更强。
[0058]
本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0059]
附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。
[0060]
图1为本发明实施例的文本顺滑的语音识别方法的流程图。
[0061]
图2为本发明实施例的文本顺滑模型结构图。
[0062]
图3为本发明实施例的训练架构图。
[0063]
图4为本发明实施例文本顺滑的语音识别系统。
具体实施方式
[0064]
下面结合附图来具体描述本发明的优选实施例，其中，附图构成本技术一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。
[0065]
本发明的技术构思：本发明提出一种基于无监督预训练模型t5-base的多任务fine-tuning文本顺滑模型和训练方法。在样本构造方面，通过扩充顺滑和不顺滑样本集，增加样本多样性；多任务神经网络模型实现不流畅序列标签标注任务和流畅文本生成两个任务，可以在文本不流畅检测的同时也能得到顺滑之后的文本；在训练阶段，使用多任务联合学习方法去做参数微调，得到文本顺滑模型权重。其中，针对流畅文本生成不可控的问题引入缓解机制copy机制和coverage机制，提升顺滑后文本的忠诚度和流畅度。模型利用集束搜索选择最优的顺滑文本序列，利用crf选择最优的标签序列，在真实的数据集上进行验证，辅助序列标注任务并实现在语音转写真实场景中符合规范的文本书面语。
[0066]
本实施例中的一种文本顺滑的语音识别方法，如图1所示，包括以下步骤：
[0067]
步骤s1、获取待识别语音；具体的，待识别语音可以为任意语种的语音数据，经过语音识别装置可同时实现语种识别和有效话音识别。
[0068]
步骤s2、将待识别语音转换为待顺滑文本；
[0069]
具体的，可以使用基于wav2vec2.0模型的参数微调方法进行语音识别，并输出原始的口语转写文本；该模型包括特征提取层、上下文编码层和输出层三部分；特征提取层使用多层卷积网络实现语音帧级别的特征提取；上下文编码层使用wav2vec2.0模型中基于自
注意力机制的transformer网络，用于提取语音各个帧间的权重和特征；最后输出层则使用预训练的语言模型来提高识别的准确率，包括，基于语种识别和有效话音识别任务，对wav2vec2.0模型输出层和损失函数进行调整，使用全连接网络将提取的权重和特征变换到对应任务的label维度，同时输出语音识别结果。
[0070]
步骤s3、利用文本顺滑模型进行识别，具体包括采用crf方法预测得到不顺滑有序标签，并采用集束搜索方法搜索得到顺滑文本。
[0071]
文本顺滑模型使用t5-base的预训练模型作为初始模型进行模型训练得到；
[0072]
如图2所示，本实施例的文本顺滑模型包括输入层、encoder-decoder层和输出层三部分；encoder和decoder均由12个t5block堆叠而成；在encoder阶段，每个t5block中包含selfattention、layernorm和densereludense 3部分；在decoder阶段，除encoder的t5block中已有模块，还增加了crossattention和layernorm模块，用来与encoder的隐输出一起计算相似权重，以发现与输入不顺滑文本的潜在关联，加强解码的特征表示能力。对于标签预测任务，经过decoder得到的解码特征经过全连接转换为输入序列到标签的概率分布，然后经过crf的标签预测得到每个输入序列的标签。对于顺滑文本生成任务，上述解码特征经过copy机制转换到词表和拷贝原词的联合概率表示，对此使用集束搜索得到最终的顺滑文本；
[0073]
具体的，输入层接受不顺滑文本的输入source＝《x1,x2……
x
l
》，并使用ev×d表示其特征，其中v、d分别为不顺滑文本的词表大小和词嵌入的特征维度。
[0074]
中间层使用编码器、解码器的结构，用于提取文本的上下文信息。
[0075]
输出层包含2个并列的子任务：标签预测任务和顺滑文本生成任务；标签预测任务使用条件随机场(conditional random field，crf)预测标签序列，即tag＝《z1,z2……zl
》；文本生成任务使用语言模型解码得到最终的顺滑文本，即target＝《y1,y2……
ym》；其中l为原始序列长度，m为目标序列长度，xi为原始句子序列化后的第i个序列单元，zi是第i个单元的标签，yj是目标句子中第j个单元，0《i≤l，0《j≤m；输出层的两个子任务共享中间层的参数。
[0076]
特别的，对于顺滑文本生成任务，本实施例使用《/rm》对不顺滑位置进行填充。
[0077]
作为一个具体的实施例：
[0078]
对于输入层：引入特殊词“《/rm》”后，使用e’(v+1)
×d替代ev×d表示词嵌入特征，该特征随模型训练得到合适的词向量；根据输入的不顺滑文本，经过分词后找到对应的词向量作为该层的输出。
[0079]
对于中间层，包括：
[0080]
(1)编码器：本方案编码器使用t5原生的基于自注意力机制的编码模型，输入的原始不流畅文本经过自注意力机制，得到具有不流畅文本上下文表示的隐向量h，即h＝f
encoder
(x1,x1…
x
l
)；
[0081]
(2)解码器：
[0082]
不同于摘要生成任务，实际的语音识别系统中，对于顺滑后的文本要求忠诚于顺滑前的文本，为了提高这种忠诚度，本方案在解码器引入了copy机制，以提高顺滑文本的忠诚度和流畅度。
[0083]
前述的copy机制，即将每步生成出的单词概率分布与拷贝原文的单词概率看做一
个混合模型，利用注意力得分作为拷贝单词的概率：
[0084][0085][0086][0087]
其中，p(w)为最终的目标文本单词概率分布，p
gen
为复制输入序列的单词概率，p
vocab(w)
为词汇表中生成的单词概率分布，w为任意一个词，为输入序列中所有等于w的词所在的时间步t对应a
t
相应维度的概率值，a
t
为注意力分布，即a
t
＝softmax(e
t
)，e
t
为归一化之前的注意力分布；为编码器的上下文编码向量，hi为编码器隐状态，为解码器状态，b
ptr
、v
′
、v、b、b
′
为可学习的参数。
[0088]
另外，生成序列到序列模型通常有重复片段的序列会被生成，为了抑制重复片段生成，在解码器的注意力计算过程中，引入了coverage机制，该机制的目的主要是对已经生成的词进行抑制，防止生成重复的词；将当前时间步之前的注意力分数求和，得到覆盖特征向量c
t
；将其作为计算注意力的输入，这有助于在计算注意力权重时避免重复的词出现；将c
t
作为计算注意力的输入时有：
[0089][0090]ct
为新引入的覆盖特征向量，是当前时间步t之前的所有解码时间步输出的注意力分数之和；a
t
′
为在解码过程中，第t’步的注意力分数；解码器采用下述公式计算带覆盖机制的注意力分布：
[0091][0092]
表1为重复片段生成示例，采用本实施例的coverage机制后，可以很好的抑制这种重复现象。
[0093]
表1重复片段生成示例
[0094]
[0095][0096]
对于输出层，包括标签预测任务和顺滑文本生成任务；
[0097]
标签预测任务：对于检测不顺滑位置的目的，使用条件随机场(conditional random field，crf)来预测不顺滑标签序列，在crf中，输入的x作为观测序列输入，标签序列z为状态序列，对给定x条件下z的条件概率分布p(z|x)进行建模，crf的目标求使目标函数最大化的最优序列。crf在训练阶段，学习p(z|x)中蕴含的观测特征权重和状态特征权重，用训练好的crf模型预测(解码)时，使用动态规划的维特比(viterbi)算法来求解最优路径，即找出一条概率最大最可能的状态序列，即可得到输出序列z；
[0098]
顺滑文本生成任务：常用的顺滑文本生成方法为贪心法，贪心法是对decoder的输出直接取每个词的最大概率作为最终的顺滑文本；本发明使用集束搜索(beamsearch)方法搜索出最优的目标顺滑文本。
[0099]
集束搜索是一种常用的最佳序列结果的寻找方法；不同于贪心搜索，集束搜索是站在整个词序列整体的角度上使其概率最大化，集束搜索的方法中设有集束宽(beam width)参数，是指在生成每个结果yi时，会考虑集束宽个候选结果，本方案中集束宽设为3；具体地，使用集束搜索方法的最终目标结果的概率表示为：
[0100][0101]
其中，t为结果序列输出当前时间步，ty为结果序列的长度，上式中除以ty是为了缓解集束搜索偏向更短的句子，而α则是为了缓和除以ty的影响，α取0.5。
[0102]
最大化上式则表示为
[0103]
本方案解码器的目的即为获得使概率p(y1,y2…yn
)最大化所对应的结果序列y1,y2…yn
。
[0104]
图3为本发明实施例的训练架构图，模型训练包括：
[0105]
训练样本构造，即通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充
语料对对样本进行扩充，得到扩充后的训练样本集合；
[0106]
利用训练样本集合对初始模型进行训练，并使用损失函数进行梯度更新，得到文本顺滑模型。
[0107]
常见的语音识别文本不流畅现象主要包括“filter”和“restart”两类；其中，“filter”主要是指句子中没有实际含义的词，通常是语气词或呼应性的词，这些词对句子含义没有任何贡献
[0108]
而“restart”指口语中存在的重复、冗余、修正或不完整词语的替换插入等，这类不顺滑现象复杂多样，无法穷举，是顺滑任务的难点。
[0109]
前述的训练样本构造方法，本实施例以switchboard数据集为例：
[0110]
首先，定义w1为“filter”类别不顺滑的文本词集合，该集合通过统计switchboard的所有出现的《e/》对应的字和词获得，《e/》为标记出现语气词的不顺滑序列位置的标签；
[0111]
定义d为原始的switchboard数据集，d＝d1+d2，其中d1为包含不顺滑标签的语料对集合，d2为不包含标签的语料对集合；
[0112]
定义扩充后最终的训练语料集合d'＝d1+d2+d1'+d2'，其中d1'为包含伪标签的不顺滑语料对集合，d2'为不包含标签的扩充语料对集合；
[0113]
定义li为第i个句子的长度。
[0114]
训练样本构造包括如下步骤：
[0115]
(1)标签定义：为了简化不顺滑文本的标签识别难度，将原始的switchboard数据中的标签做了如下标签转换，以达到标签优化的目的；
[0116]
在不流利检测任务中，针对“filter”和“restart”这两类不顺滑语句，swbd使用“《e/》”和“《rm-n/》《rpendsub/》”、“《rm-n/》《rpmid/》”、“《rpendsub/》”来标记不顺滑的序列位置，使用“《f/》”标记顺滑的位置。其中《rm-n》中的n配合rm标签用来指向被替换文本，表示从当前位置算起前n个的序列为被替换文本。《rpmid/》表示替换文本的起始或中间标记，《rpendsub/》表示替换文本的结束标记。
[0117]
对于模型来说，swbd这种标签结构复杂，学习难度大，为了方便crf训练，本方案使用“b-《e/》”、“i-《e/》”、“b-《rm/》”、“i-《rm/》”、“o”来表示不顺滑序列，其中，“b-《e/》”表示语气词所在起始位置，“i-《e/》”表示语气词的中间和结束；“b-《rm/》”表示冗余字词起始位置，“i-《rm/》”表示冗余字词中间和结束位置；“o”表示顺滑的位置。
[0118]
不顺滑检测就是预测出输入文本的这些标签序列，然后根据标签及其位置去检测不流畅的文本位置，这将有助于智能文本处理系统的辅助标注工作的实现。
[0119]
表2展示了对swbd原始标签的转化结果；
[0120]
表2swbd构造前后样本对比
[0121][0122]
(2)构造包含伪标签的不顺滑语料对集合d1'：
[0123]
首先，获取一批流畅的口语文本，去除文本中的标点符号，然后按照3：3：4的比例随机分为3份文本集合分别作为只包含“filter”、只包含“restart”以及同时包含“filter”和“restart”的原始构造样本，通过样本构造得到扩充后包含伪标签的“filter”类别的样本集合d
filter
、“restart”类别样本集合d
restart
和同时包含“filter”和“restart”的样本集合d
filter_restart
；
[0124]
对于“filter”类型不顺滑，其不顺滑部分通常是可以穷举的，使用w1中有限的词集合，随机插入到li个任意位置，得到d
filter
；
[0125]
对于“restart”类不顺滑：随机从原始句子中选择一个文本片段，插入到该片段的前边邻接位置，得到d
restart
；
[0126]dfilter_restart
数据集，通过依次执行上述“filter”类型和“restart”类型的构造流程，得到同时包含“filter”和“restart”的样本集合；
[0127]
(3)构造不包含标签的扩充语料对集合d2'：将switchboard数据集中不包含标签的语料对集合d2中的原句输入到相似文本扩展模型，得到多个与原句相似的文本，作为新的样本加入不包含标签的扩充语料对集合d2'；
[0128]
(4)训练样本筛选：扩充后的样本集合d'中包含大量的脏数据，本发明使用训练好的kenlm语言模型得到目标句子的流畅度得分，该得分反映了该句子是否属于正常的表达方式，以此作为依据筛出掉部分不流畅的样本。
[0129]
需要说明的是，原始的swbd(switchboard数据集)已经划分好了训练集、开发集和测试集。在训练样本构造过程中，训练集和开发集按照上述样本构造流程进行样本扩充，测试集除了标签做转化外其他均不做改变。表3和表4分别展示了swbd构造前和构造后的样本统计情况。
[0130]
表3原始swbd数据集样本数和标签数统计
[0131][0132]
表4扩充后训练样本数和标签数统计
[0133][0134]
根据表3可以看出swbd数据中大部分样本不包含不顺滑标签。对于无不顺滑标签的数据，本实施例首先依次使用英-中、中-英的翻译引擎进行数据增强；然后将不带标签的数据，构造为包含伪标签的数据。
[0135]
作为一个具体的实施例，构造包含伪标签的数据的方法还包括：
[0136]
根据swbd数据集，统计“口语语气词-词频”表，选取概率大于0.7的语气词，随机插入原语句中某个分词后的位置；
[0137]
利用训练样本中的翻译语料，将原始语句分词，随机选取分词后的词组进行重复，插入选择重复的词后面；
[0138]
由于原词与可修正的词非常相似，模拟需要置换的词语，插入原词后面，使用eda(easy data augmentation)方法进行同义词替换(synonyms replace,sr)，得到新的不顺滑语句；
[0139]
由此，经过处理后，训练数据增多了2倍多，用以缓解样本不均衡带来的过拟合和模型准确率差的问题。表4展示了增强后的训练样本统计信息。
[0140]
如图3所示，本实施例的文本顺滑模型是基于t5-base的预训练模型做多任务训练，训练完成后，得到文本顺滑模型权重。
[0141]
本方案使用t5-base的预训练模型作为初始模型，具体的只对编码器部分使用t5-base的编码器权重进行初始化；本方案的原始文本词表使用t5-base开源预训练模型的词表。顺滑文本生成的目标文本长度通常与原始文本长度会有不同，这对模型学习有一定的难度，为了降低学习难度并让模型更关注序列本身的上下文语义，本方案在解码端词表中引入新词《rm/》，目标序列在该词表最后追加《rm/》特殊词作为目标文本的词表，用来填充目标序列中不顺滑的空缺位。
[0142]
词表的长度作为模型构建之前的超参数，其长度的变更意味着要重新训练模型，由于本方案的词表使用了t5预训练模型中的词表，而该词表中并不包含标记《rm/》，为此本方案将《rm/》追加到t5词表的末尾，并在训练时不加载预训练模型中的decoder输出层的权
重，以此既能保证《rm/》前面所有的词的权重空间不受较大影响，同时保证了《rm/》在顺滑模型训练过程中连同其他词的权重一起调整。
[0143]
本发明基于pytorch开源框架对文本顺滑多任务模型进行构建；源文本词表使用t5-base中的词表，大小为32128；目标文本词表为32129；在整个训练过程中，使用下述的损失函数进行梯度更新，α取经验值0.5；训练数据迭代次数20，损失为0.05左右停止训练；
[0144]
定义x,y,z分别为原始句子、目标句子和原始句子标签序列；
[0145]
定义标签预测任务的损失函数为：
[0146][0147]srealpath
为输入文本的真实标签路径，为某个时刻所有标签的总得分，是某个时刻标签为i的得分；指第i个词被标记为zi的概率；表示从标签zi到z
i+1
的转移概率；η为crf参数；
[0148]
定义顺滑文本生成任务的损失函数为：
[0149][0150]
λ为平衡参数，本实施例中λ取值为1；δ为coverage的权重参数，为时间步t时刻的目标词，该损失的好处在于对于每个注意力分布和当前的覆盖之间的重叠进行惩罚，能抑制重复的注意力；
[0151]
定义整个文本顺滑任务的损失函数为：
[0152]
l(x,y,z|θ)＝(1-β)l(x,y|θ)+βl(x,z|θ)；
[0153]
引入加权因子β来平衡两个任务的输出，由于顺滑文本生成任务比标签预测任务更复杂，为了在使用损失函数进行梯度更新过程中使较难的任务权重占比更高，本实施例中β取值为0.2，这样更有利于两个任务向同一个方向收敛。
[0154]
表5为训练语料顺滑结果示例，经过不流畅检测和文本顺滑任务，将输入文本中不流畅的部分检测出来，然后通过删除操作，得到标签序列和顺滑文本序列。
[0155]
表5训练语料示例
[0156][0157]
训练结果对比如表6所示，从表中可以看出使用本方案的t5-base+multitask多任务顺滑方案得到的标签预测结果和顺滑后文本的效果都有不同程度的提升。
[0158]
表6文本顺滑装置训练结果对比
[0159]
模型标签f1顺滑后文本bleu
transformer+crf89.24％87.31transformer+dp*90.70t5-base+crf93.71％91.36t5-base+dp*96.0t5-base+multitask95％96.6
[0160]
需要说明的是，预训练任务是预测与输入文本对应的字词来获得对口语文本信息的增强表示，以此作为初始参数去对下游的任务进行参数微调，使得下游的任务有更好的性能。在本方案中，为了加快模型收敛，提高模型识别准确率，使用开源的t5预训练模型作为初始模型，并在模型初始化阶段不加载原始t5输出层的线性词表层，大大提高了训练效率和文本预测的准确性。
[0161]
本发明的另一个实施例，如图4所示，提供了一种语音识别系统，包括语音识别装置和文本顺滑装置；
[0162]
语音识别装置，用于识别语音数据流，并生成原始的口语转写文本；
[0163]
文本顺滑装置，包括文本顺滑系统和辅助标注系统，文本顺滑系统，用于将原始的口语转写文本经过顺滑文本生成，得到顺滑文本；辅助标注系统，用于将语音转写文本经过不流畅检测，得到不顺滑标签序列。
[0164]
表7为文本顺滑的语音识别系统的实施结果，从实施结果可以看出，本发明的文本顺滑的语音识别方法能够很好的预测口语转写识别文本的不顺滑位置，且得到的顺滑文本更加流畅，可阅读性更强。
[0165]
表7文本顺滑的语音识别系统实施结果
[0166][0167][0168]
本发明的第三个实施例，还提供了一种计算机可读存储介质，存储介质中存储有计算机指令，存储的计算机指令用于被计算机执行以实现前述实施例的文本顺滑的语音识
别方法。
[0169]
本方案引入不流畅序列标签标注任务和流畅文本生成两个任务，能满足辅助标注和顺滑生成的复杂场景需求，进一步减少了获取大量标记数据耗费的人力成本、时间成本，并且模型具有比较强的文本顺滑能力。因此，本发明是有意义的。表7中例举了本方案的实施效果，从表中可以看到针对不同长短的英文口语数据，对于冗余、无意义词语能有效的标记出来，并且生成的顺滑后的文本再不改变原有含义的前提下可阅读性更强。
[0170]
综上所述，本发明提出的一种文本顺滑的语音识别方法、系统和计算机设备，结合不流利检测和文本顺滑的多任务学习方法，该方法不需要手动提取特征、直接输入口语文本数据，在文本顺滑的同时能检测出不顺滑的位置，能够满足辅助标注和顺滑生成的复杂场景需求；进一步减少了获取大量标记数据耗费的人力成本、时间成本，能够满足实际场景中文本顺滑任务，节省了时间和空间成本。
[0171]
本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
[0172]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

技术特征：
1.一种文本顺滑的语音识别方法，其特征在于，包括以下步骤：获取待识别语音；将所述待识别语音转换为待顺滑文本；将转换得到的所述待顺滑文本利用文本顺滑模型得到识别后的顺滑文本；其中，所述文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前所述不顺滑文本对应的顺滑文本；所述不顺滑有序标签通过不顺滑标签预测任务采用crf方法预测得到；所述顺滑文本通过顺滑文本生成任务采用集束搜索方法搜索得到。2.根据权利要求1所述语音识别方法，其特征在于，所述将所述待识别语音转换为待顺滑文本，包括：使用基于wav2vec2.0模型的参数微调方法进行语音识别，所述wav2vec2.0模型包括特征提取层、上下文编码层和输出层三部分；所述特征提取层使用多层卷积网络实现语音帧级别的特征提取；所述上下文编码层用于提取帧间的关联特征，所述输出层使用预训练的语言模型输出语音识别后的待顺滑文本。3.根据权利要求1或2所述的语音识别方法，其特征在于，所述文本顺滑模型使用t5-base的预训练模型作为初始模型进行模型训练得到，包括输入层、编码器-解码器层和输出层；所述编码器使用t5原生的基于自注意力机制的编码模型；根据输入的不顺滑文本得到具有不流畅文本上下文表示的隐向量；所述解码器用于根据编码器隐向量，通过注意力计算，得到目标文本单词概率分布；所述输出层包括所述不顺滑标签预测和所述顺滑文本生成任务；用于输出不顺滑标签序列和顺滑文本。4.根据权利要求3所述语音识别方法，其特征在于，所述模型训练包括：通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充，得到扩充后的训练样本集合；利用所述训练样本集合对所述初始模型进行训练，并使用损失函数进行梯度更新，得到所述文本顺滑模型。5.根据权利要求4所述的语音识别方法，其特征在于，所述构造包含伪标签的不顺滑语料对，包括：构造只包含“filter”类别的语料对、构造只包含“restart”类别的语料对和构造同时包含“filter”和“restart”类别的语料对；其中，使用语气词集合，随机插入到原语句的任意位置，以构造得到所述只包含“filter”类别的语料对；随机从原始语句中选择一个文本片段，插入到该片段前的邻接位置，以构造得到所述只包含“restart”类别的语料对；对同一语句依次执行构造所述只包含“filter”类别的语料对和构造所述只包含“restart”类别的样本流程，构造出同时包含“filter”和“restart”类别的语料对；所述构造不包含标签的扩充语料对包括，将原语料库中不包含标签的语料对输入到相似文本扩展模型，得到与原句相似的文本，构造出不含标签的扩充语料对。6.根据权利要求4所述的语音识别方法，其特征在于，所述损失函数包括标签序列识别的损失函数、目标文本生成的损失函数以及两者结合的损伤函数，其中；标签序列识别的损失函数为：
s
realpath
为输入文本的真实标签路径，为某个时刻所有标签的总得分，是某个时刻标签为i的得分；指第i个词被标记为z
i
的概率；表示从标签z
i
到z
i+1
的转移概率；η为crf权重；目标文本生成的损失函数为：λ为平衡参数，δ为coverage的权重参数，为时间步t时刻的目标词；两者结合后的损失函数：l(x,y,z|θ)＝(1-β)l(x,y|θ)+βl(x,z|θ)；其中，β为加权因子。7.根据权利要求3所述的语音识别方法，其特征在于，所述模型训练过程中，引入coverage机制，包括：所述解码器在注意力计算过程中，将当前时间步之前的注意力分数求和，得到覆盖特征向量c
t
；将c
t
作为计算注意力的输入时有，其中，c
t
为当前时间步t之前的所有解码时间步输出的注意力分数之和，a
t
′
为在解码过程中，第t’步的注意力分数；所述解码器采用下述公式计算带覆盖机制的注意力分布：其中，v、w
h
、w
s
、w
c
、b为可学习的参数；为覆盖特征向量。8.根据权利要求3所述的语音识别方法，其特征在于，所述模型训练过程中，引入copy机制，将解码器每步生成的单词概率分布与拷贝原文的单词概率看做一个混合模型，利用注意力得分作为拷贝单词的概率，其中，利用下述公式计算目标文本单词的概率分布：注意力得分作为拷贝单词的概率，其中，利用下述公式计算目标文本单词的概率分布：注意力得分作为拷贝单词的概率，其中，利用下述公式计算目标文本单词的概率分布：其中，p(w)为最终的目标文本单词概率分布，p
gen
为复制输入序列的单词概率，p
vocab(w)
为词汇表中生成的单词概率分布，w为任意一个词，为输入序列中所有等于w的词所在的时间步t对应a
t
相应维度的概率值，a
t
为注意力分布，即a
t
＝softmax(e
t
)，e
t
为归一
化之前的注意力分布；为编码器的上下文编码向量，h
i
为编码器隐状态，s
t
为解码器状态，b
ptr
、v
′
、v、b、b
′
为可学习的参数。9.一种文本顺滑的语音识别系统，其特征在于，包括语音识别装置和文本顺滑装置；所述语音识别装置，用于识别语音数据流，并生成原始的口语转写文本；所述文本顺滑装置，包括文本顺滑系统和辅助标注系统，所述文本顺滑系统，用于将所述原始的口语转写文本经过顺滑文本生成，得到顺滑文本；所述辅助标注系统，用于将语音转写文本经过不流畅检测，得到不顺滑标签序列。10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机指令，所述指令用于被计算机执行以实现权利要求1-8任一项所述的文本顺滑的语音识别方法。

技术总结
本发明涉及一种文本顺滑的语音识别方法、系统及存储介质，属于语音识别技术领域；解决了语音识别后输出的口语转写文本阅读性不强和忠诚度不高的问题；本发明的文本顺滑的语音识别方法包括：获取待识别语音；将待识别语音转换为待顺滑文本；将转换得到的待顺滑文本利用文本顺滑模型得到识别后的顺滑文本；其中，文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前不顺滑文本对应的顺滑文本；不顺滑有序标签通过不顺滑标签预测任务采用CRF方法预测得到；顺滑文本通过顺滑文本生成任务采用集束搜索方法搜索得到；本发明的语音识别方法解决了现有语音识别技术中识别结果不够准确，可读性不强，难以满足复杂场景的需求的问题。需求的问题。需求的问题。

技术研发人员：陈玮冯少辉张建业
受保护的技术使用者：北京中科智加科技有限公司
技术研发日：2022.03.17
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-12972.html

专利

最新回复(0)