一种基于多模态深度学习语言行为对话策略方法与流程

allin2026-02-26 31

本发明涉及数据处理，尤其涉及一种基于多模态深度学习语言行为对话策略方法。

背景技术：

1、银行卡号语音识别是智能客户系统的关键功能，当前的语音识别系统主要基于循环神经网络模型，在处理一般语音任务时表现良好；在面对银行卡号这种16到19位的复杂数字序列时，难以兼顾数字识别的准确性和结果的可靠性；客户通常会采用分组方式读出，例如读出的复杂数字序列为“1234 8010 2277 1234”，不同客户的分组方式存在差异，且客户的口音、语速、不规则停顿和背景噪音等都会对语音识别产生一定的影响，因此目前通过神经网络进行单一模态的语音识别的准确性较低。

2、公开号为cn111462733b的专利公开了多模态语音识别模型训练方法，通过多模态数据，例如图像数据和语音信号作为训练样本来训练语音识别模型，从而提高语音识别的准确性，但该方法中语音识别部分仍然无法克服客户口音和不规则停顿产生的干扰，且只考虑了图像数据和语音信号等两个模态数据，语音识别的准确性仍然有待提高。

技术实现思路

1、有鉴于此，本发明实施例提供了一种基于多模态深度学习语言行为对话策略方法，以解决目前单一模态语音识别准确性较差的问题。

2、本发明实施例中提供了一种基于多模态深度学习语言行为对话策略方法，该一种基于多模态深度学习语言行为对话策略方法包括以下步骤：

3、获取用户输入的复杂语音文本，并将所述复杂语音文本进行分组，得到一个或多个语音数据组；

4、将所述语音数据组输入预训练的语音识别网络中，根据所述语音识别网络对所述语音数据组进行组内注意力机制分析，确定所述语音数据组的组内上下文向量；

5、获取每个所述语言数据组的位置编码，并基于所述位置编码和所述组内上下文向量，对所述语音数据组进行组间注意力机制分析，得到所述复杂语音文本对应的全局上下文向量；

6、根据所述全局上下文向量，得到所述语音识别网络输出的识别信息，并根据所述识别信息获取识别置信度，所述识别信息包括所述语音数据的校验概率、一个或多个候选识别结果以及每个所述候选识别结果的预测概率；

7、获取文本模态和图像模态各自对应的特征数据，基于所述识别置信度，将所述识别信息与所述文本模态和所述图像模态各自对应的特征数据进行多模态融合，确定所述用户输入的复杂语音文本的目标识别结果；其中所述文本模态的特征数据基于用户输入文本提取得到，所述图像模态的特征数据基于用户提供的图像提取得到。

8、优选地，所述根据所述语音识别网络对所述语音数据组进行组内注意力机制分析，确定所述语音数据组的组内上下文向量，包括：

9、根据所述语音识别网络对所述语音数据组进行编码处理，得到所述语音数据组的分组编码，所述分组编码包括所述语音数据组中每个数据元素的隐藏状态；

10、根据所述语音数据组中每个数据元素的隐藏状态和所述语音识别网络中的第一可学习参数组，确定对应数据元素的注意力分数；

11、对所述数据元素的注意力分数进行归一化处理，得到对应数据元素的注意力权重；

12、根据所述语音数据组中每个数据元素的注意力权重和隐藏状态进行加权求和，得到所述语音数据组的组内上下文向量。

13、优选地，所述基于所述位置编码和所述组内上下文向量，对所述语音数据组进行组间注意力机制分析，得到所述复杂语音文本对应的全局上下文向量，包括：

14、根据所述位置编码、所述组内上下文向量和所述语音识别网络中的第二可学习参数组，确定对应所述语音数据组的注意力分数；

15、对所述语音数据组的注意力分数进行归一化处理，得到所述语音数据组的注意力权重；

16、根据所述语音数据组的注意力权重对所述语音数据组的组内上下文向量进行加权，得到所述语音数据组的加权向量；

17、计算所有所述语音数据组的加权向量的求和，为所述复杂语音文本对应的全局上下文向量。

18、优选地，所述基于所述位置编码和所述组内上下文向量，对所述语音数据组进行组间注意力机制分析，得到所述复杂语音文本对应的全局上下文向量，包括：

19、获取所述语音数据组的结构编码，并根据所述位置编码、所述结构编码、所述组内上下文向量以及所述语音识别网络中的第三可学习参数组，确定对应所述语音数据组的注意力分数；

20、对所述语音数据组的注意力分数进行归一化处理，得到所述语音数据组的注意力权重；

21、根据所述语音数据组的注意力权重对所述语音数据组的组内上下文向量进行加权，得到所述语音数据组的加权向量；

22、计算所有所述语音数据组的加权向量的求和，为所述复杂语音文本对应的全局上下文向量。

23、优选地，所述根据所述全局上下文向量，得到所述语音识别网络输出的识别信息，包括：

24、根据所述语音识别网络获取所述复杂语音文本的原始隐藏状态；

25、将所述原始隐藏状态与所述全局上下文向量进行拼接，得到拼接向量；

26、根据所述拼接向量和所述语音识别网络中的第四可学习参数组，确定一个或多个候选识别结果，以及每个所述候选识别结果的预测概率；

27、根据所述全局上下文向量和所述语音识别网络中的第五可学习参数组，确定所述校验概率。

28、优选地，所述根据所述拼接向量和所述语音识别网络中的第四可学习参数组，确定一个或多个候选识别结果，以及每个所述候选识别结果的预测概率，包括：

29、根据所述拼接向量和所述语音识别网络中的第四可学习参数组，确定每个数据元素的一个或多个预测值和对应的预测概率分布；

30、基于所有数据元素的一个或多个预测值进行随机组合，得到一个或多个候选识别结果；

31、根据所述候选识别结果中所有数据元素的预测概率分布，确定所述候选识别结果对应的预测概率。

32、优选地，所述识别置信度的获取，包括：

33、确定所述候选识别结果中的最大预测概率，将所述最大预测概率对应的候选识别结果作为预测识别结果；

34、对所述最大预测概率和所述校验概率进行加权求和，得到所述识别置信度。

35、优选地，所述基于所述识别置信度，将所述识别信息与所述文本模态和所述图像模态各自对应的特征数据进行多模态融合，确定所述用户输入的复杂语音文本的目标识别结果，包括：

36、响应于所述识别置信度小于置信度阈值，将所述识别信息中的所述预测识别结果；

37、与文本模态的特征数据和图像模态的特征数据进行特征融合，得到目标识别结果。

38、优选地，所述语音识别网络的训练过程包括：

39、获取训练样本，每个所述训练样本包括一个或多个数据分组；

40、将所述训练样本输入待训练的语音识别网络中，由所述待训练的语音识别网络提取所述训练样本中每个所述数据分组的上下文向量，和所述训练样本对应的全局上下文向量；

41、根据所述训练样本对应的全局上下文向量输出预测识别信息，所述预测识别信息包括所述训练样本的预测结果和预测校验结果；

42、根据所述预测结果和所述预测校验结果确定所述待训练的语音识别网络当前的优化损失，并根据所述优化损失对所述待训练的语音识别网络进行调整训练，得到预训练完成的语音识别网络。

43、优选地，所述根据所述预测结果和所述预测校验结果确定所述待训练的语音识别网络当前的优化损失，包括：

44、根据所述预测结果确定每个数据元素的差异值，所述数据元素的预测值与真实值相同时，对应所述差异值为0，所述数据元素的预测值与真实值不相同时，对应所述差异值为1；

45、根据所有所述数据元素的差异值的求和，得到数据损失；

46、计算所述预测校验结果中的预测校验位概率与真实校验位概率之间的二元交叉熵损失，得到校验位损失；

47、根据所述预测结果中数据元素的数量、预测数据长度和真实数据长度，确定长度损失；

48、根据所述预测结果中首个数据分组的上下文向量和末位数据分组的上下文向量的余弦相似度，确定上下文向量损失；

49、根据所述长度损失和所述上下文向量损失的加权求和，确定结构性损失；

50、对所述数据损失、所述校验位损失和所述结构性损失进行加权求和，得到所述优化损失。

51、本发明实施例与现有技术相比存在的有益效果是：通过对用户的复杂语音文本进行分组，将复杂数字序列划分为多个语音数据组进行分析，减少了对每个数据独立分析的计算量，将数据分组输入预训练的语音识别网络中，由语音识别网络对语音数据组进行组内注意力机制分析，得到组内上下文向量，对组内不同数字分配不同的注意力分数来提高识别的准确性，进一步地确定语音数据组的位置编码，以位置编码区分不同位置的数字并提取不同位置数字之间的关系，根据位置编码和组内上下文向量进行组间注意力机制分析，得到全局上下文向量，该全局上下文向量更全面的涵盖了复杂数字序列的数字信息和位置信息，基于全局上下文向量确定识别信息，提高识别准确性，且识别信息中还包括校验概率，校验概率是对银行卡号中校验位分析得到的概率，对银行卡号的有效性进行判断，使得银行卡号的识别结果更加合理和可靠，减少客户口音和不规则停顿引起的干扰；根据识别信息进行识别置信度的计算，确定当前候选识别结果的可靠性。在识别置信度显示识别结果不够可靠时，根据识别置信度将语音模态与文本模态和图像模态相结合，基于多模态的特征融合确定目标识别结果，增加目标识别结果的可靠性和精准度，能够准确识别和处理复杂数字序列且识别效果较好。

技术特征：

1.一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述基于多模态深度学习语言行为对话策略方法包括：

2.根据权利要求1所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述根据所述语音识别网络对所述语音数据组进行组内注意力机制分析，确定所述语音数据组的组内上下文向量，包括：

3.根据权利要求2所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述基于所述位置编码和所述组内上下文向量，对所述语音数据组进行组间注意力机制分析，得到所述复杂语音文本对应的全局上下文向量，包括：

4.根据权利要求2所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述基于所述位置编码和所述组内上下文向量，对所述语音数据组进行组间注意力机制分析，得到所述复杂语音文本对应的全局上下文向量，包括：

5.根据权利要求3或4所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述根据所述全局上下文向量，得到所述语音识别网络输出的识别信息，包括：

6.根据权利要求5所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述根据所述拼接向量和所述语音识别网络中的第四可学习参数组，确定一个或多个候选识别结果，以及每个所述候选识别结果的预测概率，包括：

7.根据权利要求6所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述识别置信度的获取，包括：

8.根据权利要求7所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述基于所述识别置信度，将所述识别信息与所述文本模态和所述图像模态各自对应的特征数据进行多模态融合，确定所述用户输入的复杂语音文本的目标识别结果，包括：

9.根据权利要求1所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述语音识别网络的训练过程包括：

10.根据权利要求9所述的一种基于多模态深度学习语言行为对话策略方法，其特征在于，所述根据所述预测结果和所述预测校验结果确定所述待训练的语音识别网络当前的优化损失，包括：

技术总结
本发明涉及语音识别技术领域，尤其涉及一种基于多模态深度学习语言行为对话策略方法，该方法包括以下步骤：获取用户输入一个或多个语音数据组；将语音数据组输入预训练的语音识别网络中，对语音数据组进行组内注意力机制分析，得到组内上下文向量，获取语音数据组的位置编码，并基于位置编码和组内上下文向量，对语音数据组进行组间注意力机制分析，得到全局上下文向量；根据全局上下文向量得到识别信息，进而计算识别置信度，基于识别置信度将文本模态和图像模态各自对应的特征数据与该识别信息进行多模态融合，确定用户输入的复杂语音文本的目标识别结果，提高目标识别结果的可靠性和精准度。

技术研发人员：邹伟建,刘胜坤,黄倩影,刘昌松
受保护的技术使用者：广东数业智能科技有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-26954.html

专利

最新回复(0)