基于人工智能的语音识别方法、装置及机器人设备

allin2025-03-06  80


本发明属于语音识别机器人,具体是涉及到一种基于人工智能的语音识别方法、装置及机器人设备。


背景技术:

1、在诸如访客参观、公共服务引导等场景中,通常需要安排专门的人员进行讲解或引导。这些人工讲解人员在提供服务时,往往需要具备丰富的知识储备和良好的沟通能力,以便能够准确地传达信息和回答访客的各种问题。然而,人工讲解存在效率低下和准确性不足的问题。一方面,人工讲解人员的工作时间和精力有限,难以在长时间的高强度工作中保持一致的服务质量。另一方面,由于个人知识水平和表达能力的差异,人工讲解的内容可能会出现不一致或错误,影响访客的体验。

2、随着科技的发展,具备语音识别能力的机器人逐渐取代上述场景中的人工语音交互。这些机器人通过语音识别技术和自然语言处理能力,能够提供连续、稳定和高效的讲解和引导服务。然而,现有的语音识别机器人通常依赖于单一的声学模型和语音处理算法,使得现有的语音识别机器人在面对多用户、多环境的复杂场景时,无法有效地区分和处理不同的语音信号。如果机器人无法快速准确地识别和处理用户的语音指令,将会大大降低服务的效率,并可能引发用户的不满。因此,如何在多用户、多环境的复杂场景中提高语音识别机器人的识别准确性和响应速度,成为了当前技术发展中亟待解决的问题。


技术实现思路

1、本发明提供一种基于人工智能的语音识别方法、装置及机器人设备,以解决语音识别机器人在复杂场景时无法快速准确地识别和处理用户的语音指令的问题。

2、第一方面,本发明提供一种基于人工智能的语音识别方法,应用于机器人设备,所述机器人设备的工作状态包括待机状态和解说状态,基于人工智能的语音识别方法包括如下步骤:

3、通过所述机器人设备所处通讯区域范围内多个不同的移动终端获取所述移动终端所属终端用户的语音样本,并利用语音识别模型提取并存储所有所述语音样本的样本基准特征;

4、当所述工作状态处于所述待机状态时,采集所述通讯区域在预设时间间隔内的第一区域声音段落,对所述第一区域声音段落执行预处理步骤,并从预处理后的所述第一区域声音段落中提取与任意一个或多个所述样本基准特征匹配的目标频域特征;

5、若所述目标频域特征的提取数量为0,则保持所述待机状态,并重复上述声音采集步骤和特征提取步骤;

6、若所述目标频域特征的提取数量为1,则将所述目标频域特征作为指定频域特征,并将工作状态由所述待机状态切换为所述解说状态;

7、若所述目标频域特征的提取数量大于1,则从预处理后的所述第一区域声音段落中分离出每个所述目标频域特征所对应的目标声音片段,根据所述目标声音片段获取所述目标频域特征对应的目标时域特征,利用所述目标时域特征计算得到对应所述目标频域特征的优先级得分,将所述优先级得分最高的所述目标频域特征作为所述指定频域特征,并将工作状态由所述待机状态切换为所述解说状态;

8、当所述工作状态处于所述解说状态时,采集所述通讯区域的第二区域声音段落并对所述第二区域声音段落执行所述预处理步骤;

9、基于所述指定频域特征并利用所述语音识别模型从预处理后的所述第二区域声音段落中提取出指定语音矢量特征,采用自然语言处理技术分析所述指定语音矢量特征并生成指定语音反馈文本,将所述指定语音反馈文本进行语音解说播报。

10、可选的,所述通过所述机器人设备所处通讯区域范围内多个不同的移动终端获取所述移动终端所属终端用户的语音样本,并利用语音识别模型提取并存储所有所述语音样本的样本基准特征包括如下步骤:

11、基于所述机器人设备所处通讯区域内多个不同移动终端所发送的连接请求与所有所述移动终端建立通信连接;

12、获取所有所述移动终端所上传的语音样本,所述语音样本为所持所述移动终端的终端用户预先在所述移动终端上录制的多个语音数据;

13、对于每个所述语音样本,归一化处理所述语音样本,并对归一化处理后的所述语音样本执行预处理步骤;

14、将预处理后的所述语音样本输入至预设的语音识别模型中,通过所述语音识别模型输出所述语音样本在频域上的样本基准特征,所述语音识别模型包括特征提取层、卷积层、池化层、全连接层、特征分类层;

15、将所有所述样本基准特征存储至预设的存储空间。

16、可选的,所述预处理步骤具体包括如下步骤:

17、将需要进行预处理的数据作为待处理数据,构建所述待处理数据对应的时域阶跃响应函数;

18、对所述时域阶跃响应函数进行拉普拉斯变换处理,得到所述待处理数据对应的冲击响应函数;

19、基于所述冲击响应函数并通过傅里叶变换提取所述待处理数据的数据频域特征;

20、结合所述数据频域特征和预设的teager算子获取所述待处理数据的数据能量谱值;

21、对所述数据能量谱值进行滤波处理,得到所述待处理数据的数据语音特征。

22、可选的,所述从预处理后的所述第一区域声音段落中分离出每个所述目标频域特征所对应的目标声音片段,根据所述目标声音片段获取所述目标频域特征对应的目标时域特征,利用所述目标时域特征计算得到对应所述目标频域特征的优先级得分包括如下步骤:

23、对于每一个所述目标频域特征,计算所述目标频域特征与各个所述数据语音特征之间的特征匹配值;

24、将所述特征匹配值超出预设特征匹配阈值的目标数据语音特征进行傅里叶逆变换转换,得到目标数据语音时域特征;

25、根据所述目标数据语音时域特征从所述第一区域声音段落中分离出所述目标频域特征对应的初始目标声音片段;

26、利用所述目标数据语音时域特征修正所述初始目标声音片段,得到所述目标频域特征对应的目标声音片段;

27、根据所述目标声音片段获取所述目标频域特征对应的目标时域特征,利用所述目标时域特征计算得到对应所述目标频域特征的优先级得分。

28、可选的,所述根据所述目标声音片段获取所述目标频域特征对应的目标时域特征,利用所述目标时域特征计算得到对应所述目标频域特征的优先级得分包括如下步骤:

29、计算所述目标声音片段的平均振幅得到所述目标频域特征对应的第一目标时域特征;

30、统计所述目标声音片段的总时间长度得到所述目标频域特征对应的第二目标时域特征;

31、计算所述目标声音片段的起始时间与所述第一区域声音段落的起始时间之间的时间差值,得到所述目标频域特征对应的第三目标时域特征;

32、结合所述第一目标时域特征、所述第二目标时域特征和所述第三目标时域特征进行得分加权计算,得到对应所述目标频域特征的优先级得分。

33、可选的,所述从预处理后的所述第一区域声音段落中提取与任意一个或多个所述样本基准特征匹配的目标频域特征包括如下步骤:

34、采用独立成分分析方法从预处理后的所述第一区域声音段落中分离出多个人声语音特征;

35、基于多元高斯分布构建所述样本基准特征的基准概率密度函数,所述基准概率密度函数包括基准权重参数、基准均值向量和基准协方差矩阵;

36、对于每一个所述人声语音特征,根据所述基准概率密度函数计算得到所述人声语音特征的高斯分量似然度,并根据所述高斯分量似然度计算得到高斯分量责任度;

37、利用所述高斯分量责任度迭代更新所述基准权重参数、所述基准均值向量和所述基准协方差矩阵,直至所述基准权重参数的参数更新变化小于预设的变化阈值,将当前迭代层数的所述基准均值向量和所述基准协方差矩阵作为目标均值向量和目标协方差矩阵;

38、通过所述目标均值向量和所述目标协方差矩阵计算得到所述人声语音特征和所述样本基准特征之间的匹配得分;

39、若所述匹配得分大于等于预设的得分阈值,则将所述人声语音特征作为所述样本基准特征匹配的目标频域特征;

40、若所述匹配得分小于所述得分阈值,则舍弃所述人声语音特征。

41、可选的,所述高斯分量似然度的计算公式如下:

42、

43、式中:xn∈{x1,x2,...,xn}表示第n个所述人声语音特征,表示根据第i个所述样本基准特征的基准概率密度函数计算得到第n个所述人声语音特征的所述高斯分量似然度,其中表示第i个所述基准概率密度函数的基准均值向量,表示第i个所述基准概率密度函数的基准协方差矩阵,d表示所述多元高斯分布的维度,exp(·)表示指数函数,t表示转置矩阵。

44、可选的,所述高斯分量责任度的计算公式如下:

45、

46、式中:γi(xn)表示根据第i个所述样本基准特征的基准概率密度函数计算得到第n个所述人声语音特征的所述高斯分量责任度,表示第i个所述基准概率密度函数的基准权重参数,表示第j个所述基准概率密度函数的基准权重参数,表示根据第j个所述样本基准特征的基准概率密度函数计算得到第n个所述人声语音特征的所述高斯分量似然度,m表示所述样本基准特征的特征数量。

47、第二方面,本发明还提供一种基于人工智能的语音识别装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中所述的基于人工智能的语音识别方法。

48、第三方面,本发明还提供一种机器人设备,包括如第二方面中所述的基于人工智能的语音识别装置。

49、本发明的有益效果是:

50、通过在机器人设备所处通讯区域内获取多个移动终端用户的语音样本,并利用语音识别模型提取和存储这些样本的基准特征,确保了语音识别模型能够覆盖广泛的用户语音特征。这种方法提高了机器人设备对不同用户语音的识别准确性,减少了误识别的可能性。机器人设备能够根据所采集到的声音段落动态切换工作状态。当设备处于待机状态时,通过提取和匹配目标频域特征来判断是否需要切换到解说状态。这种动态切换机制确保了机器人设备在需要时能够迅速进入解说状态,提高了响应速度和解说效率。

51、通过预处理步骤和特征匹配方法,从声音段落中提取与样本基准特征匹配的目标频域特征,并根据优先级得分选择最合适的特征作为指定频域特征。这种方法确保了提取的目标频域特征的准确性和相关性,提高了后续语音识别和解说的准确性。预处理步骤包括时域阶跃响应函数、拉普拉斯变换、傅里叶变换和teager算子等方法,确保了从声音段落中提取的数据频域特征的准确性和有效性。通过滤波处理得到的数据语音特征能够更好地反映实际的语音特征,减少了噪声干扰,提高了语音识别的准确性。

52、通过计算目标频域特征与数据语音特征之间的特征匹配值,并利用傅里叶逆变换和时域特征修正方法,确保了目标声音片段的准确提取。结合平均振幅、总时间长度和起始时间差值等时域特征进行得分加权计算,确保了优先级得分的精确性,从而选择最合适的目标频域特征。通过独立成分分析方法分离出多个人声语音特征,并基于多元高斯分布构建样本基准特征的基准概率密度函数,利用高斯分量似然度和责任度迭代更新基准参数,确保了人声语音特征与样本基准特征之间的匹配得分的准确性。这种方法提高了语音特征匹配的精度,减少了误匹配的概率。在解说状态下,机器人设备能够基于指定频域特征利用语音识别模型提取指定语音矢量特征,并通过自然语言处理技术生成指定语音反馈文本。这种方法确保了语音解说内容的准确性和连贯性,提高了用户体验和解说效果。


技术特征:

1.一种基于人工智能的语音识别方法,其特征在于,应用于机器人设备,所述机器人设备的工作状态包括待机状态和解说状态,所述方法包括如下步骤:

2.根据权利要求1所述的基于人工智能的语音识别方法,其特征在于,所述通过所述机器人设备所处通讯区域范围内多个不同的移动终端获取所述移动终端所属终端用户的语音样本,并利用语音识别模型提取并存储所有所述语音样本的样本基准特征包括如下步骤:

3.根据权利要求1或2所述的基于人工智能的语音识别方法,其特征在于,所述预处理步骤具体包括如下步骤:

4.根据权利要求3所述的基于人工智能的语音识别方法,其特征在于,所述从预处理后的所述第一区域声音段落中分离出每个所述目标频域特征所对应的目标声音片段,根据所述目标声音片段获取所述目标频域特征对应的目标时域特征,利用所述目标时域特征计算得到对应所述目标频域特征的优先级得分包括如下步骤:

5.根据权利要求4所述的基于人工智能的语音识别方法,其特征在于,所述根据所述目标声音片段获取所述目标频域特征对应的目标时域特征,利用所述目标时域特征计算得到对应所述目标频域特征的优先级得分包括如下步骤:

6.根据权利要求1所述的基于人工智能的语音识别方法,其特征在于,所述从预处理后的所述第一区域声音段落中提取与任意一个或多个所述样本基准特征匹配的目标频域特征包括如下步骤:

7.根据权利要求6所述的基于人工智能的语音识别方法,其特征在于,所述高斯分量似然度的计算公式如下:

8.根据权利要求7所述的基于人工智能的语音识别方法,其特征在于,所述高斯分量责任度的计算公式如下:

9.一种基于人工智能的语音识别装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的基于人工智能的语音识别方法。

10.一种机器人设备,其特征在于,包括如权利要求9所述的基于人工智能的语音识别装置。


技术总结
本发明提供一种基于人工智能的语音识别方法、装置及机器人设备,该方法包括如下步骤:获取终端用户的语音样本并提取样本基准特征;当处于待机状态时,采集第一区域声音段落,预处理第一区域声音段落,并提取目标频域特征;根据目标频域特征提取的数量切换工作状态;当处于解说状态时,采集第二区域声音段落并对第二区域声音段落执行预处理步骤;基于指定频域特征并利用语音识别模型从预处理后的第二区域声音段落中提取出指定语音矢量特征,采用自然语言处理技术分析指定语音矢量特征并生成指定语音反馈文本,将指定语音反馈文本进行语音解说播报。本发明具有在复杂环境时也可以准确识别和处理用户语音指令的效果。

技术研发人员:周良松,姚占东
受保护的技术使用者:华中科技大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19107.html

最新回复(0)