语音命令识别方法、装置、计算机设备及计算机可读介质与流程

allin2024-03-31 180

1.本技术适用于人工智能技术领域，尤其涉及一种语音命令识别方法、装置、计算机设备及计算机可读介质。

背景技术：

2.目前，随着机器人在生活中的使用飞速增长，能够提高人类的生活质量，人类通过相应的语音指令即可指导机器人完成相应的工作，这个过程需要基于人机交互技术。在人机交互过程中人类与机器进行语音交流，需要让机器明白人类的语音中所要表达的真实意图，当前的语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令。例如，将语音识别技术应用在车联网中，司机通过与机器人客服口述即可设置目的地并进入导航。但随着生活水平的发展，语音命令识别的及时性、准确率要求越来越高，并且语音命令的种类也越来越多。因此，如何在语音命令种类繁杂的情况下及时且准确地识别命令为亟待解决的问题。

技术实现要素：

3.有鉴于此，本技术实施例提供了一种语音命令识别方法、装置、计算机设备及计算机可读介质，以解决在语音命令种类繁杂的情况下及时且准确地识别命令的问题。
4.第一方面，本技术实施例提供一种语音命令识别方法，所述语音命令识别方法包括：
5.采集真实语音命令；
6.在检测到所述真实语音命令不符合发音标准时，使用预设的非标准语音识别模型识别所述真实语音命令，得到m个关键词，m为大于零的整数；
7.在m大于1时，提取所有关键词的词义，并结合所有关键词在所述真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本；
8.使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令；
9.将所述第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
10.在一实施方式中，在采集真实语音命令之后，还包括：
11.在检测到所述真实语音命令符合标准时，将所述真实语音命令输入所述训练好的量子深度学习模型，生成对应的控制指令。
12.在一实施方式中，在使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令之前，还包括：
13.对所述真实语音命令进行声音特征识别，得到目标声音特征；
14.根据所述目标声音特征，在预设的声音特征库中匹配对应的目标用户，所述声音特征库中存储有用户与其声音特征的映射关系；
15.确定预设的标准语音库中与所述目标用户匹配的发音模式为目标发音模式，所述
标准语音库中存储有由用户与其发音模式的映射关系。
16.在一实施方式中，在得到m个关键词之后，还包括：
17.在m为1时，使用第二发音模式对关键词进行语音合成，得到第二预测语音命令；
18.将所述第二预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
19.在一实施方式中，所述训练好的量子深度学习模型包括n层一维卷积池化层和全连接层，所述n层一维卷积池化层依次连接，最后一层一维卷积池化层的输出连接所述全连接层，所述一维卷积池化层包括一维卷积层和一维池化层，一维卷积层的输出连接一维池化层，语音命令输入第一层一维卷积池化层的一维卷积层，n为大于零的整数；
20.将所述第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令包括：
21.将所述第一预测语音命令输入第一层一维卷积池化层，输出池化结果至下一层一维卷积池化层，直至达到最后一层一维卷积池化层；
22.将最后一层一维卷积池化层输出的池化结果输入全连接层进行联结，得到对应的控制指令。
23.在一实施方式中，所述一维卷积层为量子卷积层，所述量子卷积层包括量子编码器、量子变分电路和测量器；
24.将所述第一预测语音命令输入第一层一维卷积池化层包括：
25.将所述第一预测语音命令输入所述量子编码器进行量子编码，得到量子编码特征；
26.通过所述量子变分电路对所述量子编码特征进行分类，并将分类结果发送给所述测量器进行分类结果真实性测量，得到测量结果；
27.将测量结果输入一维池化层，输出池化结果。
28.在一实施方式中，提取所有关键词的词义，并结合所有关键词在所述真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本包括：
29.针对任一关键词，对关键词以及对应关键词的前一关键词和\或后一关键词的词性进行相似度分析，根据相似度分析结果确定对应关键词的词义；
30.将所有关键词按照在所述真实语音命令中的前后顺序关系依次排列，根据任两个相邻关键词的词义筛选助词，并将筛选的助词填充在对应两个相邻关键词之间，得到预测文本。
31.第二方面，本技术实施例提供一种语音命令识别装置，所述语音命令识别装置包括：
32.命令采集模块，用于采集真实语音命令；
33.第一识别模块，用于在检测到所述真实语音命令不符合发音标准时，使用预设的非标准语音识别模型识别所述真实语音命令，到m个关键词，m为大于零的整数；
34.文本预测模块，用于在m大于1时，提取所有关键词的词义，并结合所有关键词在所述真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本；
35.第一语音合成模块，用于使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令；
36.第一指令生成模块，用于将所述第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
37.在一实施方式中，所述语音命令识别装置还包括：
38.第二识别模块，用于在采集真实语音命令之后，在检测到所述真实语音命令符合标准时，将所述真实语音命令输入所述训练好的量子深度学习模型，生成对应的控制指令。
39.在一实施方式中，所述语音命令识别装置还包括：
40.声音特征识别模块，用于在使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令之前，对所述真实语音命令进行声音特征识别，得到目标声音特征；
41.目标用户确定模块，用于根据所述目标声音特征，在预设的声音特征库中匹配对应的目标用户，所述声音特征库中存储有用户与其声音特征的映射关系；
42.目标语音确定模块，用于确定预设的标准语音库中与所述目标用户匹配的发音模式为目标发音模式，所述标准语音库中存储有由用户与其发音模式的映射关系。
43.在一实施方式中，所述语音命令识别装置还包括：
44.第二语音合成模块，用于在得到m个关键词之后，在m为1时，使用第二发音模式对关键词进行语音合成，得到第二预测语音命令；
45.第二指令生成模块，用于将所述第二预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
46.在一实施方式中，所述训练好的量子深度学习模型包括n层一维卷积池化层和全连接层，所述n层一维卷积池化层依次连接，最后一层一维卷积池化层的输出连接所述全连接层，所述一维卷积池化层包括一维卷积层和一维池化层，一维卷积层的输出连接一维池化层，语音命令输入第一层一维卷积池化层的一维卷积层，n为大于零的整数；
47.所述第一指令生成模块包括：
48.卷积池化单元，用于将所述第一预测语音命令输入第一层一维卷积池化层，输出池化结果至下一层一维卷积池化层，直至达到最后一层一维卷积池化层；
49.指令生成单元，用于将最后一层一维卷积池化层输出的池化结果输入全连接层进行联结，得到对应的控制指令。
50.在一实施方式中，所述一维卷积层为量子卷积层，所述量子卷积层包括量子编码器、量子变分电路和测量器；
51.所述卷积池化单元包括：
52.量子编码子单元，用于将所述第一预测语音命令输入所述量子编码器进行量子编码，得到量子编码特征；
53.变分测量子单元，用于通过所述量子变分电路对所述量子编码特征进行分类，并将分类结果发送给所述测量器进行分类结果真实性测量，得到测量结果；
54.池化子单元，用于将测量结果输入一维池化层，输出池化结果。
55.在一实施方式中，所述文本预测模块包括：
56.词义分析单元，用于针对任一关键词，对关键词以及对应关键词的前一关键词和\或后一关键词的词性进行相似度分析，根据相似度分析结果确定对应关键词的词义；
57.文本预测单元，用于将所有关键词按照在所述真实语音命令中的前后顺序关系依次排列，根据任两个相邻关键词的词义筛选助词，并将筛选的助词填充在对应两个相邻关
键词之间，遍历所有关键词，得到预测文本。
58.第三方面，本技术实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的语音命令识别方法。
59.第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音命令识别方法。
60.本技术实施例与现有技术相比存在的有益效果是：本技术采集真实语音命令，并在检测到真实语音命令不符合标准时，使用预设的非标准语音识别模型识别真实语音命令，得到具备前后顺序关系的至少一个关键词，提取所有关键词的词义，并结合所有关键词的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本，采用文本转语音工具，结合任一已有标准语音，将预测文本转化为第一预测语音命令，将第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令，以实现语音命令的识别，通过对语音命令的标准性进行判断，在语音命令不符合标准时对命令进行预测识别，可以提高命令识别的准确率，通过量子深度学习识别可以快速地得到控制指令，从而在复杂种类的语音命令环境下，能够保证识别的准确性和及时性。
附图说明
61.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
62.图1是本技术实施例一提供的一种语音命令识别方法的一应用环境示意图；
63.图2是本技术实施例二提供的一种语音命令识别方法的流程示意图；
64.图3是本技术实施例三提供的一种语音命令识别方法的流程示意图；
65.图4是本技术实施例四提供的一种语音命令识别装置的结构示意图；
66.图5是本技术实施例五提供的一种计算机设备的结构示意图。
具体实施方式
67.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
68.应当理解，当在本技术说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
69.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
70.如在本技术说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下
文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0071]
另外，在本技术说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0072]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0073]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0074]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0075]
应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0076]
为了说明本技术的技术方案，下面通过具体实施例来进行说明。
[0077]
本技术实施例一提供的一种语音命令识别方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、云端计算机设备、个人数字助理(personal digital assistant，pda)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0078]
参见图2，是本技术实施例二提供的一种语音命令识别方法的流程示意图，上述语音命令识别方法应用于图1中的服务端，服务端对应的计算机设备连接相应的数据库，以获取数据库中相应的数据。上述计算机设备还可以连接相应的客户端，客户端将语音命令发送给服务端，实现了服务端采集语音命令的功能。如图2所示，该语音命令识别方法可以包括以下步骤：
[0079]
步骤s201，采集真实语音命令，并在检测到真实语音命令不符合发音标准时，使用预设的非标准语音识别模型识别真实语音命令，得到m个关键词。
[0080]
本技术中，服务端与相应的客户端连接，客户端用于采集真实语音命令，并将真实语音命令发送给服务端，实现服务端采集真实语音命令的步骤。其中，客户端可以是指具备语音采集设备的设备，如语音机器人、车载终端等。
[0081]
客户端在采集真实语音命令之前，还需获取对周围环境声音的采集权限，在获得
采集权限时才能够对后续的真实语音命令进行采集并上传服务端，如果该客户端不具备采集权限时，可以采集或者不采集周围环境声音，但不能够将该周围环境声音作为真实语音命令发送给服务端。例如，用户通过本地唤醒指令唤醒客户端的采集功能，将采集的真实语音命令上传至服务端，或者，用户通过客户端采集到真实语音命令，再使用发送功能发送该真实语音命令。
[0082]
真实语音命令可以是指环境中所有声音数据，进一步地，在将真实语音命令发送服务端之前，还对该真实语音命令进行降噪和增强处理，从而实现真实语音命令的初筛，保证后续识别真实语音命令的准确性。
[0083]
发音标准可以是指针对一种语言所规定的标准发音，例如，针对汉语言，将普通话发音作为该汉语言的标准发音。由于用户的不同，上述真实语音命令可能为采用方言或者其他语言形成的语音，因此，为了保证准确性，需要对真实语音命令是否符合发音标准进行识别，进而针对发音标准的语音和发音不标准的语音进行不同的处理，提高处理的效率。
[0084]
如果真实语音命令为发音不标准的语音，则需要对该真实语音命令进行校正或者标准化处理，以保证后续对语音识别的要求，如果真实语音命令为发音标准的语音，则无需再对真实语音命令进行校正。
[0085]
进一步地，发音标准可以参考不同的语言而设定，例如，针对汉语言而言，普通话发音即为标准，而普通话发音中的音素由三个音节组成，可以分析成八个音素，分别为“p，u，t，o，ng，h，u，a”，检测真实语音命令是否符合发音标准可以包括以下步骤：
[0086]
采用隐式马尔科夫模型提取真实语音命令的声音特征，从声音特征中获取到所有音素；
[0087]
计算普通话发音中的八个音素在所有音素中的占比，当占比大于阈值时，判定该真实语音命令符合发音标准，当占比不大于阈值时，判定该真实语音命令不符合发音标准。
[0088]
预设的非标准语音识别模型可以是指用于提取方言中关键词的方言识别器等，通过该方言识别器可以对真实语音命令进行识别，以提取到真实语音命令中的关键词特征。其中，识别过程可以包括对音色、音调、断句等识别，通过以上识别过程提取到较为重要的词作为关键词，从而排除掉相应的语气词、连接词等助词。
[0089]
使用预设的非标准语音识别模型识别真实语音命令，能够得到相应的m个关键词，m为大于零的整数，m为1时，说明在该真实语音命令中仅能够识别到一个可用的关键词，m为大于1时，说明该真实语音命令中能够识别到多个可用的关键词，其中，如果识别到多个关键词，则多个关键词在真实语音命令中存在前后顺序关系。
[0090]
使用第二发音模式对关键词进行语音合成，得到第二预测语音命令，将其输入训练好的量子深度学习模型即可生成对应的控制指令。
[0091]
关键词可以是由一个字或者更多的字组成，前后顺序关系为在最真实语音命令中关键词的出现先后，也即是关键词的时间先后顺序。
[0092]
关键词的识别结果为每个关键词独立，但每个关键词之间具备原有的前后顺序关系，从而保留了能够分析语义的关键特征。
[0093]
可选的是，在采集真实语音命令之后，还包括：
[0094]
在检测到真实语音命令符合发音标准时，将真实语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
[0095]
其中，在真实语音命令符合标准时，无需对真实语音命令进行处理，可以直接将其送入训练好的量子深度学习模块，得到控制指令，从而通过前置处理提高了对真实语音命令的处理效率。
[0096]
步骤s202，在m大于1时，提取所有关键词的词义，并结合所有关键词在真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本。
[0097]
本技术中，词义可以是指该关键词的词性、含义等，本质上可以是指词性的特征向量、含义的特征向量等。将所有的关键词按照前后顺序关系排列，判断两个相邻的关键词之间需要填充的助词，填充的助词与两个相邻的关键词的词义相关，在确定助词之后，将该助词填充在对应的两个相邻的关键词之间，最终形成具备关键词和助词的预测文本。
[0098]
预测文本可以是指针对上述真实语音命令而言的文本格式，但不是直接采用语音转文本技术，而是通过部分语音转文本，其余语音通过预测来填写助词的方式，最终形成预测的文本。
[0099]
上述预测文本相较于将真实语音命令之间转换的文本而言，具备标准的语音表达方式，能够更好地应用到后续的语音命令识别，从而得到准确地控制指令。
[0100]
步骤s203，使用第一发音模式对预测文本进行语音合成，得到第一预测语音命令。
[0101]
本技术中，发音模式可以是指一种具备预设模式的语言，该预设模式可以是方言的发音、标准的发音等，无论是方言或者标准的发音，均可以采用机器拟合发音或者人工录制发音，其中，机器拟合发音即使用设置音色、音量、音频等对音素进行发音，人工录制发音即采用人工对每个字的发音进行录制。
[0102]
例如，针对汉语言中普通话的发音模式，机器拟合发音即是使用设置好的条件对“p，u，t，o，ng，h，u，a”8个音素进行发音，针对汉语言中方言的发音模式，人工录制发音即是人工对每个词使用方言进行发音并录制。
[0103]
语音合成可以是将每个词按照第一发音模式进行发音，并按照词的前后顺序，将所有的发音联结在一起，得到预测的语音，从而实现预测文本转为第一预测语音命令。
[0104]
上述第一预测语音命令相较于真实语音命令而言，具备标准的表达规范和标准的音色、音量等，能够更好地应用到后续的语音命令识别，从而得到准确地控制指令。
[0105]
可选的是，在使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令之前，还包括：
[0106]
对所述真实语音命令进行声音特征识别，得到目标声音特征；
[0107]
根据所述目标声音特征，在预设的声音特征库中匹配对应的目标用户，所述声音特征库中存储有用户与其声音特征的映射关系；
[0108]
确定预设的标准语音库中与所述目标用户匹配的发音模式为目标发音模式，所述标准语音库中存储有由用户与其发音模式的映射关系。
[0109]
其中，用户可以录制相应的发音，形成一种发音模式，而第一发音模式可以是该用户录制的发音模式。为了更好地贴合发起真实语音命令的目标用户的声音，在第一预测语音命令时，如果存储有该目标用户的发音模式，则可以使用该发音模式来形成第一预测语音命令。
[0110]
具体地，首先要对该真实语音命令进行声音特征识别，从而从声音特征库中匹配到目标用户，在此之前，在声音特征库中必然要存储目标用户与其声音特征的映射关系，其
中声音特征库中存储的可以是目标用户的用户身份识别号(identity document，id)。
[0111]
其次，在标准语音库中搜寻到该目标用户对应的发音模式，在此之前，在标准语音库中必然要存储有目标用户与其发音模式，同样地，针对同一用户而言，标准语音库中存储有目标用户的用户id，与上述声音特征库中的用户id一致。
[0112]
步骤s204，将第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
[0113]
本技术中，训练好的量子深度学习模型能够将语音命令识别为控制指令，从而用于控制相应的设备产生动作，该相应的设备为客户端采集的真实语音命令中所需要控制的设备。
[0114]
该训练好的量子深度学习模型为基于量子叠加态的机器学习模型，而由于量子叠加态的特性，天然自带并行性，因此，训练的速度可以有效地提升。
[0115]
训练好的量子深度学习模型可以是基于不同结构的模型组合，例如，paddlepaddle、tensorflow、caffe、theano、mxnet、torch和pytorch等。
[0116]
可选的是，训练好的量子深度学习模型包括n层一维卷积池化层和全连接层，n层一维卷积池化层依次连接，最后一层一维卷积池化层的输出连接全连接层，一维卷积池化层包括一维卷积层和一维池化层，一维卷积层的输出连接一维池化层，语音命令输入第一层一维卷积池化层的一维卷积层，n为大于零的整数；
[0117]
将第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令包括：
[0118]
将第一预测语音命令输入第一层一维卷积池化层，输出池化结果至下一层一维卷积池化层，直至达到最后一层一维卷积池化层；
[0119]
将最后一层一维卷积池化层输出的池化结果输入全连接层进行联结，得到对应的控制指令。
[0120]
其中，上述训练好的深度学习模型采用卷积层、池化层和全连接层构成，具体可以根据需求设置卷积层和池化层的层数，例如，量子深度学习模型可以是由4层一维量子卷积层(qconv1d)和4层一维池化层(maxpool1d)层以及一层全连接层(fc)构成，其中，一维量子卷积层是通过量子叠加态的特性进行卷积运算的。
[0121]
在训练时，将样本集输入量子深度学习模型的一维卷积池化层和全连接层，以对比损失作为损失函数，训练目标为使得对比损失函数收敛。
[0122]
上述的模型训练的数据集可以为google公开的语音命令识别数据集，共有35类命令，包括：“left”，“go”，“yes”，“down”，“up”，“on”，“right”，“no”，“off”，“stop”等，一共有84843个训练样本以及11005个测试样本。
[0123]
可选的是，一维卷积层为量子卷积层，量子卷积层包括量子编码器、量子变分电路和测量器：
[0124]
将第一预测语音命令输入第一层一维卷积池化层包括：
[0125]
将第一预测语音命令输入量子编码器进行量子编码，得到量子编码特征；
[0126]
通过量子变分电路对量子编码特征进行分类，并将分类结果发送给测量器进行分类结果真实性测量，得到测量结果；
[0127]
将测量结果输入一维池化层，输出池化结果。
[0128]
其中，上述的一维卷积层与一般的卷积操作一样，将数据输入到含参量子线路(variational quantum circuits，vqc)中，然后通过vqc输出卷积结果。
[0129]
上述vqc的公式如下：
[0130]
q1＝fe(y1)
[0131]
q2＝fu(θ1,
…
,θm；c(q1))
[0132]
q3＝fd(q2)
[0133]
式中，y1＝{a1，a2，
…
，an}为输入数据；fe，fu和fd分别为vqc中的e，v和m，其中，e代表了量子编码器、v代表了量子变分电路，m代表了测量器；q1，q2和q3分别为fe，fu和fd的输出；θ1，
…
，θm为fu中可学习的参数；在这里，m设置为3，代表有3个可学习的参数。
[0134]
在同样的优化算法，同样的数据量训练情况下，上述量子深度学习模型的准确率达到78％，而相同情况下的深度学习模型的准确率为75％，量子深度学习模型的准确率较高。另外，对于训练的loss曲线可以知道，量子深度学习模型相较于相同情况下的深度学习模型收敛更快，并且在模型中使用的量子比特越多，对应的量子深度学习模型训练时收敛越快。
[0135]
可选的是，在得到m个关键词之后，还包括：
[0136]
在m为1时，使用第二发音模式对关键词进行语音合成，得到第二预测语音命令；
[0137]
将第二预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
[0138]
其中，针对真实语音命令中仅能够识别到一个可用的关键词的情况，则无需在对关键词进行排序、插词等处理。同样地，发音模式可以是指一种具备预设模式的语言，该预设模式可以是方言的发音、标准的发音等，无论是方言或者标准的发音，均可以采用机器拟合发音或者人工录制发音，其中，机器拟合发音即使用设置音色、音量、音频等对音素进行发音，人工录制发音即采用人工对每个字的发音进行录制。上述第二发音模式与上述第一发音模式可以为相同的发音模式。
[0139]
本技术实施例采集真实语音命令，并在检测到真实语音命令不符合标准时，使用预设的非标准语音识别模型识别真实语音命令，得到具备前后顺序关系的至少一个关键词，提取所有关键词的词义，并结合所有关键词的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本，采用文本转语音工具，结合任一已有标准语音，将预测文本转化为第一预测语音命令，将第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令，以实现语音命令的识别，通过对语音命令的标准性进行判断，在语音命令不符合标准时对命令进行预测识别，可以提高命令识别的准确率，通过量子深度学习识别可以快速地得到控制指令，从而在复杂种类的语音命令环境下，能够保证识别的准确性和及时性。
[0140]
参见图3，是本技术实施例三提供的一种语音命令识别方法的流程示意图，如图3所示，该语音命令识别方法可以包括以下步骤：
[0141]
步骤s301，采集真实语音命令，并在检测到真实语音命令不符合发音标准时，使用预设的非标准语音识别模型识别真实语音命令，得到m个关键词。
[0142]
其中，步骤s301与上述步骤s201的内容相同，可参考步骤s201的描述，在此不再赘述。
[0143]
步骤s302，在m大于1时，针对任一关键词，对关键词以及对应关键词的前一关键词
和\或后一关键词的词性进行相似度分析，根据相似度分析结果确定对应关键词的词义。
[0144]
本技术中，针对一个关键词的前后关键词的词性进行分析，并且还对自身的词性进行分析，从而可以通过词性的相似度来判断关键词的词义。
[0145]
步骤s303，将所有关键词按照前后顺序关系依次排列，根据任两个相邻关键词的词义筛选助词，并将筛选的助词填充在对应两个相邻关键词之间，遍历所有关键词，得到预测文本。
[0146]
本技术中，根据两个相邻关键词的词义可以推断出两个关键词之间需要通过何种助词连接。针对助词的选取可以根据两个关键词词性的相似度以及语言规范来进行选择。
[0147]
步骤s304，使用第一发音模式对预测文本进行语音合成，得到第一预测语音命令。
[0148]
步骤s305，将第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
[0149]
其中，步骤s304至步骤s305与上述步骤s203至步骤s204的内容相同，可参考步骤s203至步骤s204的描述，在此不再赘述。
[0150]
本技术实施例采集真实语音命令，并在检测到真实语音命令不符合标准时，使用预设的非标准语音识别模型识别真实语音命令，得到具备前后顺序关系的至少一个关键词，针对任一关键词，对关键词以及对应关键词的前一关键词和\或后一关键词的词性进行相似度分析，根据相似度分析结果确定对应关键词的词义，将所有关键词按照前后顺序关系依次排列，根据任两个相邻关键词的词义筛选助词，并将筛选的助词填充在对应两个相邻关键词之间，遍历所有关键词，得到预测文本，采用文本转语音工具，结合任一已有标准语音，将预测文本转化为第一预测语音命令，将第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令，以实现语音命令的识别，通过对语音命令的标准性进行判断，在语音命令不符合标准时对命令进行预测识别，可以提高命令识别的准确率，通过量子深度学习识别可以快速地得到控制指令，从而在复杂种类的语音命令环境下，能够保证识别的准确性和及时性。
[0151]
对应于上文实施例的语音命令识别方法，图4示出了本技术实施例四提供的语音命令识别装置的结构框图，上述语音命令识别装置应用于图1中的服务端，服务端对应的计算机设备连接相应的数据库，以获取数据库中相应的数据。上述计算机设备还可以连接相应的客户端，客户端将语音命令发送给服务端，实现了服务端采集语音命令的功能。为了便于说明，仅示出了与本技术实施例相关的部分。
[0152]
参见图4，该语音命令识别装置包括：
[0153]
命令采集模块41，用于采集真实语音命令；
[0154]
第一识别模块42，用于在检测到真实语音命令不符合发音标准时，使用预设的非标准语音识别模型识别真实语音命令，到m个关键词，m为大于零的整数；
[0155]
文本预测模块43，用于在m大于1时，提取所有关键词的词义，并结合所有关键词在真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本；
[0156]
第一语音合成模块44，用于使用第一发音模式对预测文本进行语音合成，得到第一预测语音命令；
[0157]
第一指令生成模块45，用于将第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
[0158]
预设的非标准语音识别模型识别可选的是，上述语音命令识别装置还包括：
[0159]
第二识别模块，用于在采集真实语音命令之后，在检测到真实语音命令符合标准时，将真实语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
[0160]
可选的是，上述语音命令识别装置还包括：
[0161]
声音特征识别模块，用于在使用第一发音模式对预测文本进行语音合成，得到第一预测语音命令之前，对真实语音命令进行声音特征识别，得到目标声音特征；
[0162]
目标用户确定模块，用于根据目标声音特征，在预设的声音特征库中匹配对应的目标用户，声音特征库中存储有用户与其声音特征的映射关系；
[0163]
目标语音确定模块，用于确定预设的标准语音库中与目标用户匹配的发音模式为目标发音模式，标准语音库中存储有由用户与其发音模式的映射关系。
[0164]
可选的是，上述语音命令识别装置还包括：
[0165]
第二语音合成模块，用于在得到m个关键词之后，在m为1时，使用第二发音模式对关键词进行语音合成，得到第二预测语音命令；
[0166]
第二指令生成模块，用于将第二预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。
[0167]
可选的是，训练好的量子深度学习模型包括n层一维卷积池化层和全连接层，n层一维卷积池化层依次连接，最后一层一维卷积池化层的输出连接全连接层，一维卷积池化层包括一维卷积层和一维池化层，一维卷积层的输出连接一维池化层，语音命令输入第一层一维卷积池化层的一维卷积层，n为大于零的整数；
[0168]
相应地，上述第一指令生成模块45包括：
[0169]
卷积池化单元，用于将第一预测语音命令输入第一层一维卷积池化层，输出池化结果至下一层一维卷积池化层，直至达到最后一层一维卷积池化层；
[0170]
指令生成单元，用于将最后一层一维卷积池化层输出的池化结果输入全连接层进行联结，得到对应的控制指令。
[0171]
可选的是，一维卷积层为量子卷积层，量子卷积层包括量子编码器、量子变分电路和测量器；
[0172]
相应地，上述卷积池化单元包括：
[0173]
量子编码子单元，用于将第一预测语音命令输入量子编码器进行量子编码，得到量子编码特征；
[0174]
变分测量子单元，用于通过量子变分电路对量子编码特征进行分类，并将分类结果发送给测量器进行分类结果真实性测量，得到测量结果；
[0175]
池化子单元，用于将测量结果输入一维池化层，输出池化结果。
[0176]
可选的是，上述文本预测模块43包括：
[0177]
词义分析单元，用于针对任一关键词，对关键词以及对应关键词的前一关键词和\或后一关键词的词性进行相似度分析，根据相似度分析结果确定对应关键词的词义；
[0178]
文本预测单元，用于将所有关键词按照在真实语音命令中的前后顺序关系依次排列，根据任两个相邻关键词的词义筛选助词，并将筛选的助词填充在对应两个相邻关键词之间，遍历所有关键词，得到预测文本。
[0179]
需要说明的是，上述模块之间的信息交互、执行过程等内容，由于与本技术方法实
施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。
[0180]
图5为本技术实施例五提供的一种计算机设备的结构示意图。如图5所示，该实施例的计算机设备包括：至少一个处理器(图5中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个语音命令识别方法实施例中的步骤。
[0181]
该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。
[0182]
所称处理器可以是cpu，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0183]
存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0184]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬
盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
[0185]
本技术实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现可实现上述方法实施例中的步骤。
[0186]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0187]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0188]
在本技术所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0189]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0190]
以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

技术特征：
1.一种语音命令识别方法，其特征在于，所述方法包括：采集真实语音命令；在检测到所述真实语音命令不符合发音标准时，使用预设的非标准语音识别模型识别所述真实语音命令，得到m个关键词，m为大于零的整数；在m大于1时，提取所有关键词的词义，并结合所有关键词在所述真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本；使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令；将所述第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。2.根据权利要求1所述的语音命令识别方法，其特征在于，在采集真实语音命令之后，还包括：在检测到所述真实语音命令符合标准时，将所述真实语音命令输入所述训练好的量子深度学习模型，生成对应的控制指令。3.根据权利要求1所述的语音命令识别方法，其特征在于，在使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令之前，还包括：对所述真实语音命令进行声音特征识别，得到目标声音特征；根据所述目标声音特征，在预设的声音特征库中匹配对应的目标用户，所述声音特征库中存储有用户与其声音特征的映射关系；确定预设的标准语音库中与所述目标用户匹配的发音模式为目标发音模式，所述标准语音库中存储有由用户与其发音模式的映射关系。4.根据权利要求1所述的语音命令识别方法，其特征在于，在得到m个关键词之后，还包括：在m为1时，使用第二发音模式对关键词进行语音合成，得到第二预测语音命令；将所述第二预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。5.根据权利要求1所述的语音命令识别方法，其特征在于，所述训练好的量子深度学习模型包括n层一维卷积池化层和全连接层，所述n层一维卷积池化层依次连接，最后一层一维卷积池化层的输出连接所述全连接层，所述一维卷积池化层包括一维卷积层和一维池化层，一维卷积层的输出连接一维池化层，语音命令输入第一层一维卷积池化层的一维卷积层，n为大于零的整数；将所述第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令包括：将所述第一预测语音命令输入第一层一维卷积池化层，输出池化结果至下一层一维卷积池化层，直至达到最后一层一维卷积池化层；将最后一层一维卷积池化层输出的池化结果输入全连接层进行联结，得到对应的控制指令。6.根据权利要求5所述的语音命令识别方法，其特征在于，所述一维卷积层为量子卷积层，所述量子卷积层包括量子编码器、量子变分电路和测量器；将所述第一预测语音命令输入第一层一维卷积池化层包括：将所述第一预测语音命令输入所述量子编码器进行量子编码，得到量子编码特征；通过所述量子变分电路对所述量子编码特征进行分类，并将分类结果发送给所述测量
器进行分类结果真实性测量，得到测量结果；将测量结果输入一维池化层，输出池化结果。7.根据权利要求1至6任一项所述的语音命令识别方法，其特征在于，提取所有关键词的词义，并结合所有关键词在所述真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本包括：针对任一关键词，对关键词以及对应关键词的前一关键词和\或后一关键词的词性进行相似度分析，根据相似度分析结果确定对应关键词的词义；将所有关键词按照在所述真实语音命令中的前后顺序关系依次排列，根据任两个相邻关键词的词义筛选助词，并将筛选的助词填充在对应两个相邻关键词之间，得到预测文本。8.一种语音命令识别装置，其特征在于，所述装置包括：命令采集模块，用于采集真实语音命令；第一识别模块，用于在检测到所述真实语音命令不符合发音标准时，使用预设的非标准语音识别模型识别所述真实语音命令，到m个关键词，m为大于零的整数；文本预测模块，用于在m大于1时，提取所有关键词的词义，并结合所有关键词在所述真实语音命令中的前后顺序关系，在任两个相邻的关键词之间填充助词，得到预测文本；第一语音合成模块，用于使用第一发音模式对所述预测文本进行语音合成，得到第一预测语音命令；第一指令生成模块，用于将所述第一预测语音命令输入训练好的量子深度学习模型，生成对应的控制指令。9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音命令识别方法。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音命令识别方法。

技术总结
本申请适用于人工智能技术领域，尤其涉及一种语音命令识别方法、装置、计算机设备及计算机可读介质。该方法在检测到采集真实语音命令不符合语音标准时，使用预设的非标准语音识别模型识别真实语音命令，得到关键词，提取所有关键词的词义，在任两个相邻的关键词之间填充助词，得到预测文本，将预测文本转化为第一预测语音命令，采用训练好的量子深度学习模型将第一预测语音命令生成对应的控制指令，实现了语音命令识别，通过对语音命令的标准性进行判断，在语音命令不符合标准时对命令进行预测识别，可以提高命令识别的准确率，通过量子深度学习识别可以快速地得到控制指令，从而在复杂种类的语音命令环境下，能够保证识别的准确性和及时性。性和及时性。性和及时性。

技术研发人员：洪振厚王健宗瞿晓阳肖京
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2022.05.10
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-12877.html

专利

最新回复(0)