语音指令的响应方法及装置、存储介质及电子装置与流程

allin2022-11-05 241

1.本发明涉及通信领域，具体而言，涉及一种语音指令的响应方法及装置、存储介质及电子装置。

背景技术：

2.智能音箱是一个音箱升级的产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能音箱设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。
3.在实际应用场景中，不同年龄的用户都可以对智能音箱进行控制，包含老年人、中青年人、小孩等，不同年龄段的用户对音量的感知接受程度不一样。如果都采用同样的音量控制策略，就会获得较差的用户体验。
4.例如，老人的听觉一般较小孩要差一些，他可能会将智能音箱调至较高音量；同一时段儿童操作时，音量就会较大，长期使用可能会影响小孩的听觉，但如果音量太高，又会影响老人对智能音箱的正常使用。而现有的设备并不会针对不同的用户，设置不同的音量。
5.针对相关技术，无法为不同年龄的用户设置不同的播放音量的问题，目前尚未提出有效的解决方案。
6.因此，有必要对相关技术予以改良以克服相关技术中的所述缺陷。

技术实现要素：

7.本发明实施例提供了一种语音指令的响应方法及装置、存储介质及电子装置，以至少解决无法为不同年龄的用户设置不同的播放音量的问题。
8.根据本发明实施例的一方面，提供一种语音指令的响应方法，包括：获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；将所述播放设置发送至目标设备，控制目标设备按照所述播放设置对所述目标对象的语音指令进行响应。
9.根据本发明实施例的另一方面，还提供了一种语音指令的响应装置，包括：第一确定模块，用于获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；第二确定模块，用于将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；第三确定模块，用于在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；响应模块，用于将所述播放设置发送至目标设备，控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应。
10.根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音
指令的响应方法。
11.根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述语音指令的响应方法。
12.通过本发明，在获取到目标对象的语音指令的情况下，根据语音指令确定目标对象的目标声纹信息，并根据目标声纹信息确定目标对象的预估年龄，以及与预估年龄对应的目标播放音量，进而控制目标设备按照目标播放音量对所述目标对象的语音指令进行响应。采用上述技术方案，解决了无法为不同年龄的用户设置不同的播放音量的问题。进而可以根据用户的语音确定用户的年龄，再根据年龄来确定设备的播放音量，提高了用户的体验感。
附图说明
13.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示例性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
14.图1是本发明实施例的语音指令的响应方法的计算机终端的硬件结构框图；
15.图2是根据本发明实施例的语音指令的响应方法的流程图(一)；
16.图3是根据本发明实施例的语音指令的响应方法的场景示意图；
17.图4是根据本发明实施例的语音指令的响应方法的流程图(二)；
18.图5是根据本发明实施例的语音指令的响应装置的结构框图(一)；
19.图6是根据本发明实施例的语音指令的响应装置的结构框图(二)。
具体实施方式
20.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
21.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.本技术实施例中所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的语音指令的响应方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(microprocessor unit，简称是mpu)或可编程逻辑器件(programmable logic device，简称是pld))和用于存储数据的存储器104，在
一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
23.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音指令的响应方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
24.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
25.为了解决上述问题，在本实施例中提供了一种语音指令的响应方法，本技术实施例的语音指令响应方法包括但不限于应用在云端服务器中，图2是根据本发明实施例的语音指令的响应方法的流程图(一)，该流程包括如下步骤：
26.步骤s202，获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；
27.步骤s204，将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；
28.需要说明的是，目标神经网络模型用于根据输入的声纹信息确定对应的预估年龄；
29.步骤s206，在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，其中，播放设置包括目标播放音量；
30.为了更好的理解，假设得到的预估年龄为15岁，在(10-20)这个年龄区间，则将预设的(10-20)年龄区间对应的播放音量确定为目标播放音量。假设得到的预估年龄为65岁，在(60-70)这个年龄区间，则将预设的(60-70)年龄区间对应的播放音量确定为目标播放音量，需要说明的是，由于不同年龄的人生理特征不一样，可接受的音量也是不同的，进而(10-20)年龄区间对应的播放音量与(60-70)年龄区间对应的播放音量是不相同的。
31.步骤s208，将所述播放设置发送至目标设备，控制目标设备按照所述播放设置对所述目标对象的语音指令进行响应。
32.需要说明的是，本实施例的目标设备包括但不限于：智能音箱，具有语音功能的设备。目标对象包括但不限于使用目标设备的用户。
33.作为一个可选的示例，上述步骤s208可以通过以下方式实现：根据所述语音指令对应的语义信息确定响应音频；控制所述目标设备按照所述目标播放音量播放所述响应音频。
34.也就是说，云端服务器会根据语音指令确定语义信息，进而根据语义信息在互联网上进行搜索，进而确定响应音频，为了更好的理解，作为一个可选的示例，假设云端服务器识别得到的语音指令为“请播放一首音乐”，进而云端服务器可以根据用户的偏好确定目标音乐，并发送至目标设备，控制目标设备通过目标播放音量播放目标音乐。
35.通过上述步骤，在获取到目标对象的语音指令的情况下，根据语音指令确定目标对象的目标声纹信息，并根据目标声纹信息确定目标对象的预估年龄，以及与预估年龄对应的目标播放音量，进而控制目标设备按照目标播放音量对所述目标对象的语音指令进行响应。采用上述技术方案，解决了无法为不同年龄的用户设置不同的播放音量的问题。进而可以根据用户的语音确定用户的年龄，再根据年龄来确定设备的播放音量，提高了用户的体验感。
36.在一个示例性的实施例中，在得到目标对象的目标声纹信息之后，还需要确定预设的目标声纹库中是否存在所述目标声纹信息。
37.如果目标声纹库中存在目标声纹信息，则根据所述目标声纹信息对应的历史操作日志，确定所述目标播放音量，需要说明的是，所述历史操作日志用于存储所述目标声纹信息对应的历史播放音量。
38.需要说明的是，目标声纹信息可以唯一的标识用户，而历史操作日志中存储的是目标设备给用户播放回复信息时的历史播放音量，进而可以通过目标声纹信息确定目标播放音量。
39.如果目标声纹库中不存在目标声纹信息，则将所述目标声纹信息输入所述目标神经网络模型，得到所述目标对象的所述预估年龄。
40.在一个示例性的实施例中，根据所述目标声纹信息对应的历史操作日志，确定所述目标播放音量，可以通过以下方式实现：
41.在历史操作日志中存在目标声纹信息对应的历史播放音量的情况下，将所述目标播放音量确定为所述历史播放音量的平均值，或者，所述历史播放音量中的前一播放音量，或者所述历史播放音量的中位数；
42.在所述历史操作日志中不存在所述目标声纹信息对应的历史播放音量的情况下，将所述目标播放音量确定为所述目标声纹信息对应的预设音量。
43.也就是说，假设云端服务器中存在用户的目标声纹信息，但可能是用户在注册的时候保存的，但用户在注册以后就没有使用过此设备了，那么在用户在第一次使用此设备的时候，由于不存在播放记录，则将用户预先设置好的音量作为目标播放音量。
44.在一个示例性的实施例中，由于用户在说话的过程中，周围可能突然出现噪声，进而得到的音频会存在噪声的干扰，使得识别得到的声纹信息不准确，进而为了提高识别准确率，根据所述语音指令确定所述目标对象的目标声纹信息，可以通过以下方式：对所述语音指令进行拆分，得到多个子音频，并根据所述多个子音频中的每个子音频，确定所述目标对象的子声纹信息，得到多个子声纹信息，进而根据多个子声纹信息确定目标对象的目标声纹信息。
45.也就是说，噪声可能并不会一直存在，即语音指令中可能存在一段时间是不存在噪声的，进而可以通过将语音指令进行拆分，确定每个子音频的声纹的方式来确定用户的声纹信息，可以提高识别的准确性。
46.在一个示例性的实施例中，确定目标对象的预估年龄，可以通过以下方式实现：
47.步骤s1：对所述语音指令进行拆分，得到多个子音频；根据所述多个子音频中的每个子音频，确定所述目标对象对应的多个子声纹信息，需要说明的是，所述目标声纹信息包括所述多个子声纹信息；
48.步骤s2：将所述多个子声纹信息中的每个子声纹信息分别输入所述目标神经网络模型中，确定每个子声纹信息对应的子声纹特征；
49.步骤s3：通过所述目标神经网络对所述多个子声纹特征进行分类，分别确定每个子声纹特征对应的预测年龄；
50.步骤s4：将确定的多个预测年龄进行加权求和，得到所述目标对象的所述预估年龄。
51.也就是说，可以先将多个子声纹信息进行合并，然后将得到的目标声纹信息输入目标神经网络模型，得到预估年龄。也可以先将多个子声纹信息分别输入到目标神经网络模型，得到多个预测年龄，进而进行加权求和，得到预估年龄。采用上述技术方案，可以提高识别的准确率。
52.在一个示例性的实施例中，将所述目标声纹信息输入目标神经网络模型之前，还需要执行以下步骤：
53.步骤s1：获取训练样本集合；
54.需要说明的是，训练样本集合中的每个训练样本包括样本对象的样本声纹信息以及样本对象的实际年龄。
55.步骤s2：通过训练样本集合对待训练的原始神经网络模型进行训练，并在样本对象的预估年龄与所述样本对象的实际年龄之间的损失值不满足预设的损失条件时，对所述原始神经网络模型中的参数进行调整，继续对所述原始神经网络模型进行训练；在样本对象的预估年龄与样本对象的实际年龄之间的损失值满足预设的损失条件时，结束训练，将结束训练时的所述原始神经网络模型确定为所述目标神经网络模型；
56.需要说明的是，样本对象的预估年龄是原始神经网络模型根据训练样本中的样本声纹信息确定出的年龄。
57.需要说明的是，上述原始神经网络模型包括但不限于采用卷积神经网络模型，递归神经网络模型，深信度网络模型。可选的，可以通过损失函数计算样本对象的预估年龄与样本对象的实际年龄之间的损失值。
58.在一个示例性的实施例中，在控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应的过程中，如果获取到目标对象的音量调节指令，则响应于所述音量调节指令，确定与所述目标年龄区间对应的第一音量调节幅度，并按照所述第一音量调节幅度，将所述目标播放音量调节成第一播放音量，进而控制所述目标设备按照所述第一播放音量继续响应；需要说明的是，所述音量调节指令用于调节所述目标设备播放语音指令的对应的响应音频的音量。
59.需要说明的是，第一音量调节幅度与默认的第一音量调节幅度不同，例如，默认的音量调节幅度为1个单元，而在(10-20)年龄区间，对应的第一音量调节幅度为2个单位的音量，在(60-70)年龄区间，对应的第一音量调节幅度为4个单位的音量。
60.例如，在第一用户(65岁)使用目标设备播放音乐的过程中，如果下发了音量调节
指令(将音量调大一点)，则目标设备会在原有的播放音量的基础上增加4个单位的音量。而如果是第二用户(15岁)使用目标设备播放音乐的过程中，下发了音量调节指令(将音量调大一点)，则目标设备只会在原有的播放音量的基础上增加2个单位的音量。
61.在一个示例性的实施例中，在控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应之后，若获取到目标对象下发的重新播放指令，则响应于所述重新播放指令，确定与所述目标年龄区间对应的第二音量调节幅度；按照所述第二音量调节幅度，将所述目标播放音量调节成第二播放音量；控制所述目标设备按照所述播放设置再次对所述目标对象的语音指令进行响应。需要说明的是，所述重新播放指令用于指示所述目标设备再次响应语音指令。第二音量调整幅度为在获取到重新播放指令的情况下，在上一次播放音量的基础上需要增加的音量值。
62.例如，在用户(65岁)下发重新播放指令的情况下，则云端服务器会控制目标设备在上一次播放音量的基础上增加4个单位的音量重新播放语音指令的对应的响应音频。在用户(11岁)下发重新播放指令的情况下，则云端服务器会控制目标设备在上一次播放音量的基础上增加2个单位的音量重新播放语音指令的对应的响应音频。
63.可选的，第一音量调整幅度与第二音量调整幅度可以相同，也可以不同。第二音量调整幅度可以与默认的第二音量调节幅度相同或不同。
64.显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。为了更好的理解上述语音指令的响应方法，以下结合实施例对上述过程进行说明，但不用于限定本发明实施例的技术方案，具体地：
65.在一个可选的实施例中，图3是根据本发明实施例的语音指令的响应方法的场景示意图，具体的，使用音箱的用户包括：小孩，中年人，老年人等。
66.图4是根据本发明实施例的语音指令的响应方法的流程图(二)，具体，具有以下步骤：
67.步骤s402，智能音箱获取用户下发的语音指令，智能音箱系统获取声纹数据(相当于上述实施例中的目标声纹信息)；
68.步骤s404，智能音箱系统根据声纹判断用户年龄等级；
69.假设，确定用户a为60岁老人，用户b为6岁儿童。
70.步骤s406，智能音箱系统内查询年龄音量表，获取年龄对应的音量参数；
71.延续上述例子假设，对某智能音箱产品，60岁老人一般设置音量为50个单元，10岁以下儿童一般设置音量为25个单位。
72.步骤s408，智能音箱系统调整音箱音量参数。
73.继续延续上述例子假设，用户a使用时，系统自动将音量调整为50个单位；用户b使用时，系统自动将音量调整为25个单位。
74.也就是说，智能音箱系统中具有声纹年龄模型(相当于上述实施例中的目标神经网络模型)与年龄音量表，当接收到用户操作指令时，智能音箱系统获取用户的声纹，精准判断用户的年龄，根据音量表自动对智能音箱音量进行智能调节。
75.此外，本发明实施例的上述技术方案，不同年龄用户在使用智能音箱时均会获得舒适的音量，从而提升智能音箱的用户使用体验，提升产品的智能程度与市场竞争力。
76.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施
例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。
77.在本实施例中还提供了一种语音指令的响应装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
78.图5是根据本发明实施例的语音指令的响应装置的结构框图(一)，该装置包括：
79.第一确定模块52，用于获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；
80.第二确定模块54，用于将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；
81.第三确定模块56，用于在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；
82.响应模块58，用于将所述播放设置发送至目标设备，控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应。
83.通过上述装置，在获取到目标对象的语音指令的情况下，根据语音指令确定目标对象的目标声纹信息，并根据目标声纹信息确定目标对象的预估年龄，以及与预估年龄对应的目标播放音量，进而控制目标设备按照目标播放音量对所述目标对象的语音指令进行响应。采用上述技术方案，解决了无法为不同年龄的用户设置不同的播放音量的问题。进而可以根据用户的语音确定用户的年龄，再根据年龄来确定设备的播放音量，提高了用户的体验感。
84.图6是根据本发明实施例的语音指令的响应装置的结构框图(二)，该装置包括：第四确定模块60，训练模块62。
85.在一个示例性的实施例中，第四确定模块60，用于确定预设的目标声纹库中是否存在所述目标声纹信息；在所述目标声纹库中存在所述目标声纹信息的情况下，根据所述目标声纹信息对应的历史操作日志，确定所述目标播放音量，其中，所述历史操作日志用于存储所述目标声纹信息对应的历史播放音量。
86.在一个示例性的实施例中，第二确定模块54，用于在所述目标声纹库中不存在所述目标声纹信息的情况下，将所述目标声纹信息输入所述目标神经网络模型，得到所述目标对象的所述预估年龄。
87.在一个示例性的实施例中，第四确定模块60，还用于在所述历史操作日志中存在所述目标声纹信息对应的历史播放音量的情况下，将所述目标播放音量确定为所述历史播放音量的平均值，或者，所述历史播放音量中的前一播放音量；在所述历史操作日志中不存在所述目标声纹信息对应的历史播放音量的情况下，将所述目标播放音量确定为所述目标声纹信息对应的预设音量。
88.在一个示例性的实施例中，第一确定模块52，还用于对所述语音指令进行拆分，得到多个子音频；根据所述多个子音频中的每个子音频，确定所述目标对象的子声纹信息，得到多个子声纹信息；对所述多个子声纹信息进行融合，得到所述目标声纹信息。
89.在一个示例性的实施例中，第一确定模块52，还用于对所述语音指令进行拆分，得到多个子音频；根据所述多个子音频中的每个子音频，确定所述目标对象对应的多个子声纹信息，其中，所述目标声纹信息包括所述多个子声纹信息；第二确定模块54，还用于将所述多个子声纹信息中的每个子声纹信息分别输入所述目标神经网络模型中，确定每个子声纹信息对应的子声纹特征；通过所述目标神经网络对所述多个子声纹特征进行分类，分别确定每个子声纹特征对应的预测年龄；将确定的多个预测年龄进行加权求和，得到所述目标对象的所述预估年龄。
90.在一个示例性的实施例中，训练模块62用于获取训练样本集合，其中，所述训练样本集合中的每个训练样本包括样本对象的样本声纹信息以及所述样本对象的实际年龄；通过所述训练样本集合对待训练的原始神经网络模型进行训练，并在样本对象的预估年龄与所述样本对象的实际年龄之间的损失值不满足预设的损失条件时，对所述原始神经网络模型中的参数进行调整，继续对所述原始神经网络模型进行训练；在所述样本对象的预估年龄与所述样本对象的实际年龄之间的损失值满足所述预设的损失条件时，结束训练，将结束训练时的所述原始神经网络模型确定为所述目标神经网络模型，其中，所述样本对象的预估年龄是所述原始神经网络模型根据所述训练样本中的样本声纹信息确定出的年龄。
91.在一个示例性的实施例中，响应模块58还用于根据所述语音指令对应的语义信息确定响应音频；控制所述目标设备按照所述目标播放音量播放所述响应音频。
92.在一个示例性的实施例中，响应模块58还用于在控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应的过程中，获取音量调节指令，其中，所述音量调节指令用于调节所述目标设备的播放音量；响应于所述音量调节指令，确定与所述目标年龄区间对应的第一音量调节幅度；按照所述第一音量调节幅度，将所述目标播放音量调节成第一播放音量；或者在控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应之后，获取重新播放指令，其中，所述重新播放指令用于指示所述目标设备再次响应所述语音指令；响应于所述重新播放指令，确定与所述目标年龄区间对应的第二音量调节幅度；按照所述第二音量调节幅度，将所述目标播放音量调节成第二播放音量；控制所述目标设备按照所述播放设置再次对所述目标对象的语音指令进行响应。
93.本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
94.可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：
95.s1，获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；
96.s2，将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；
97.s3，在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；
98.s4，将所述播放设置发送至目标设备，控制目标设备按照所述播放设置对所述目标对象的语音指令进行响应。
99.在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
100.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。
101.本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
102.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
103.s1，获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；
104.s2，将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；
105.s3，在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；
106.s4，将所述播放设置发送至目标设备，控制目标设备按照所述播放设置对所述目标对象的语音指令进行响应。
107.在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
108.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。
109.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
110.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种语音指令的响应方法，其特征在于，包括：获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；将所述播放设置发送至目标设备，控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定预设的目标声纹库中是否存在所述目标声纹信息；在所述目标声纹库中存在所述目标声纹信息的情况下，根据所述目标声纹信息对应的历史操作日志，确定所述目标播放音量，其中，所述历史操作日志用于存储所述目标声纹信息对应的历史播放音量。3.根据权利要求2所述的方法，其特征在于，所述根据所述目标声纹信息对应的历史操作日志，确定所述目标播放音量，包括：在所述历史操作日志中存在所述目标声纹信息对应的历史播放音量的情况下，将所述目标播放音量确定为所述历史播放音量的平均值，或者，所述历史播放音量中的前一播放音量；在所述历史操作日志中不存在所述目标声纹信息对应的历史播放音量的情况下，将所述目标播放音量确定为等于所述目标声纹信息对应的预设音量。4.根据权利要求1-3任一项所述的方法，其特征在于，根据所述语音指令确定所述目标对象的目标声纹信息，包括：对所述语音指令进行拆分，得到多个子音频；根据所述多个子音频中的每个子音频，确定所述目标对象对应的多个子声纹信息，其中，所述目标声纹信息包括所述多个子声纹信息；所述将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄，包括：将所述多个子声纹信息中的每个子声纹信息分别输入所述目标神经网络模型中，确定每个子声纹信息对应的子声纹特征；通过所述目标神经网络对所述多个子声纹特征进行分类，分别确定每个子声纹特征对应的预测年龄；将确定的多个预测年龄进行加权求和，得到所述目标对象的所述预估年龄。5.根据权利要求1所述的方法，其特征在于，所述将所述目标声纹信息输入目标神经网络模型之前，所述方法还包括：获取训练样本集合，其中，所述训练样本集合中的每个训练样本包括样本对象的样本声纹信息以及所述样本对象的实际年龄；通过所述训练样本集合对待训练的原始神经网络模型进行训练，并在样本对象的预估年龄与所述样本对象的实际年龄之间的损失值不满足预设的损失条件时，对所述原始神经网络模型中的参数进行调整，继续对所述原始神经网络模型进行训练；在所述样本对象的预估年龄与所述样本对象的实际年龄之间的损失值满足所述预设的损失条件时，结束训练，将结束训练时的所述原始神经网络模型确定为所述目标神经网络模型，其中，所述样本
对象的预估年龄是所述原始神经网络模型根据所述训练样本中的样本声纹信息确定出的年龄。6.根据权利要求1所述的方法，其特征在于，控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应，包括：根据所述语音指令对应的语义信息确定响应音频；控制所述目标设备按照所述目标播放音量播放所述响应音频。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：在控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应的过程中，获取音量调节指令，其中，所述音量调节指令用于调节所述目标设备的播放音量；响应于所述音量调节指令，确定与所述目标年龄区间对应的第一音量调节幅度；按照所述第一音量调节幅度，将所述目标播放音量调节成第一播放音量；或者在控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应之后，获取重新播放指令，其中，所述重新播放指令用于指示所述目标设备再次响应所述语音指令；响应于所述重新播放指令，确定与所述目标年龄区间对应的第二音量调节幅度；按照所述第二音量调节幅度，将所述目标播放音量调节成第二播放音量；控制所述目标设备按照所述播放设置再次对所述目标对象的语音指令进行响应。8.一种语音指令的响应装置，其特征在于，包括：第一确定模块，用于获取目标对象的语音指令，并根据所述语音指令确定所述目标对象的目标声纹信息；第二确定模块，用于将所述目标声纹信息输入目标神经网络模型，得到所述目标对象的预估年龄；第三确定模块，用于在所述目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与所述目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；响应模块，用于将所述播放设置发送至目标设备，控制所述目标设备按照所述播放设置对所述目标对象的语音指令进行响应。9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。

技术总结
本发明公开了一种语音指令的响应方法及装置、存储介质及电子装置，其中，上述方法包括：获取目标对象的语音指令，并根据语音指令确定目标对象的目标声纹信息；将目标声纹信息输入目标神经网络模型，得到目标对象的预估年龄，其中，目标神经网络模型用于根据输入的声纹信息确定对应的预估年龄；在目标对象的预估年龄位于预设的目标年龄区间的情况下，确定与目标年龄区间具有预设的对应关系的播放设置，所述播放设置包括目标播放音量；将所述播放设置发送至目标设备，控制目标设备按照所述播放设置对所述目标对象的语音指令进行响应。采用上述技术方案，解决无法为不同年龄的用户设置不同的播放音量的问题。不同的播放音量的问题。不同的播放音量的问题。

技术研发人员：骆小菊
受保护的技术使用者：海尔智家股份有限公司
技术研发日：2022.03.22
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-4185.html

专利

最新回复(0)