语音播放方法、装置、计算机可读存储介质及电子设备与流程

allin2023-01-18 243

1.本公开涉及计算机技术领域，尤其是一种语音播放方法、装置、计算机可读存储介质及电子设备。

背景技术：

2.目前，在一些包含多个人的空间内，需要将某些人或某些区域内发出的声音采集并播放出来。目前主流的方案是设置单独的麦克风，通过用户手持、佩戴等方式采集用户的声音。例如，用户在车辆内部进行唱歌的场景，需要在车内配备额外的麦克风设备作为拾音终端，通过对这些拾音终端的灵敏度、指向性等参数进行设计，使得麦克风获取的声音屏蔽音频播放设备播放声反馈的影响。或者，可以将手机作为拾音终端，与车载系统连接以后，作为麦克风使用。
3.目前的在一些空间内进行音频采集和播放的方案，用户在设置音频采集播放设备的功能或启动音频采集播放功能时，需要手动进行操作，操作便利性较低。

技术实现要素：

4.本公开的实施例提供了一种语音播放方法、装置、计算机可读存储介质及电子设备。
5.本公开的实施例提供了一种语音播放方法，该方法包括：基于发声意图的检测结果，确定目标空间内有发声意图的目标用户；确定目标用户的目标部位在目标空间的目标位置；基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风；从目标麦克风采集的音频信号中提取目标用户的目标语音信号；控制目标空间内的音频播放设备播放目标语音信号。
6.根据本公开实施例的另一个方面，提供了一种语音播放装置，该装置包括：第一确定模块，用于基于发声意图的检测结果，确定目标空间内有发声意图的目标用户；第二确定模块，用于确定目标用户的目标部位在目标空间的目标位置；第三确定模块，用于基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风；提取模块，用于从目标麦克风采集的音频信号中提取目标用户的目标语音信号；播放模块，用于控制目标空间内的音频播放设备播放目标语音信号。
7.根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述语音播放方法。
8.根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述语音播放方法。
9.基于本公开上述实施例提供的语音播放方法、装置、计算机可读存储介质及电子设备，通过基于发声意图的检测结果，确定目标空间内有发声意图的目标用户，然后确定目标用户的目标部位在目标空间的目标位置，再基于目标位置与目标空间内的麦克风阵列包
括的麦克风之间的位置关系，确定目标用户对应的目标麦克风，并从目标麦克风采集的音频信号中提取目标用户的目标语音信号，最后控制目标空间内的音频播放设备播放目标语音信号。实现了自动识别有发声意图的目标用户，并自动为目标用户分配麦克风，用户无需手动控制麦克风进行声音采集和播放，且用户无需手持单独的麦克风或移动到设置有麦克风的位置即可完成采集和播放音频，大大提高了用户利用麦克风播放语音的操作便利性，同时节约了单独设置用于播放语音的麦克风耗费的成本。
10.下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。
附图说明
11.通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
12.图1是本公开所适用的系统图。
13.图2是本公开一示例性实施例提供的语音播放方法的流程示意图。
14.图3是本公开另一示例性实施例提供的语音播放方法的流程示意图。
15.图4是本公开另一示例性实施例提供的语音播放方法的流程示意图。
16.图5是本公开另一示例性实施例提供的语音播放方法的流程示意图。
17.图6是本公开的实施例的目标用户的目标部位所处的目标收音区域的示意图。
18.图7是本公开另一示例性实施例提供的语音播放方法的流程示意图。
19.图8是本公开另一示例性实施例提供的语音播放方法的流程示意图。
20.图9是本公开另一示例性实施例提供的语音播放方法的流程示意图。
21.图10是本公开一示例性实施例提供的语音播放装置的结构示意图。
22.图11是本公开另一示例性实施例提供的语音播放装置的结构示意图。
23.图12是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
24.下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。
25.应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
26.本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。
27.还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。
28.还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。
29.另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。
30.还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。
31.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
32.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
33.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
34.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
35.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。
36.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
37.申请概述
38.目前的在一些空间内进行音频采集和播放方案，用户在设置音频采集播放设备的功能或启动音频采集播放功能时，需要手动进行操作，距离控制装置较远的用户，需要进行大幅度的移动才能操作控制装置，操作便利性较低。例如在行驶的车辆内的场景下，乘客需要手动操作触摸屏等控制终端，车内空间狭窄，乘客操作不便，且乘客在车内移动会对车辆行驶安全造成影响。
39.为解决该问题，本公开实施例提供了一种语音播放，可以实现自动识别用户的发声意图并为用户分配麦克风的方案。
40.示例性系统
41.图1示出了可以应用本公开的实施例的语音播放方法或语音播放装置的示例性系统架构100。
42.如图1所示，系统架构100可以包括终端设备101、网络102、服务器103、、麦克风阵列104和音频播放设备105。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
43.麦克风阵列104可以采集目标空间内发出的音频信号。音频播放设备105可以将麦克风阵列采集的音频信号进行播放。目标空间可以为各种类型的空间，例如车内空间、船内空间、房屋内空间等。
44.用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如多媒体应用、搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。
45.终端设备101可以是各种电子设备，包括但不限于车载终端(例如车载导航终端)诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。终端设备101可以控制语音交互设备(可以是终端设备101本身，也可以是与终端设备101连接的其他设备)进行语音交互。
46.服务器103可以是提供各种服务的服务器，例如对终端设备101上传的音频信号进行处理的后台服务器。后台服务器可以接收终端设备上传音频信号、图像等以进行发声意图检测，还可以对接收到的音频信号进行语音分离等操作，得到目标用户的语音信号并发送到音频播放设备105。
47.需要说明的是，本公开的实施例所提供的语音播放方法可以由服务器103执行，也可以由终端设备101执行，相应地，语音播放装置可以设置于服务器103中，也可以设置于终端设备101中。
48.应该理解，图1中的终端设备101、网络102、服务器103、麦克风阵列104和音频播放设备105的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备101、网络102、服务器103、麦克风阵列104和音频播放设备105。例如，在音频信号不需要远程处理的情况下，上述系统架构可以不包括网络和服务器，只包括麦克风阵列、终端设备和音频播放设备。
49.示例性方法
50.图2是本公开一示例性实施例提供的语音播放方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：
51.步骤201，基于发声意图的检测结果，确定目标空间内有发声意图的目标用户。
52.在本实施例中，电子设备可以基于发声意图的检测结果，确定目标空间内有发声意图的目标用户。其中，上述检测结果可以表示目标空间内是否存在具有发声意图的用户。发声意图可以表示各种形式的发声行为，例如唱歌、演讲、伴奏等。
53.电子设备可以根据预先设置的各种发声意图检测方式得到发声意图的检测结果。例如，目标空间内可以设置有相机，电子设备可以识别相机拍摄的图像，根据识别结果确定各个用户是否做出了特定的动作(例如手握麦克风的动作)，将做出特定动作的用户确定为有发声意图的目标用户。
54.步骤202，确定目标用户的目标部位在目标空间的目标位置。
55.在本实施例中，电子设备可以确定目标用户的目标部位在目标空间的目标位置。其中，目标部位可以为各种部位，例如头部、嘴部、手部(例如适用于用户进行拍手、操作乐器等场景)等。电子设备可以基于各种方式确定目标部位所在的目标位置。例如，可以对目
标空间内的相机拍摄的图像进行识别，确定目标部位在图像中的位置，并根据图像与目标空间内的实际区域的映射关系，确定目标部位所处的实际位置，该位置即为目标位置。
56.步骤203，基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风。
57.在本实施例中，电子设备可以基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风。其中，麦克风阵列包括设置在目标空间内的不同位置的多个麦克风。作为示例，当目标空间为车内空间时，车内每个座位附近可以分别设置一个麦克风，或者车内每排座位上方分别设置两个麦克风。
58.在确定了上述目标位置后，电子设备可以从麦克风阵列中，将距离目标位置最近的麦克风确定为目标麦克风。
59.步骤204，从目标麦克风采集的音频信号中提取目标用户的目标语音信号。
60.在本实施例中，电子设备可以从目标麦克风采集的音频信号中提取目标用户的目标语音信号。具体地，电子设备可以基于现有的语音分离技术(例如盲源分离、声源定位、自适应滤波等技术)，从目标麦克风采集的一路音频信号中，提取由目标位置发出的语音信号，该语音信号即目标用户的目标语音信号。
61.步骤205，控制目标空间内的音频播放设备播放目标语音信号。
62.在本实施例中，电子设备可以控制目标空间内的音频播放设备(例如图1所示的音频播放设备105)播放目标语音信号。具体地，电子设备可以生成用于指示音频播放设备播放目标语音信号的指令，音频播放设备基于该指令，播放对应的目标语音信号。
63.本公开的上述实施例提供的方法，通过基于发声意图的检测结果，确定目标空间内有发声意图的目标用户，然后确定目标用户的目标部位在目标空间的目标位置，再基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风，并从目标麦克风采集的音频信号中提取目标用户的目标语音信号，最后控制目标空间内的音频播放设备播放目标语音信号。实现了自动识别有发声意图的目标用户，并自动为目标用户分配麦克风，用户无需手动控制麦克风进行声音采集和播放，且用户无需手持单独的麦克风或移动到设置有麦克风的位置即可完成采集和播放音频，大大提高了用户利用麦克风播放语音的操作便利性，同时节约了单独设置用于播放语音的麦克风耗费的成本。
64.在一些可选的实现方式中，如图3所示，步骤201中，对于目标空间内的至少一个用户中的每个待检测用户，对待检测用户执行如下子步骤：
65.步骤2011，对待检测用户进行发声手势检测，得到待检测用户的发声手势信息。
66.其中，待检测用户是至少一个用户中，待对其进行发声意图检测的用户。对于任意一个用户，在本次进行发声意图检测之前，该用户即为待检测用户，本次对该用户进行发声意图检测之后，则该用户不再是待检测用户。应当理解，待检测用户是针对本次发声意图检测所做的定义，若下次还需要对该用户进行发声意图检测，则该用户在下次进行发声意图检测之前，又可以被确定为待检测用户。
67.电子设备可以对目标空间内的相机拍摄的图像进行手势识别，得到发声手势信息。发声手势信息可以表示该用户是否做出了发声手势。作为示例，发声手势可以包括以下至少一项：手握麦克风的手势、挥手手势等。
68.步骤2012，基于待检测用户的语音，确定待检测用户的语音意图信息。
69.具体地，电子设备可以通过语音分离技术，从麦克风阵列采集的各路音频信号中，提取待检测用户的语音信号，并对该语音信号进行识别，得到语音意图信息。语音意图信息可以表示该用户是否发出了发声意图语音。作为示例，发声意图语音可以为“我要唱歌”、“给我麦克风”等。
70.步骤2013，基于待检测用户的唇部动作，确定待检测用户的唇语信息。
71.具体地，电子设备可以对上述相机拍摄的包含待检测用户的唇部的图像序列进行唇部动作特征识别，得到唇语信息。唇语信息表示该用户的唇部动作所代表的语音是否具有发声意图的含义。作为示例，若唇语信息代表的语音为“我要唱歌”，则确定该用户具有发声意图。
72.步骤2014，响应于确定待检测用户的发声手势信息、语音意图信息和唇语信息中的至少第一预设数量的信息满足意图判断条件，确定待检测用户为有发声意图的目标用户。
73.其中，第一预设数量可以任意设置，例如设置为2。发声手势信息、语音意图信息和唇语信息中的每条信息均对应于一个意图判断条件。例如，发声手势信息对应的意图判断条件为：发声手势信息与预设手势信息(例如表示手握麦克风的手势信息)匹配。语音意图信息对应的意图判断条件为：语音意图信息与预设语音信息(例如表示“我要唱歌”的语音信息)匹配。唇语信息对应的意图判断条件为：唇语信息与预设唇语信息(例如表示语音“我要唱歌”的唇语信息)匹配。
74.由于上述步骤2011-步骤2014是针对每个待检测用户执行的，因此，本实施例执行结束后，可以确定目标空间内的每个用户是否有发声意图。
75.本实施例通过多种发生意图检测方式确定有发声意图的目标用户，实现了灵活地利用各种手段进行用户的发声意图检测，同时还可以实现通过各种发生意图检测结果进行发声意图的验证，从而大大提高了对用户进行发声意图检测的准确性。
76.在一些可选的实现方式中，如图4所示，步骤204可以包括如下子步骤：
77.步骤2041，基于目标麦克风采集的音频信号，确定主音频信号。
78.具体地，目标麦克风采集的一路音频信号即可以为主音频信号。或者，将目标麦克风采集的一路音频信号进行滤波等处理，得到主音频信号。
79.步骤2042，基于将麦克风阵列中的其他麦克风采集的音频信号，确定参考音频信号。
80.具体地，其他各麦克风采集的各路音频信号即可以为参考音频信号。或者，将其他各麦克风采集的各路音频信号进行滤波等处理，得到参考音频信号。
81.步骤2043，基于参考音频信号，对主音频信号进行滤波处理，得到目标用户的目标语音信号。
82.具体地，电子设备可以利用自适应滤波算法，将目标麦克风以外的其他麦克风采集的音频信号作为参考，自适应滤除主音频信号中的对应于非目标用户的音频信号。例如某个非目标麦克风采集到某个用户发出的一段语音，则可以基于自适应滤波算法，将主音频信号中与这一段语音匹配的音频信号作为噪声滤除，从而得到目标用户的目标语音信号。此外，电子设备也可以采用机器学习方法训练的神经网络模型，将主音频信号和各路参
考音频信号输入模型中，最终输出目标用户的目标语音信号。
83.本实施例通过区分主音频信号和参考音频信号，对主音频信号进行滤波处理，可以实现将目标用户以外的其他用户发出的语音信号滤除，从而在播放目标语音信号时可以避免同时播放其他用户的语音信号，实现了有针对性且高质量地对目标用户的目标语音信号进行播放。
84.在一些可选的实现方式中，如图5所示，步骤204包括如下子步骤：
85.步骤2044，基于对目标用户拍摄的目标部位图像，确定目标用户的目标部位在目标麦克风的收音范围内所处的目标收音区域。
86.通常，目标麦克风的收音范围近似为以目标麦克风的位置为圆心的扇形区域，电子设备可以根据目标部位图像与实际空间的映射关系，确定目标部位图像中的目标部位所在的子扇形区域在收音范围内的位置，该子扇形区域可以确定为目标收音区域。
87.作为示例，如图6所示，目标麦克风601的收音范围用图中602所示的扇形区域表示，目标用户的嘴部为目标部位，目标用户的嘴部位于扇形区域602中的子扇形区域6021中，子扇形区域6021即为目标收音区域。子扇形区域6021的角度为预设角度(例如3
°
)，电子设备可以通过确定目标用户的嘴部的位置在扇形区域602中确定预设角度的子扇形区域6021。
88.步骤2045，对目标麦克风采集的音频信号进行声源定位，确定目标麦克风的收音范围内的至少一个声源的位置。
89.其中，声源定位的方法可以采用现有技术实现，这里不再赘述。电子设备可以对目标麦克风采集的混合音频信号进行分离，得到至少一条分离后音频信号，并对每条分离后音频信号进行声源定位，从而确定每条分离后音频信号对应的声源的位置。
90.步骤2046，对采集自位于目标收音区域以外的声源的音频信号进行抑制。
91.具体地，电子设备可以将目标收音区域以外的声源的音频信号滤除，从而完成对目标收音区域以外的声源的音频信号的抑制。
92.步骤2047，从抑制后的音频信号中提取目标用户的目标语音信号。
93.具体地，电子设备可以对抑制后的音频信号进行降噪，将背景噪声滤除，从而得到目标用户的目标语音信号。
94.本实施例通过确定目标用户的目标部位所处的目标收音区域，并抑制采集自目标收音区域以外的声源发出的音频信号，从而可以更精确地提取目标用户的目标语音信号，降低播放目标语音信号时其他用户的声音的干扰。
95.在一些可选的实现方式中，如图7所示，在步骤205之后，该方法还包括：
96.步骤206，基于停止发声意图检测，确定目标用户停止发声的意图。
97.其中，停止发声意图检测的方法可以通过各种方式实现。具体可以实现的方式请参考下述可选实施例。目标用户停止发声的意图是指目标用户不再需要电子设备采集其发出的语音信号并播放，目标用户希望目标麦克风不再专属于自己。
98.步骤207，响应于确定检测结果表示目标用户具有停止发声的意图，停止从目标麦克风采集的音频信号中提取目标用户的目标语音信号。
99.电子设备停止从目标麦克风采集的音频信号中提取目标语音信号后，音频播放设备随之停止播放目标语音信号，即目标麦克风不再专属于目标用户，电子设备回收目标麦
克风的使用权。此时，目标麦克风可以继续采集音频信号，电子设备可以继续对目标空间内的各个用户进行发声意图检测。
100.本实施例通过对目标用户进行停止发声意图检测，在用户具有停止发声意图时，不再为目标用户分配目标麦克风，目标麦克风可以被其他方面用途，从而无需用户手动操作即可停止目标用户对目标麦克风的占用，进一步提高了用户对麦克风进行控制的便利性。
101.在一些可选的实现方式中，如图8所示，步骤206可以包括如下子步骤：
102.步骤2061，对目标用户进行发声手势检测，响应于确定得到的发声手势信息与预设发声手势不匹配，或与预设停止发声手势匹配，生成表示目标用户具有停止发声意图的第一检测结果。
103.其中，发声手势检测可以与上述步骤2011中描述的方法相同。作为示例，预设发声手势包括虚拟的握住麦克风的手势，目标用户在唱歌过程中，当检测到的发声手势信息表示用户不再是握住麦克风的手势时，生成表示用户不再具有唱歌意图的检测结果。或者，预设停止发声手势可以为用户放下双手、摆手等手势，当检测到发声手势信息表示这些手势时，生成表示用户不再具有唱歌意图的检测结果。
104.步骤2062，对目标用户进行语音识别，响应于确定得到的语音意图信息与预设停止发声意图语音匹配，生成表示目标用户具有停止发声意图的第二检测结果。
105.其中，语音意图信息的获得方法可以与上述步骤2012中描述的方法相同。作为示例，预设停止发声意图语音包括语音“我不想唱了”、“停止收声”等。目标用户在唱歌过程中，当检测到用户发出了语音“我不想唱了”时，生成表示用户不再具有唱歌意图的检测结果。
106.步骤2063，对目标用户进行唇语识别，响应于确定得到的唇语信息表示停止发声意图，生成表示目标用户具有停止发声意图的第三检测结果。
107.其中，唇语识别的方法可以与上述步骤2013中描述的方法相同。作为示例，当检测到的唇语信息代表的语音为“我不想唱了”时，则确定目标用户具有停止发声意图，生成表示目标用户具有停止发声意图的检测结果。
108.步骤2064，确定目标用户最近一次停止发声的时刻与当前时刻之间的时长，响应于确定时长大于或等于预设时长，生成表示目标用户具有停止发声意图的第四检测结果。
109.即，当检测到目标用户长时间没有发出语音信号时，确定目标用户具有停止发声意图，生成表示目标用户具有停止发声意图的检测结果。
110.步骤2065，响应于得到第一检测结果、第二检测结果、第三检测结果、第四检测结中的至少第二预设数量的检测结果，确定目标用户停止发声的意图。
111.其中第二预设数量可以任意设置(例如1或2)，即上述四种检测目标用户是否具有停止发声意图的方式中的任意第二预设数量的方式检测到目标用户具有停止发声的意图，即可判定目标用户确实有停止发声的意图，然后执行上述步骤207。
112.本实施例提供了多种对目标用户的停止发声意图的检测方式，实现了灵活地利用各种手段进行目标用户的停止发声意图检测，进一步方便了目标用户归还目标麦克风的使用权的操作，同时还可以实现通过各种停止发声意图的检测结果进行停止发声意图的验证，从而大大提高了对用户进行停止发声意图检测的准确性。
113.在一些可选的实现方式中，如图9所示，在步骤205之后，该方法还可以包括：
114.步骤208，基于预设的至少一种状态检测方式对目标空间的当前状态进行检测，得到至少一个状态信息。
115.可选的，上述至少一种状态检测方式可以包括：
116.方式一，对目标空间内的用户进行动作检测，得到表示用户的当前动作的动作信息。
117.其中，动作检测的方法可以采用现有技术。例如，可以对目标空间内的相机拍摄的图像序列包括的图像中的用户进行姿态识别，根据每个图像对应的姿态信息确定用户的动作。
118.方式二，对目标空间内的语音交互设备的状态进行检测，得到表示语音交互设备当前的使用状态的使用状态信息。
119.方式三，对目标空间所在的环境进行检测，得到表示目标空间的所在环境的类型的环境类型信息。
120.方式四，对目标空间的运动状态进行检测，得到表示目标空间的运动状态的运动状态信息。
121.其中，该方式下的目标空间为可移动的空间，例如车内空间。
122.步骤209，响应于确定至少一个状态信息中的任一状态信息符合对应的预设状态，降低目标空间内的音频播放设备的播放音量，和/或输出与预设环境类型对应的提示信息。
123.其中，每个状态信息对应于一个预设状态。作为示例，对于上述方式一，在车辆空间场景中，若检测到某个用户做出了拨打电话的动作，或检测到用户的肢体动作为可能对驾驶员的驾驶行为造成影响的肢体动作，确定动作信息符合预设动作状态。
124.对于上述方式二，作为示例，语音交互设备可以包括蓝牙通话设备，电子设备可以对蓝牙通话设备进行检测，当检测到用户正在使用蓝牙通话设备进行通话的使用状态信息时，或者，当检测到有用户利用语音交互设备对车内的设备进行语音控制的使用状态信息时，确定使用状态信息符合预设使用状态。
125.对于上述方式三，作为示例，当目标空间为车内空间时，可以利用设置在车外的相机对车辆周围环境拍摄的图像进行环境检测，或通过adas(advanced driver assistance system，高级驾驶辅助系统)、高精地图定位等方式进行环境检测，当检测到的环境类型信息表示当前路况较差、车辆拥堵、周围存在警车、消防车等特种车辆等情况时，确定环境类型信息符合预设环境状态。
126.对于上述方式四，运动状态可以包括车辆的行驶速度、加速度等。当检测到的运动状态信息表示当前车速较快、紧急刹车等状态时确定运动状态信息符合预设运动状态。
127.在降低音频播放设备的播放音量时，可以将播放音量降低到最低，或降低到预设音量。上述提示信息可以通过各种方式输出，例如在目标空间内的显示器上显示，或通过音频播放设备播放提示音等。
128.本实施例通过基于至少一种状态检测方式对目标空间的当前状态进行检测，在符合预设状态时，通过降低播放音量和/或输出提示信息，可以有效降低音频播放对用户造成的干扰，及时提醒用户目标空间当前所处的状态。在该方法应用到车辆上时，有助于提高音频播放对驾驶员的干扰，提高行车安全。
129.在一些可选的实现方式中，如图9所示，在步骤209之后，该方法还包括：
130.步骤210，响应于检测到目标空间的当前状态不再符合对应的预设状态，控制音频播放设备的播放音量调整到目标音量。
131.其中，目标音量可以是预设的固定的音量，也可以是在执行上述步骤209之前音频播放设备的音量。
132.本实施例实现了在目标空间内的用户不再受音频播放的干扰的情况下，自动恢复音频播放设备的音量，无需用户手动设置音量，进一步提高了用户操作的便利性。
133.在一些可选的实现方式中，在步骤202之后，该方法还可以包括：
134.在目标空间内的显示器上显示表示目标位置的标记。
135.作为示例，目标位置的标记可以为对应的座位的标记。
136.本实施例通过显示表示目标位置的标记，可以使目标空间内的用户更直观地查看到当前目标麦克风的使用情况，有助于用户更灵活地使用麦克风阵列进行语音播放。
137.示例性装置
138.图10是本公开一示例性实施例提供的语音播放装置的结构示意图。本实施例可应用在电子设备上，如图10所示，语音播放装置包括：第一确定模块1001，用于基于发声意图的检测结果，确定目标空间内有发声意图的目标用户；第二确定模块1002，用于确定目标用户的目标部位在目标空间的目标位置；第三确定模块1003，用于基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风；提取模块1004，用于从目标麦克风采集的音频信号中提取目标用户的目标语音信号；播放模块1005，用于控制目标空间内的音频播放设备播放目标语音信号。
139.在本实施例中，第一确定模块1001可以基于发声意图的检测结果，确定目标空间内有发声意图的目标用户。其中，上述检测结果可以表示目标空间内是否存在具有发声意图的用户。发声意图可以表示各种形式的发声行为，例如唱歌、演讲、伴奏等。
140.第一确定模块1001可以根据预先设置的各种发声意图检测方式得到发声意图的检测结果。例如，目标空间内可以设置有相机，第一确定模块1001可以识别相机拍摄的图像，根据识别结果确定各个用户是否做出了特定的动作(例如手握麦克风的动作)，将做出特定动作的用户确定为有发声意图的目标用户。
141.在本实施例中，第二确定模块1002可以确定目标用户的目标部位在目标空间的目标位置。其中，目标部位可以为各种部位，例如头部、嘴部、手部(例如适用于用户进行拍手、操作乐器等场景)等。第二确定模块1002可以基于各种方式确定目标部位所在的目标位置。例如，可以对目标空间内的相机拍摄的图像进行识别，确定目标部位在图像中的位置，并根据图像与目标空间内的实际区域的映射关系，确定目标部位所处的实际位置，该位置即为目标位置。
142.在本实施例中，第三确定模块1003可以基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风。其中，麦克风阵列包括设置在目标空间内的不同位置的多个麦克风。作为示例，当目标空间为车内空间时，车内每个座位附近可以分别设置一个麦克风，或者车内每排座位上方分别设置两个麦克风。
143.在确定了上述目标位置后，第三确定模块1003可以从麦克风阵列中，将距离目标位置最近的麦克风确定为目标麦克风。
144.在本实施例中，提取模块1004可以从目标麦克风采集的音频信号中提取目标用户的目标语音信号。具体地，提取模块1004可以基于现有的语音分离技术(例如盲源分离、声源定位、自适应滤波等技术)，从目标麦克风采集的一路音频信号中，提取由目标位置发出的语音信号，该语音信号即目标用户的目标语音信号。
145.在本实施例中，播放模块1005可以控制目标空间内的音频播放设备(例如图1所示的音频播放设备105)播放目标语音信号。具体地，播放模块1005可以生成用于指示音频播放设备播放目标语音信号的指令，音频播放设备基于该指令，播放对应的目标语音信号。
146.参照图11，图11是本公开另一示例性实施例提供的语音播放装置的结构示意图。
147.在一些可选的实现方式中，第一确定模块1001包括：第一检测单元10011，用于对于目标空间内的至少一个用户中的每个待检测用户，对待检测用户进行发声手势检测，得到待检测用户的发声手势信息；第一确定单元10012，用于基于待检测用户的语音，确定待检测用户的语音意图信息；第二确定单元10013，用于基于待检测用户的唇部动作，确定待检测用户的唇语信息；第三确定单元10014，用于响应于确定待检测用户的发声手势信息、语音意图信息和唇语信息中的至少第一预设数量的信息满足意图判断条件，确定待检测用户为有发声意图的目标用户。
148.在一些可选的实现方式中，提取模块1004包括：第四确定单元10041，用于基于目标麦克风采集的音频信号，确定主音频信号；第五确定单元10042，用于基于将麦克风阵列中的其他麦克风采集的音频信号，确定参考音频信号；滤波单元10043，用于基于参考音频信号，对主音频信号进行滤波处理，得到目标用户的目标语音信号。
149.在一些可选的实现方式中，提取模块1004包括：第六确定单元10044，用于基于对目标用户拍摄的目标部位图像，确定目标用户的目标部位在目标麦克风的收音范围内所处的目标收音区域；定位单元10045，用于对目标麦克风采集的音频信号进行声源定位，确定目标麦克风的收音范围内的至少一个声源的位置；抑制单元10046，用于对采集自位于目标收音区域以外的声源的音频信号进行抑制；提取单元10047，用于从抑制后的音频信号中提取目标用户的目标语音信号。
150.在一些可选的实现方式中，该装置还包括：第四确定模块1006，用于基于停止发声意图检测，确定目标用户停止发声的意图；控制模块1007，用于响应于确定检测结果表示目标用户具有停止发声的意图，停止从目标麦克风采集的音频信号中提取目标用户的目标语音信号。
151.在一些可选的实现方式中，第四确定模块1006包括：第二检测单元10061，用于对目标用户进行发声手势检测，响应于确定得到的发声手势信息与预设发声手势不匹配，或与预设停止发声手势匹配，生成表示目标用户具有停止发声意图的第一检测结果；第三检测单元10062，用于对目标用户进行语音识别，响应于确定得到的语音意图信息与预设停止发声意图语音匹配，生成表示目标用户具有停止发声意图的第二检测结果；第四检测单元10063，用于对目标用户进行唇语识别，响应于确定得到的唇语信息表示停止发声意图，生成表示目标用户具有停止发声意图的第三检测结果；第五检测单元10064，用于确定目标用户最近一次停止发声的时刻与当前时刻之间的时长，响应于确定时长大于或等于预设时长，生成表示目标用户具有停止发声意图的第四检测结果；第七确定单元10065，用于响应于得到第一检测结果、第二检测结果、第三检测结果、第四检测结中的至少第二预设数量的
检测结果，确定目标用户停止发声的意图。
152.在一些可选的实现方式中，该装置还包括：检测模块1008，用于基于预设的至少一种状态检测方式对目标空间的当前状态进行检测，得到至少一个状态信息；第一调整模块1009，用于响应于确定至少一个状态信息中的任一状态信息符合对应的预设状态，降低目标空间内的音频播放设备的播放音量，和/或输出与预设环境类型对应的提示信息。
153.在一些可选的实现方式中，该装置还包括：第二调整模块1010，用于响应于检测到目标空间的当前状态不再符合对应的预设状态，控制音频播放设备的播放音量调整到目标音量。
154.在一些可选的实现方式中，该装置还包括：显示模块1011，用于在目标空间内的显示器上显示表示目标位置的标记。
155.本公开上述实施例提供的语音播放装置，通过基于发声意图的检测结果，确定目标空间内有发声意图的目标用户，然后确定目标用户的目标部位在目标空间的目标位置，再基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风，并从目标麦克风采集的音频信号中提取目标用户的目标语音信号，最后控制目标空间内的音频播放设备播放目标语音信号。实现了自动识别有发声意图的目标用户，并自动为目标用户分配麦克风，用户无需手动控制麦克风进行声音采集和播放，且用户无需手持单独的麦克风或移动到设置有麦克风的位置即可完成采集和播放音频，大大提高了用户利用麦克风播放语音的操作便利性，同时节约了单独设置用于播放语音的麦克风耗费的成本。
156.示例性电子设备
157.下面，参考图12来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。
158.图12示出了根据本公开实施例的电子设备的框图。
159.如图12所示，电子设备1200包括一个或多个处理器1201和存储器1202。
160.处理器1201可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1200中的其他组件以执行期望的功能。
161.存储器1202可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1201可以运行程序指令，以实现上文的本公开的各个实施例的语音播放方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如发声意图检测结果、目标语音信号等各种内容。
162.在一个示例中，电子设备1200还可以包括：输入装置1203和输出装置1204，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
163.例如，在该电子设备是终端设备101或服务器103时，该输入装置1203可以是麦克风、相机等设备，用于输入用于意图检测的图像、采集的音频信号等。在该电子设备是单机设备时，该输入装置1203可以是通信网络连接器，用于从终端设备101和服务器103接收所
输入的图像、音频信号等。
164.该输出装置1204可以向外部输出各种信息，包括目标语音信号等。该输出设备1204可以包括例如音频播放设备、显示器、打印机、以及通信网络及其所连接的远程输出设备等等。
165.当然，为了简化，图12中仅示出了该电子设备1200中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1200还可以包括任何其他适当的组件。
166.示例性计算机程序产品和计算机可读存储介质
167.除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音播放方法中的步骤。
168.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
169.此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音播放方法中的步骤。
170.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
171.以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。
172.本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
173.本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使
用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
174.可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
175.还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
176.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
177.为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术特征：
1.一种语音播放方法，包括：基于发声意图的检测结果，确定目标空间内有发声意图的目标用户；确定所述目标用户的目标部位在所述目标空间的目标位置；基于所述目标位置与所述目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定所述目标用户对应的目标麦克风；从所述目标麦克风采集的音频信号中提取所述目标用户的目标语音信号；控制所述目标空间内的音频播放设备播放所述目标语音信号。2.根据权利要求1所述的方法，其中，所述基于发声意图的检测结果，确定目标空间内有发声意图的目标用户，包括：对于所述目标空间内的至少一个用户中的每个待检测用户，对所述待检测用户进行发声手势检测，得到所述待检测用户的发声手势信息；基于所述待检测用户的语音，确定所述待检测用户的语音意图信息；基于所述待检测用户的唇部动作，确定所述待检测用户的唇语信息；响应于确定所述待检测用户的发声手势信息、语音意图信息和唇语信息中的至少第一预设数量的信息满足意图判断条件，确定所述待检测用户为有发声意图的目标用户。3.根据权利要求1所述的方法，其中，所述从所述目标麦克风采集的音频信号中提取所述目标用户的目标语音信号，包括：基于所述目标麦克风采集的音频信号，确定主音频信号；基于将所述麦克风阵列中的其他麦克风采集的音频信号，确定参考音频信号；基于所述参考音频信号，对所述主音频信号进行滤波处理，得到所述目标用户的目标语音信号。4.根据权利要求1所述的方法，其中，所述从所述目标麦克风采集的音频信号中提取所述目标用户的目标语音信号，包括：基于对所述目标用户拍摄的目标部位图像，确定所述目标用户的目标部位在所述目标麦克风的收音范围内所处的目标收音区域；对所述目标麦克风采集的音频信号进行声源定位，确定所述目标麦克风的收音范围内的至少一个声源的位置；对采集自位于所述目标收音区域以外的声源的音频信号进行抑制；从抑制后的音频信号中提取所述目标用户的目标语音信号。5.根据权利要求1所述的方法，其中，在所述控制所述目标空间内的音频播放设备播放所述目标语音信号之后，所述方法还包括：基于停止发声意图检测，确定所述目标用户停止发声的意图；响应于确定检测结果表示所述目标用户具有停止发声的意图，停止从所述目标麦克风采集的音频信号中提取所述目标用户的目标语音信号。6.根据权利要求5所述的方法，其中，所述基于停止发声意图检测，确定所述目标用户停止发声的意图，包括：对所述目标用户进行发声手势检测，响应于确定得到的发声手势信息与预设发声手势不匹配，或与预设停止发声手势匹配，生成表示所述目标用户具有停止发声意图的第一检测结果；
对所述目标用户进行语音识别，响应于确定得到的语音意图信息与预设停止发声意图语音匹配，生成表示所述目标用户具有停止发声意图的第二检测结果；对所述目标用户进行唇语识别，响应于确定得到的唇语信息表示停止发声意图，生成表示所述目标用户具有停止发声意图的第三检测结果；确定所述目标用户最近一次停止发声的时刻与当前时刻之间的时长，响应于确定所述时长大于或等于预设时长，生成表示所述目标用户具有停止发声意图的第四检测结果；响应于得到所述第一检测结果、第二检测结果、第三检测结果、第四检测结中的至少第二预设数量的检测结果，确定所述目标用户停止发声的意图。7.根据权利要求1所述的方法，其中，在所述控制所述目标空间内的音频播放设备播放所述目标语音信号之后，所述方法还包括：基于预设的至少一种状态检测方式对所述目标空间的当前状态进行检测，得到至少一个状态信息；响应于确定所述至少一个状态信息中的任一状态信息符合对应的预设状态，降低所述目标空间内的音频播放设备的播放音量，和/或输出与所述预设环境类型对应的提示信息。8.根据权利要求7所述的方法，其中，在所述降低所述目标空间内的音频播放设备的播放音量，和/或输出与所述预设环境类型对应的提示信息之后，所述方法还包括：响应于检测到所述目标空间的当前状态不再符合对应的预设状态，控制所述音频播放设备的播放音量调整到目标音量。9.根据权利要求1所述的方法，其中，在所述确定所述目标用户的目标部位在所述目标空间的目标位置之后，所述方法还包括：在所述目标空间内的显示器上显示表示所述目标位置的标记。10.一种语音播放装置，包括：第一确定模块，用于基于发声意图的检测结果，确定目标空间内有发声意图的目标用户；第二确定模块，用于确定所述目标用户的目标部位在所述目标空间的目标位置；第三确定模块，用于基于所述目标位置与所述目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定所述目标用户对应的目标麦克风；提取模块，用于从所述目标麦克风采集的音频信号中提取所述目标用户的目标语音信号；播放模块，用于控制所述目标空间内的音频播放设备播放所述目标语音信号。11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的方法。12.一种电子设备，所述电子设备包括：处理器；用于存储所述处理器的可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的方法。

技术总结
本公开实施例公开了一种语音播放方法、装置、计算机可读存储介质及电子设备，其中，该方法包括：基于发声意图的检测结果，确定目标空间内有发声意图的目标用户；确定目标用户的目标部位在目标空间的目标位置；基于目标位置与目标空间内的麦克风阵列包括的麦克风之间的位置关系，确定目标用户对应的目标麦克风；从目标麦克风采集的音频信号中提取目标用户的目标语音信号；控制目标空间内的音频播放设备播放目标语音信号。本公开实施例实现了用户无需手动控制麦克风进行声音采集和播放，大大提高了用户利用麦克风播放语音的操作便利性，同时节约了单独设置用于播放语音的麦克风耗费的成本。的成本。的成本。

技术研发人员：姚碧莹
受保护的技术使用者：北京地平线机器人技术研发有限公司
技术研发日：2022.03.30
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-4872.html

专利

最新回复(0)