音频信号处理方法、装置、存储介质和电子设备与流程

allin2023-02-10 238

1.本公开涉及车辆技术领域、音频处理技术领域和图像处理技术领域，尤其涉及一种音频信号处理方法、装置、存储介质和电子设备。

背景技术：

2.随着人们生活水平和提高车辆的普及率的提升，车辆的娱乐功能越来越丰富，一些车辆上设置了唱歌功能。
3.当前，一些车辆在开启唱歌功能时，可以通过车载音频输出设备输出车内人员的歌声，但是车载音频输出设备输出的歌声存在声反馈啸叫，用户体验差。

技术实现要素：

4.在实现本公开的过程中，发明人发现，当车内人员使用麦克风阵列唱歌时，麦克风阵列不仅会采集到唱歌声音信号，还可能采集到扬声器输出信号和车内人员的说话声音信号，如果直接通过扬声器阵列输出麦克风阵列采集的音频信号，则会发生声反馈啸叫，且可能输出说话声音信号，用户体验差。
5.为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种音频信号处理方法、装置、存储介质和电子设备。
6.根据本公开实施例的第一方面，提供一种音频信号处理方法，包括：
7.获取麦克风阵列信号，其中，所述麦克风阵列信号包括车内人声信号和扬声器输出信号；
8.对所述麦克风阵列信号进行波束处理，以增强所述车内人声信号，并抑制所述扬声器输出信号；
9.获取回声参考信号，基于所述回声参考信号对波束处理后的麦克风阵列信号进行声反馈抑制处理，抑制所述扬声器输出信号；
10.对所述增强后的车内人声信号进行音频信号分类检测，确定所述车内人声信号的类型；
11.响应于所述车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出所述唱歌声音信号。
12.根据本公开实施例的第二方面，提供一种音频信号处理装置，包括：
13.获取模块，用于获取麦克风阵列信号，其中，所述麦克风阵列信号包括车内人声信号和扬声器输出信号；
14.波束处理模块，用于对所述麦克风阵列信号进行波束处理，以增强所述车内人声信号，并抑制所述扬声器输出信号；
15.声反馈抑制模块，用于获取回声参考信号，基于所述回声参考信号对波束处理后的麦克风阵列信号进行声反馈抑制处理，抑制所述扬声器输出信号；
16.信号分类检测模块，用于对所述增强后的车内人声信号进行音频信号分类检测，
确定所述车内人声信号的类型；
17.信号输出模块，用于响应于所述车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出所述唱歌声音信号。
18.根据本公开实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的音频信号处理方法。
19.根据本公开实施例的第四方面，提供种电子设备，所述电子设备包括：
20.处理器；
21.用于存储所述处理器可执行指令的存储器；
22.所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的音频信号处理方法。
23.基于本公开上述实施例提供的音频信号处理方法、装置、存储介质和电子设备，在获取包括有车内人声信号和扬声器输出信号的麦克风阵列信号后，对麦克风阵列信号依次进行波束处理和声反馈抑制，可以增强车内人声信号并抑制扬声器输出信号。对增强后的车内人声信号进行音频信号分类检测，可以确定车内人声信号的类型。响应于车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出该唱歌声音信号，提升车内唱歌氛围并有效降低了声反馈啸叫。
24.下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。
附图说明
25.通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
26.图1是本公开一个实施例中音频信号处理方法的流程示意图；
27.图2是本公开一个实施例中步骤s4的流程示意图；
28.图3是本公开一个实施例中步骤s5的流程示意图；
29.图4是本公开一个实施例中步骤s1的流程示意图；
30.图5是本公开一个示例中麦克风阵列和扬声器阵列的设置位置示意图；
31.图6是本公开一个实施例中音频信号处理装置的结构框图；
32.图7是本公开一个实施例中信号分类检测模块400的结构框图；
33.图8是本公开一个实施例中信号输出模块500的结构框图；
34.图9是本公开一个实施例中第一获取模块100的结构框图；
35.图10是本公开另一个实施例中音频信号处理装置的结构框图；
36.图11是本公开另一个实施例中信号输出模块500的结构框图
37.图12是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
38.下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的
示例实施例的限制。
39.应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
40.本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。
41.还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。
42.还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。
43.另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。
44.还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。
45.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
46.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
47.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
48.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。
49.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
50.本公开概述
51.车内设置有麦克风阵列和扬声器阵列。通过麦克风阵列采集车内音频得到麦克风阵列信号之后，对麦克风阵列信号依次进行波束处理和声反馈抑制，可以增强车内人声信号并抑制扬声器输出信号。由于增强了车内人声信号并抑制了扬声器输出信号，可以对增强后的车内人声信号进行准确地信号分类，从而可以确定车内人声信号的类型。利用扬声器阵列输出唱歌声音信号，可以提升了车内唱歌氛围并有效降低了声反馈啸叫。
52.示例性方法
53.图1是本公开一个实施例中音频信号处理方法的流程示意图。如图1所示，包括如下步骤：
54.s1：获取麦克风阵列信号。其中，麦克风阵列信号包括车内人声信号和扬声器输出信号。
55.在车舱内设置有麦克风阵列，麦克风阵列可以包括设置在每个车内座位附近的麦克风，麦克风阵列也可以是设置在车内其他位置，本方法对麦克风阵列的数量和位置不做限定，通过麦克风阵列采集车内音频得到麦克风阵列信号。其中，麦克风阵列信号包括车内人声信号和扬声器输出信号，还可能包括噪声信号，例如风噪或机械噪声。
56.s2：对麦克风阵列信号进行波束处理，以增强车内人声信号，并抑制扬声器输出信号。
57.由于车内人声信号是车内发声人员的发出的，具有车内发声人员的音频特征，且通常在一段连续的时间内信号频率不会发生跳变。麦克风阵列采集的扬声器输出信号具有与车内人声信号和扬声器阵列参数相关的音频特征，且通常在一段连续的时间内信号频率不会发生跳变。噪声信号可能由各种噪声声源生成，通常不具有明显的音频特征，且一段连续的时间内信号频率可能发生跳变。因此噪声信号与车内人声信号和扬声器输出信号具有明显差异，可以对噪声信号进行降噪，以降低麦克风阵列信号中的噪声信号强度。
58.在进行降噪后，可以基于麦克风阵列中每个麦克风的位置，以及车内人声信号的声源位置，对麦克风阵列信号进行波束处理，对车内人声信号的声源方向进行信号增强，从而可以增强车内人声信号，并抑制扬声器输出信号。
59.s3：获取回声参考信号，基于回声参考信号对波束处理后的麦克风阵列信号进行声反馈抑制处理，抑制扬声器输出信号。
60.在车内设置有扬声器阵列，扬声器阵列可以包括设置在每个车内座位附近的扬声器。可以在对每个扬声器设置adc芯片获取扬声器准备播放的信号，作为回声参考信号。
61.基于回声参考信号，对对波束处理后的麦克风阵列信号进行声反馈抑制处理，可以有效抑制扬声器输出信号，从而进一步降低麦克风阵列信号中扬声器输出信号的信号强度。
62.s4：对增强后的车内人声信号进行音频信号分类检测，确定车内人声信号的类型。
63.可以通过预先训练好的信号分类模型对增强后的车内人声信号进行音频信号分类检测，从而可以确定车内人声信号的类型。其中，信号分类模型是根据样本说话声音信号和样本唱歌声音信号进行训练得到的，通过信号分类模型可以检测出输入模型的人声信号包括唱歌声音信号还是说话声音信号。
64.s5：响应于车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出唱歌声音信号。
65.在本实施例中，在获取包括有车内人声信号和扬声器输出信号的麦克风阵列信号后，对麦克风阵列信号依次进行波束处理和声反馈抑制，可以增强车内人声信号并抑制扬声器输出信号。对增强后的车内人声信号进行音频信号分类检测，可以确定车内人声信号的类型。响应于车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出该唱歌声音信号，提升了车内唱歌氛围并有效降低了声反馈啸叫。
66.图2是本公开一个实施例中步骤s4的流程示意图。如图2所示，步骤s4包括：
67.s4-1：对增强后的车内人声信号进行音频信号分类检测，得到唱声信号。
68.可以通过预先训练好的信号分类模型中的第一模型单元对车内人声信号进行音频信号分类检测，从而得到唱声信号。其中，第一模型单元是根据说话声音信号和样本唱歌声音信号进行训练得到的，且第一模型单元用于从声音信号的音频特征上检测输入的声音信号是唱声信号还是说话声音信号。当车内人声信号包括唱声信号时，可以通过第一模型单元得到唱声信号。
69.s4-2：基于车载音频播放软件，获取原唱无伴奏信号。
70.车载音频播放软件可以是车载系统中运行的音频播放软件。车载音频播放软件可以获取当前播放歌曲的背景音频信号和原唱无伴奏信号，进而使用扬声器阵列播放背景音频信号和原唱无伴奏信号。通过车载音频播放软件，可以获取与麦克风阵列信号同时间段的原唱无伴奏信号。
71.s4-3：对唱声信号和原唱无伴奏信号进行相关性计算，若唱声信号与原唱无伴奏信号之间的相关度大于预设相关度阈值，则确定唱声信号为唱歌声音信号。
72.可以获取唱声信号的韵律特征，并获取原唱无伴奏信号的韵律特征，然后通过信号分类模型中的第二模型单元计算唱声信号的韵律特征与原唱无伴奏信号的韵律特征之间的相关度，当该相关度大于预设相关度阈值时，则可以确定唱声信号为唱歌声音信号。其中，该相关度为0到1之间的数值，相关度为0表征唱声信号与唱歌声音信号完全不相关，数值越大表征唱声信号与唱歌声音信号之间的相关性越高。
73.在本实施例中，对增强后的车内人声信号进行音频信号分类检测，得到唱声信号之后，将唱声信号与原唱无伴奏信号进行相关度计算，从而根据相关度计算结果确定唱声信号是否是车内人员随着车载音频输出设备播放的歌曲唱歌的声音。
74.图3是本公开一个实施例中步骤s5的流程示意图。如图3所示，步骤s5包括：
75.s5-1：基于原唱无伴奏信号，以及唱声信号与原唱无伴奏信号之间的相关度，对唱歌声音信号进行唱声修正。其中，可以利用类似于直播声卡，基于该相关度对唱歌声音信号进行唱声修正。
76.s5-2：利用扬声器阵列输出唱声修正的唱歌声音信号。
77.在本实施例中，基于原唱无伴奏信号，以及唱声信号与原唱无伴奏信号之间的相关度对唱歌声音信号进行唱声修正后，利用扬声器阵列输出，可以实现美音效果。
78.在本公开一个实施例中，在步骤s4之后还包括：响应于车内人声信号的类型为说话声音信号，对说话声音信号进行语音识别，若语音识别结果包括语音指令，控制车载设备响应语音指令。例如，语音指令可以是对唱歌应用音量调整、暂停/继续、切歌等语音指令，如，当车载中控收到增大音量的语音指令时，控制增大扬声器阵列输出音量；语音指令可以是打开/关闭音区锁的语音指令，如“我要唱歌”，“停止唱歌”；语音指令也可以是控制车内其他车载设备的指令，例如打开氛围灯，打开空调等。
79.在本实施例中，在检测到车内人员发出语音指令时，可以控制车载设备响应该语音指令，提升人车交互的多样性，用户体验好。
80.图4是本公开一个实施例中步骤s1的流程示意图。如图4所示，步骤s1包括：
81.s1-1：获取车内各音区的音区锁状态。其中，音区锁状态包括音区锁定状态和音区
未锁定状态。其中，某个音区处于音区锁定状态确定采集声源位于该音区内的音频信号。某个音区处于音区未锁定状态确定不采集声源位于该音区内的音频信号。
82.可以针对车内每个座位设置一个音区，例如对驾驶员座位设置驾驶员音区，对副驾驶座位设置副驾驶音区，对乘客座位设置乘客位音区。
83.可以通过车载中控对每个音区设置一个音区锁，由车载中控控制每个音区的音区锁状态。可以通过触摸中控屏或者后排显示屏设置音区锁，也可以通过语音指令、手势指令等交互方式设置音区锁状态。
84.也可以是车内在车内座位设置音区锁按键，根据音区锁按键可以选择对应音区的音区锁状态。
85.s1-2：采集处于音区锁定状态的音区内的麦克风信号，确定为麦克风阵列信号。
86.在本实施例中，可以对车内各音区分别设置音区锁，仅采集处于音区锁定状态的音区内的麦克风信号，从而可以实现音区分离，由于可以不针对所有音区内的麦克风采集的信号进行处理，可以节省处理资源。
87.在本公开一个实施例中，在步骤s1之前，还可以包括：
88.s0-1：获取目标车内人员的视线信息和车载显示屏的显示内容。其中，目标车内人员可以包括驾驶员、副驾驶员和乘客中的至少一个。可以通过车内摄像头拍摄目标车内人员的车内图像，对该图像进行分析得到目标车内人员的视线信息。该视线信息可以通过图像分析出的目标车内人员的眼部在车内的位置，以及视线角度。可以通过车载中控获取车载显示屏的后台数据，进而得到车载显示屏的显示内容。
89.s0-2：基于视线信息，判断目标车内人员是否观看车载显示屏且持续时间超过预设时间阈值。
90.预先获取车载显示屏在车内的位置，再结合目标车内人员的眼部在车内的位置以及视线角度，可以判断目标车内人员是否观看车载显示屏。通过对一段时间内的多个车内图像帧，或者该时间段内的视频图像进行图像分析处理，可以判断目标车内人员是否观看车载显示屏且持续时间超过预设时间阈值。
91.s0-3：若车载显示屏的显示内容包括歌词信息，且目标车内人员的所属音区存在车内人声信号，且目标车内人员观看车载显示屏且持续时间超过预设时间阈值，确定目标车内人员具有唱歌行为。
92.可以通过车内图像确定目标车内人员在车内的位置，通过声源定位的方式可以确定目标车内人员所属音区是否存在车内人声信号。由于车内人员在唱歌时通常会看着车载显示屏上的歌词，因此若车载显示屏的显示内容包括歌词信息、且目标车内人员的所属音区存在车内人声信号，且目标车内人员观看车载显示屏且持续时间超过预设时间阈值时，可以确定目标车内人员具有唱歌行为。
93.相对应的，步骤s1包括：基于目标车内人员具有唱歌行为，采集目标车内人员的所属音区的麦克风信号，确定为麦克风阵列信号。即仅采集具有唱歌行为的音区内麦克风信号。
94.在本实施例中，在车载显示屏的显示内容包括歌词信息、且目标车内人员的所属音区存在车内人声信号，且目标车内人员观看车载显示屏且持续时间超过预设时间阈值时，可以确定目标车内人员具有唱歌行为，进而仅采集具有唱歌行为的音区内麦克风信号，
便于后续步骤对该麦克风信号进行处理，提升唱歌氛围并降低声反馈啸叫。
95.在本公开一个实施例中，麦克风阵列信号是通过麦克风阵列采集的，麦克风阵列包括多个麦克风组；扬声器输出信号是通过扬声器阵列输出的，扬声器阵列包括多个麦克风组；每个车内音区设置有一个麦克风组和一个扬声器组。
96.在本实施例中，通过对每个音区设置一个麦克风组和一个扬声器组，可以实现对指定音区进行精准地波束处理和声反馈抑制，进而可以降低车内人员唱歌时的声反馈啸叫。
97.图5是本公开一个示例中麦克风阵列和扬声器阵列的设置位置示意图。如图5所示，在本实施例中，扬声器组包括两个扬声器，两个扬声器的中心轴线位于同一条直线上且两个扬声器的朝向相反；麦克风组包括至少两个麦克风，至少两个麦克风的中心轴线位于同一条直线上且至少两个麦克风位于两个扬声器之间的对称面上。
98.本实施例中，通过每个音区的两个扬声器播放反向信号，使得对称面信号达到相消的效果，由于每个音区的两个麦克风位于对称面，麦克接受到的扬声器信号被物理抵消，有效降低啸叫。
99.在本公开的另一个实施例中，步骤s5包括：基于声源对象与麦克风阵列之间的距离，以及声源对象的头部姿态信息，对唱歌声音信号进行信号衰减补偿；利用扬声器阵列输出信号衰减补偿后的唱歌声音信号。
100.本公开的一个示例中，利用一组传声器，使用前完成一致性校验。将其中一个传声器置于人嘴附近，另一个传声器摆放在麦克安装位置采集信号，统计两个传声器幅度响应差异、车内人员的头部姿态和两个传声器距离之间的关系，其中，姿态包括车内人员的头部正对麦克风、侧对麦克风和低头。通过拍摄不同头部姿态下的车内图像，基于麦克风的位置，结合对车内图像的识别分析结果可以确定车内人员的头部与麦克风距离以及车内人员的头部姿态，进而生成信号衰减补偿函数。在步骤s5中，可以利用信号衰减补偿函数，基于声源对象与麦克风阵列之间的距离，以及声源对象的头部姿态信息，对唱歌声音信号进行信号衰减补偿。
101.在本实施例中，可以基于麦克风的位置，结合对车内图像的识别分析结果可以确定车内人员的头部与麦克风距离以及车内人员的头部姿态，对唱歌声音信号进行合理的信号衰减补偿，可以有效补偿车内人员嘴部发出的唱歌声音信号传播到麦克风阵列过程的信号衰减，利用扬声器阵列输出信号衰减补偿后的唱歌声音信号，可以提升唱歌声音的输出效果。
102.本公开实施例提供的任一种音频信号处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种音频信号处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种音频信号处理方法。下文不再赘述。
103.示例性装置
104.图6是本公开一个实施例中音频信号处理装置的结构框图。如图6所示，音频信号处理装置包括：
105.第一获取模块100，用于获取麦克风阵列信号，其中，所述麦克风阵列信号包括车内人声信号和扬声器输出信号；
106.波束处理模块200，用于对所述麦克风阵列信号进行波束处理，以增强所述车内人声信号，并抑制所述扬声器输出信号；
107.声反馈抑制模块300，用于获取回声参考信号，基于所述回声参考信号对波束处理后的麦克风阵列信号进行声反馈抑制处理，抑制所述扬声器输出信号；
108.信号分类检测模块400，用于对所述增强后的车内人声信号进行音频信号分类检测，确定所述车内人声信号的类型；
109.信号输出模块500，用于响应于所述车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出所述唱歌声音信号。
110.图7是本公开一个实施例中信号分类检测模块400的结构框图。如图7所示，信号分类检测模块400包括：
111.唱声信号获取单元410，用于对所述增强后的车内人声信号进行音频信号分类检测，得到唱声信号；
112.原唱无伴奏信号获取单元420，用于基于车载音频播放软件，获取原唱无伴奏信号；
113.唱歌声音信号确定单元430，用于对所述唱声信号和所述原唱无伴奏信号进行相关性计算，若所述唱声信号与所述原唱无伴奏信号之间的相关度大于预设相关度阈值，则确定所述唱声信号为所述唱歌声音信号。
114.图8是本公开一个实施例中信号输出模块500的结构框图。如图8所示，信号输出模块500包括：
115.唱声修正单元510，用于基于所述原唱无伴奏信号，以及所述唱声信号与所述原唱无伴奏信号之间的相关度，对所述唱歌声音信号进行唱声修正；
116.信号输出单元520，用于利用所述扬声器阵列输出唱声修正的唱歌声音信号。
117.在本公开一个实施例中，音频信号处理装置还包括语音处理单元，用于响应于所述车内人声信号的类型为说话声音信号，对所述说话声音信号进行语音识别，若所述语音识别结果包括语音指令，控制车载设备响应所述语音指令。
118.图9是本公开一个实施例中第一获取模块100的结构框图。如图9所示，第一获取模块100包括：
119.音区锁状态获取单元110，用于获取车内各音区的音区锁状态，其中，所述音区锁状态包括音区锁定状态和音区未锁定状态；
120.信号采集单元120，用于采集处于音区未锁定状态的音区内的麦克风信号，确定为所述麦克风阵列信号。
121.图10是本公开另一个实施例中音频信号处理装置的结构框图。如图10所示，音频信号处理装置还包括：
122.第二获取模块600，用于获取目标车内人员的视线信息和车载显示屏的显示内容；
123.判断模块700，用于基于所述视线信息，判断所述目标车内人员是否观看所述车载显示屏且持续时间超过预设时间阈值；
124.唱歌行为确定模块800，用于若所述车载显示屏的显示内容包括歌词信息，且所述目标车内人员的所属音区存在车内人声信号，且所述目标车内人员观看所述车载显示屏且持续时间超过所述预设时间阈值，确定所述目标车内人员具有唱歌行为；
125.其中，第一获取模块100用于基于所述目标车内人员具有唱歌行为，采集所述目标车内人员的所属音区的麦克风信号，确定为所述麦克风阵列信号。
126.在本公开的一个实施例中，所述麦克风阵列信号是通过麦克风阵列采集的，所述麦克风阵列包括多个麦克风组；所述扬声器输出信号是通过扬声器阵列输出的，所述扬声器阵列包括多个麦克风组；每个车内音区设置有一个麦克风组和一个扬声器组。
127.在本公开的一个实施例中，所述扬声器组包括两个扬声器，所述两个扬声器的中心轴线位于同一条直线上且所述两个扬声器的朝向相反；所述麦克风组包括至少两个麦克风，所述至少两个麦克风的中心轴线位于同一条直线上且所述至少两个麦克风位于所述两个扬声器之间的对称面上。
128.图11是本公开另一个实施例中信号输出模块500的结构框图。如图11所示，信号输出模块500包括：
129.信号衰减补偿单元530，用于基于所述声源对象与所述麦克风阵列之间的距离，以及所述声源对象的头部姿态信息，对所述唱歌声音信号进行信号衰减补偿；
130.信号输出单元540，用于利用所述扬声器阵列输出信号衰减补偿后的唱歌声音信号。
131.需要说明的是，本公开实施例的音频信号处理装置的具体实施方式与本公开实施例的音频信号处理方法的具体实施方式类似，具体参见音频信号处理方法部分，为了减少冗余，不作赘述。
132.示例性电子设备
133.下面，参考图12来描述根据本公开实施例的电子设备。如图12所示，电子设备包括一个或多个处理器10和存储器20。
134.处理器10可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。
135.存储器20可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器10可以运行所述程序指令，以实现上文所述的本公开的各个实施例的音频信号处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
136.在一个示例中，电子设备还可以包括：输入装置30和输出装置40，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。输入装置30可以例如键盘、鼠标等等。输出装置40可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
137.当然，为了简化，图12中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。
138.示例性计算机可读存储介质
139.计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是
可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
140.以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。
141.本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
142.本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
143.可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
144.还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
145.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
146.为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术特征：
1.一种音频信号处理方法，包括：获取麦克风阵列信号，其中，所述麦克风阵列信号包括车内人声信号和扬声器输出信号；对所述麦克风阵列信号进行波束处理，以增强所述车内人声信号，并抑制所述扬声器输出信号；获取回声参考信号，基于所述回声参考信号对波束处理后的麦克风阵列信号进行声反馈抑制处理，抑制所述扬声器输出信号；对所述增强后的车内人声信号进行音频信号分类检测，确定所述车内人声信号的类型；响应于所述车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出所述唱歌声音信号。2.根据权利要求1所述的音频信号处理方法，其中，所述对所述增强后的车内人声信号进行音频信号分类检测，确定所述车内人声信号的类型，包括：对所述增强后的车内人声信号进行音频信号分类检测，得到唱声信号；基于车载音频播放软件，获取原唱无伴奏信号；对所述唱声信号和所述原唱无伴奏信号进行相关性计算，若所述唱声信号与所述原唱无伴奏信号之间的相关度大于预设相关度阈值，则确定所述唱声信号为所述唱歌声音信号。3.根据权利要求2所述的音频信号处理方法，其中，所述响应于所述车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出所述唱歌声音信号，包括：基于所述原唱无伴奏信号，以及所述唱声信号与所述原唱无伴奏信号之间的相关度，对所述唱歌声音信号进行唱声修正；利用所述扬声器阵列输出唱声修正的唱歌声音信号。4.根据权利要求1所述的音频信号处理方法，在所述对所述增强后的车内人声信号进行音频信号分类检测，确定所述车内人声信号的类型之后，还包括：响应于所述车内人声信号的类型为说话声音信号，对所述说话声音信号进行语音识别，若所述语音识别结果包括语音指令，控制车载设备响应所述语音指令。5.根据权利要求1所述的音频信号处理方法，其中，所述获取麦克风阵列信号，包括：获取车内各音区的音区锁状态，其中，所述音区锁状态包括音区锁定状态和音区未锁定状态；采集处于音区锁定状态的音区内的麦克风信号，确定为所述麦克风阵列信号。6.根据权利要求5所述的音频信号处理方法，还包括：获取目标车内人员的视线信息和车载显示屏的显示内容；基于所述视线信息，判断所述目标车内人员是否观看所述车载显示屏且持续时间超过预设时间阈值；若所述车载显示屏的显示内容包括歌词信息，且所述目标车内人员的所属音区存在车内人声信号，且所述目标车内人员观看所述车载显示屏且持续时间超过所述预设时间阈值，确定所述目标车内人员具有唱歌行为；其中，所述获取麦克风阵列信号，包括：
基于所述目标车内人员具有唱歌行为，采集所述目标车内人员的所属音区的麦克风信号，确定为所述麦克风阵列信号。7.根据权利要求1-6任一项所述的音频信号处理方法，其中，所述麦克风阵列信号是通过麦克风阵列采集的，所述麦克风阵列包括多个麦克风组；所述扬声器输出信号是通过扬声器阵列输出的，所述扬声器阵列包括多个麦克风组；每个车内音区设置有一个麦克风组和一个扬声器组。8.根据权利要求7所述的音频信号处理方法，其中，所述扬声器组包括两个扬声器，所述两个扬声器的中心轴线位于同一条直线上且所述两个扬声器的朝向相反；所述麦克风组包括至少两个麦克风，所述至少两个麦克风的中心轴线位于同一条直线上且所述至少两个麦克风位于所述两个扬声器之间的对称面上。9.根据权利要求7所述的音频信号处理方法，其中，所述利用扬声器阵列输出所述唱歌声音信号，包括：基于所述声源对象与所述麦克风阵列之间的距离，以及所述声源对象的头部姿态信息，对所述唱歌声音信号进行信号衰减补偿；利用所述扬声器阵列输出信号衰减补偿后的唱歌声音信号。10.一种音频信号处理装置，包括：获取模块，用于获取麦克风阵列信号，其中，所述麦克风阵列信号包括车内人声信号和扬声器输出信号；波束处理模块，用于对所述麦克风阵列信号进行波束处理，以增强所述车内人声信号，并抑制所述扬声器输出信号；声反馈抑制模块，用于获取回声参考信号，基于所述回声参考信号对波束处理后的麦克风阵列信号进行声反馈抑制处理，抑制所述扬声器输出信号；信号分类检测模块，用于对所述增强后的车内人声信号进行音频信号分类检测，确定所述车内人声信号的类型；信号输出模块，用于响应于所述车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出所述唱歌声音信号。11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的音频信号处理方法。12.一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的音频信号处理方法。

技术总结
本公开实施例公开了一种音频信号处理方法、装置、存储介质和电子设备，其中，该方法包括：获取麦克风阵列信号；对所述麦克风阵列信号进行波束处理，以增强所述车内人声信号，并抑制所述扬声器输出信号；获取回声参考信号，基于所述回声参考信号对波束处理后的麦克风阵列信号进行声反馈抑制处理，抑制所述扬声器输出信号；对所述增强后的车内人声信号进行音频信号分类检测，确定所述车内人声信号的类型；响应于所述车内人声信号的类型为唱歌声音信号，利用扬声器阵列输出所述唱歌声音信号。本公开实施例可以提升车内唱歌氛围并有效降低了声反馈啸叫。低了声反馈啸叫。低了声反馈啸叫。

技术研发人员：程光伟牛建伟余凯
受保护的技术使用者：北京地平线机器人技术研发有限公司
技术研发日：2022.03.30
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-5108.html

专利

最新回复(0)