基于音频标签的推荐方法、装置、电子设备及存储介质与流程

allin2026-02-07 5

本公开涉及音频，尤其涉及一种基于音频标签的推荐方法、装置、电子设备、存储介质及计算机程序产品。

背景技术：

1、随着互联网技术和人工智能技术的高速发展，相关的应用已经逐步融入到人们的生活中，例如，出现了一种线上歌唱类的互动方式，用户可以通过该互动方式，将演唱的音频片段进行上传，与其他用户账户进行互动。相关技术中，一般是基于用户历史演唱过的音频片段进行待演唱的音频片段的推荐，导致推荐的音频片段与用户本身嗓音的适配性较差。

技术实现思路

1、本公开提供一种基于音频标签的推荐方法、装置、电子设备、存储介质及计算机程序产品，以至少解决相关技术中推荐的音频片段与用户本身嗓音的适配性较差的问题。本公开的技术方案如下：

2、根据本公开实施例的第一方面，提供一种基于音频标签的推荐方法，包括：

3、获取目标音频信号，并通过预训练的音色特征提取网络，提取所述目标音频信号对应的音色特征矩阵；

4、确定所述音色特征矩阵与音色标签数据库包含的多个音频数据的音色特征矩阵的第一匹配结果，以及确定所述音色特征矩阵与音频生产者数据库包含的多个音频数据的音色特征矩阵的第二匹配结果；

5、基于各所述第一匹配结果以及各所述第二匹配结果，确定所述目标音频信号的相似音频标签，所述相似音频标签包括相似音色标签以及相似音频生产者标签；

6、基于所述相似音色标签以及相似音频生产者标签确定所述目标音频信号的推荐信息。

7、在其中一个实施例中，所述第一匹配结果包括所述音色特征矩阵与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度；所述第二匹配结果包括所述音色特征矩阵与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度；所述基于各所述第一匹配结果以及各所述第二匹配结果，确定所述目标音频信号的相似音频标签，包括：

8、基于所述与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度，确定满足预设相似条件的第一相似音频数据，并基于所述第一相似音频数据的音色标签确定所述目标音频信号的相似音色标签；

9、基于所述与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度，确定满足所述预设相似条件的第二相似音频数据，并基于所述第二相似音频数据的音频生产者确定所述目标音频信号的相似音频生产者标签。

10、在其中一个实施例中，所述目标音频信号包括连续的至少两个预设时长的音频信号，所述第一匹配结果包括，各所述预设时长的音频信号分别与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度；所述第二匹配结果包括，各所述预设时长的音频信号分别与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度；

11、所述基于各所述第一匹配结果以及各所述第二匹配结果，确定所述目标音频信号的相似音频标签，包括：

12、针对每一预设时长的音频信号，基于所述预设时长的音频信号分别与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度，确定所述预设时长的音频信号对应的目标音色标签；以及基于所述预设时长的音频信号分别与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度，确定所述预设时长的音频信号对应的目标音频生产者标签；

13、对各所述预设时长的音频信号分别对应的目标音色标签进行融合处理，确定所述目标音频信号对应的相似音色标签，以及对各所述预设时长的音频信号分别对应的目标音频生产者进行融合处理，确定所述目标音频信号对应的相似音频生产者标签。

14、在其中一个实施例中，所述方法还包括：

15、通过所述预训练的音色特征提取网络对所述音色标签数据库包含的多个音频数据进行特征提取，得到各所述音频数据分别对应的音色特征矩阵；以及通过所述预训练的音色特征提取网络对所述音频生产者数据库包含的多个音频数据进行特征提取，得到各所述音频数据分别对应的音色特征矩阵。

16、在其中一个实施例中，所述推荐信息包括音频互动活动以及音频互动片段；所述基于所述相似音色标签以及相似音频生产者标签确定所述目标音频信号的推荐信息，包括：

17、获取所述相似音色标签对应的偏好音频互动活动以及偏好音频互动片段，以及获取所述相似音频生产者生产的多个音频互动片段；

18、基于所述相似音色标签对应的偏好音频互动活动、偏好音频互动片段以及所述相似音频生产者生产的多个音频互动片段，确定待推荐的音频互动活动以及音频互动片段，并向所述目标音频信号对应的用户账户推送所述待推荐的音频互动活动以及音频互动片段。

19、在其中一个实施例中，所述方法还包括：

20、获取训练数据，所述训练数据包括多个样本音频数据，所述样本音频数据包括样本音频信号、音色标签以及音频生产者标签；

21、针对于每一所述样本音频信号，通过频域转换算法，对所述样本音频信号进行转换处理，将处于时域的样本音频信号转换为音频频域信号，所述音频频域信号包括多个音频帧的频域信号；

22、针对于每一音频帧，计算所述频域信号的幅度值，基于所述幅度值计算梅尔倒谱特征，并将所述梅尔倒谱特征输入至待训练的音色特征提取网络，得到所述音频帧的音色特征向量；基于各所述音频帧的音色特征向量进行融合，得到所述样本音频信号的音色特征矩阵；

23、基于所述样本音频信号的音色特征矩阵以及前向后向网络进行预测，得到所述样本音频信号对应的预测音频生产者；

24、基于各所述样本音频信号对应的预测音频生产者以及各所述样本音频信号的音频生产者标签，对所述待训练的音色特征提取网络进行训练，得到训练完成的音色特征提取网络。

25、在其中一个实施例中，所述基于各所述样本音频信号对应的预测音频生产者以及各所述样本音频信号的音频生产者标签，对所述待训练的音色特征提取网络进行训练，得到训练完成的音色特征提取网络，包括：

26、针对每一所述样本音频信号，若所述样本音频信号的预测音频生产者与所述音频生产者标签满足预设一致条件，则确定音频生产者预测概率为第一目标值；若所述样本音频信号的预测音频生产者与所述音频生产者标签不满预设一致条件，则确定音频生产者预测概率为第二目标值，所述第一目标值大于所述第二目标值；

27、基于各所述样本音频信号分别对应的第一目标值或者第二目标值计算损失函数，并在不满足预设训练完成条件的情况下，基于所述损失函数对应的损失值对所述待训练的音色特征提取网络的网络参数进行更新，重新执行所述获取训练数据的步骤，直至满足所述预设训练完成条件，得到训练完成的音色特征提取网络。

28、根据本公开实施例的第二方面，提供一种基于音频标签的推荐装置，包括：

29、第一获取单元，被配置为执行获取目标音频信号，并通过预训练的音色特征提取网络，提取所述目标音频信号对应的音色特征矩阵；

30、第一确定单元，被配置为执行确定所述音色特征矩阵与音色标签数据库包含的多个音频数据的音色特征矩阵的第一匹配结果，以及确定所述音色特征矩阵与音频生产者数据库包含的多个音频数据的音色特征矩阵的第二匹配结果；

31、第二确定单元，被配置为执行基于各所述第一匹配结果以及各所述第二匹配结果，确定所述目标音频信号的相似音频标签，所述相似音频标签包括相似音色标签以及相似音频生产者标签；

32、在其中一个实施例中，所述第一匹配结果包括所述音色特征矩阵与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度；所述第二匹配结果包括所述音色特征矩阵与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度；所述第二确定单元包括：

33、第一确定子单元，被配置为执行基于所述与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度，确定满足预设相似条件的第一相似音频数据，并基于所述第一相似音频数据的音色标签确定所述目标音频信号的相似音色标签；

34、第二确定子单元，被配置为执行基于所述与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度，确定满足所述预设相似条件的第二相似音频数据，并基于所述第二相似音频数据的音频生产者确定所述目标音频信号的相似音频生产者标签。

35、在其中一个实施例中，所述目标音频信号包括连续的至少两个预设时长的音频信号，所述第一匹配结果包括，各所述预设时长的音频信号分别与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度；所述第二匹配结果包括，各所述预设时长的音频信号分别与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度；

36、所述第二确定单元包括：

37、第三确定子单元，被配置为执行针对每一预设时长的音频信号，基于所述预设时长的音频信号分别与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度，确定所述预设时长的音频信号对应的目标音色标签；以及基于所述预设时长的音频信号分别与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度，确定所述预设时长的音频信号对应的目标音频生产者标签；

38、第四确定子单元，被配置为执行对各所述预设时长的音频信号分别对应的目标音色标签进行融合处理，确定所述目标音频信号对应的相似音色标签，以及对各所述预设时长的音频信号分别对应的目标音频生产者进行融合处理，确定所述目标音频信号对应的相似音频生产者标签。

39、在其中一个实施例中，所述装置还包括：

40、特征提取单元，被配置为执行通过所述预训练的音色特征提取网络对所述音色标签数据库包含的多个音频数据进行特征提取，得到各所述音频数据分别对应的音色特征矩阵；以及通过所述预训练的音色特征提取网络对所述音频生产者数据库包含的多个音频数据进行特征提取，得到各所述音频数据分别对应的音色特征矩阵。

41、在其中一个实施例中，所述推荐信息包括音频互动活动以及音频互动片段；所述第三确定单元，包括：

42、第一获取子单元，被配置为执行获取所述相似音色标签对应的偏好音频互动活动以及偏好音频互动片段，以及获取所述相似音频生产者生产的多个音频互动片段；

43、推荐子单元，被配置为执行基于所述相似音色标签对应的偏好音频互动活动、偏好音频互动片段以及所述相似音频生产者生产的多个音频互动片段，确定待推荐的音频互动活动以及音频互动片段，并向所述目标音频信号对应的用户账户推送所述待推荐的音频互动活动以及音频互动片段。

44、在其中一个实施例中，所述装置还包括：

45、第二获取单元，被配置为执行获取训练数据，所述训练数据包括多个样本音频数据，所述样本音频数据包括样本音频信号、音色标签以及音频生产者标签；

46、转换单元，被配置为执行针对于每一所述样本音频信号，通过频域转换算法，对所述样本音频信号进行转换处理，将处于时域的样本音频信号转换为音频频域信号，所述音频频域信号包括多个音频帧的频域信号；

47、计算单元，被配置为执行针对于每一音频帧，计算所述频域信号的幅度值，基于所述幅度值计算梅尔倒谱特征，并将所述梅尔倒谱特征输入至待训练的音色特征提取网络，得到所述音频帧的音色特征向量；基于各所述音频帧的音色特征向量进行融合，得到所述样本音频信号的音色特征矩阵；

48、预测单元，被配置为执行基于所述样本音频信号的音色特征矩阵以及前向后向网络进行预测，得到所述样本音频信号对应的预测音频生产者；

49、训练单元，被配置为执行基于各所述样本音频信号对应的预测音频生产者以及各所述样本音频信号的音频生产者标签，对所述待训练的音色特征提取网络进行训练，得到训练完成的音色特征提取网络。

50、在其中一个实施例中，所述训练单元，包括：

51、第五确定子单元，被配置为执行针对每一所述样本音频信号，若所述样本音频信号的预测音频生产者与所述音频生产者标签满足预设一致条件，则确定音频生产者预测概率为第一目标值；若所述样本音频信号的预测音频生产者与所述音频生产者标签不满预设一致条件，则确定音频生产者预测概率为第二目标值，所述第一目标值大于所述第二目标值；

52、更新单元，被配置为执行基于各所述样本音频信号分别对应的第一目标值或者第二目标值计算损失函数，并在不满足预设训练完成条件的情况下，基于所述损失函数对应的损失值对所述待训练的音色特征提取网络的网络参数进行更新，重新执行所述获取训练数据的步骤，直至满足所述预设训练完成条件，得到训练完成的音色特征提取网络。

53、第三确定单元，被配置为执行基于所述相似音色标签以及相似音频生产者标签确定所述目标音频信号的推荐信息。

54、根据本公开实施例的第三方面，提供一种电子设备，包括：

55、处理器；

56、用于存储所述处理器可执行指令的存储器；

57、其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的基于音频标签的推荐方法。

58、根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面中任一项所述的基于音频标签的推荐方法。

59、根据本公开实施例的第五方面，提供一种计算机程序产品，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面中任一项所述的基于音频标签的推荐方法。

60、本公开的实施例提供的技术方案至少带来以下有益效果：

61、通过确定目标音频信号的音色特征矩阵，可以学习到音频信号的更为准确的音频特征，基于确定出的音色特征矩阵在预先划分的音色标签数据库和音频生产者数据库的音色特征矩阵进行匹配，可以得到与目标音频信号较为匹配的音色标签和音频生产者标签，实现对用户的音色的画像描述，可以为用户推荐与该用户的嗓音音色较为适配的推荐信息，提升用户体验。

技术特征：

1.一种基于音频标签的推荐方法，其特征在于，包括：

2.根据权利要求1所述的基于音频标签的推荐方法，其特征在于，所述第一匹配结果包括所述音色特征矩阵与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度；所述第二匹配结果包括所述音色特征矩阵与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度；所述基于各所述第一匹配结果以及各所述第二匹配结果，确定所述目标音频信号的相似音频标签，包括：

3.根据权利要求1所述的基于音频标签的推荐方法，其特征在于，所述目标音频信号包括连续的至少两个预设时长的音频信号，所述第一匹配结果包括，各所述预设时长的音频信号分别与所述音色标签数据库包含的多个音频数据的音色特征矩阵的第一相似度；所述第二匹配结果包括，各所述预设时长的音频信号分别与所述音频生产者数据库包含的多个音频数据的音色特征矩阵的第二相似度；

4.根据权利要求1-3任一项所述的基于音频标签的推荐方法，其特征在于，所述方法还包括：

5.根据权利要求1-3任一项所述的基于音频标签的推荐方法，其特征在于，所述推荐信息包括音频互动活动以及音频互动片段；所述基于所述相似音色标签以及相似音频生产者标签确定所述目标音频信号的推荐信息，包括：

6.根据权利要求1所述的基于音频标签的推荐方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的基于音频标签的推荐方法，其特征在于，所述基于各所述样本音频信号对应的预测音频生产者以及各所述样本音频信号的音频生产者标签，对所述待训练的音色特征提取网络进行训练，得到训练完成的音色特征提取网络，包括：

8.一种基于音频标签的推荐装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的基于音频标签的推荐方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本公开关于一种基于音频标签的推荐方法、装置、电子设备、存储介质及计算机程序产品。该方法包括：获取目标音频信号，通过预训练的音色特征提取网络，提取目标音频信号对应的音色特征矩阵，基于音色特征矩阵与音色标签数据库的第一匹配结果，以及与音频生产者数据库的第二匹配结果，确定目标音频信号的相似音频标签；基于相似音色标签以及相似音频生产者标签确定目标音频信号的推荐信息，可以学习到音频信号的更为准确的音频特征，基于音色特征矩阵在音色标签数据库和音频生产者数据库中进行匹配，可以得到与目标音频信号较为匹配的音色标签和音频生产者标签，实现对用户的音色的画像描述，可以为用户推荐与该用户的嗓音音色较为适配的推荐信息。

技术研发人员：许成林,郑羲光,张晨
受保护的技术使用者：北京达佳互联信息技术有限公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-26292.html

专利

最新回复(0)