用于低延迟沉浸式音频编解码器的高阶高保真度立体声响复制的空间编码的制作方法

allin2026-02-21 20

本公开总体上涉及高阶高保真度立体声响复制(hoa)音频的编码方法。特别地，该方法包括使用空间重构(spar)编码框架和核心音频编码器对hoa音频信号进行编码。本公开还涉及hoa音频解码方法、相应装置以及计算机程序产品。尽管文中已经特别参考公开描述了一些实施例，但是应理解，本公开并不局限于这样的使用领域，并且可以在更宽泛的情景中应用。

背景技术：

1、本公开上下文中背景技术的任何讨论不应被认为认可这样的背景技术在本领域中是公知的或者形成公知知识的一部分。

2、spar是一种对高保真度立体声响复制进行空间编码的技术，并且被用于将由第三代合作伙伴计划(3gpp)标准化的沉浸式语音和音频服务(ivas)编解码器中。到目前为止，spar编码框架已经在一定比特率范围上应用于一阶高保真度立体声响复制(foa)。然而，仍然存在将spar算法扩展到高阶高保真度立体声响复制的需求，特别是增强该算法以在ivas框架内获得良好的结果。

技术实现思路

1、根据本公开的第一方面，提供了一种高阶高保真度立体声响复制(hoa)音频的编码方法。所述方法可包含接收具有四个以上高保真度立体声响复制通道的输入hoa音频信号。所述方法可进一步包含使用spar编码框架和核心音频编码器对hoa音频信号进行编码。并且，所述方法可包含将编码hoa音频信号提供给下游设备，所述编码hoa音频信号包含核心编码spar下混通道和编码spar元数据。

2、在一些实施例中，编码可以包括：基于高保真度立体声响复制通道中的一些或全部来生成w通道的表示和ntotal个预测残差的集合，连同在spar元数据中计算相应预测系数；以及从ntotal个预测残差的集合中选择nres个预测残差的子集，该子集被直接编码得到将提供给下游设备的ndmx＝nres+1个下混通道(+1指的是包括w通道的表示)。

3、在一些实施例中，nres个预测残差的子集的选择可基于被直接编码通道的阈值数量，其用于指示被直接编码通道的最大数量。

4、在一些实施例中，被直接编码通道的阈值数量可基于指示比特率限制、元数据大小、核心编解码器性能和音频质量中的一者或多者的信息被确定。

5、在一些实施例中，被直接编码通道的阈值数量可从被直接编码通道的阈值数量的预定集合中选择。

6、在一些实施例中，nres个预测残差的子集可以根据高保真度立体声响复制通道的从高排序通道到低排序通道的通道排序来选择。

7、在一些实施例中，高保真度立体声响复制通道的通道排序可以基于高保真度立体声响复制通道的感知重要性，通道排序中较高的高保真度立体声响复制通道具有较高的感知重要性。

8、在一些实施例中，高保真度立体声响复制通道的通道排序可以基于编码器和解码器之间的通道排序协议。

9、在一些实施例中，对于给定阶次l，对应于与左右前后平面具有较大重叠的球谐的高保真度立体声响复制通道可以被排序为在感知上比对应于与高度方向具有较大重叠的球谐的高保真度立体声响复制通道更重要。

10、在一些实施例中，对应于与左右方向具有较大重叠的球谐的高保真度立体声响复制通道可以被排序为在感知上比对应于与前后方向具有较大重叠的球谐的高保真度立体声响复制通道更重要。

11、在一些实施例中，由对应于其中|m|＝l的给定阶次l的球谐的高保真度立体声响复制通道形成的对可以被排序为在感知上比其中|m|<l的给定阶次l的hoa通道更重要。

12、在一些实施例中，对应于给定阶次l的球谐的高保真度立体声响复制通道的通道排序可形成对应于第(l+1)阶的球谐的高保真度立体声响复制通道的通道排序的子集，第(l+1)阶的高保真度立体声响复制通道的通道排序可从第l阶高保真度立体声响复制通道的通道排序开始。

13、在一些实施例中，对应于给定阶次l的在左右前后平面中具有较大重叠的球谐的高保真度立体声响复制通道可被排序为，与对应于在高度方向上具有较大重叠的第(l-1)阶的球谐的高保真度立体声响复制通道相比具有更高的感知重要性。

14、在一些实施例中，随后将添加到nres个预测残差的子集的一个或多个预测残差可基于如下排序被选择，该排序将对应于球谐的高保真度立体声响复制通道提升超过在对应于球谐(其中，0<|m|<l)的高保真度立体声响复制通道之前的对应于球谐的高保真度立体声响复制通道。

15、在一些实施例中，编码可以进一步包括基于根据剩余的ndec＝ntotal-nres个预测残差在spar元数据中计算相应系数来表示参数通道。

16、在一些实施例中，在spar元数据中计算可进一步包括计算多个交叉预测系数，所述多个交叉预测系数供解码器使用以根据nres个直接编码预测残差重构所述ndec个参数通道的至少一部分。

17、在一些实施例中，在spar元数据中计算可进一步包括计算多个解相关器系数，所述多个解相关器系数供所述解码器使用以在重构期间考虑未由所述预测系数和所述交叉预测系数考虑的剩余能量。

18、在一些实施例中，在spar元数据中计算可进一步包括以t1毫秒的第一时间分辨率来计算预测系数、交叉预测系数和解相关器系数中的至少一者，该t1毫秒的第一时间分辨率大于编码器滤波器组的t2毫秒的第二时间分辨率。

19、在一些实施例中，可以仅针对高频带执行具有t2毫秒的第二时间分辨率的计算。

20、在一些实施例中，可以在检测到瞬变时执行具有t2毫秒的第二时间分辨率的计算。

21、在一些实施例中，在spar元数据中计算可进一步包括通过仅使用对应于阶次l的通道的协方差估计来计算对应于给定高保真度立体声响复制阶次l的通道的归一化项。

22、在一些实施例中，编码还可以包括获得比特率限制值，从一组spar量化模式中选择spar量化模式以满足比特率限制值，并且将所选择的spar量化模式应用于spar元数据。

23、在一些实施例中，该组spar量化模式中的一些或所有模式可以包括从与在通道排序中排序较低的高保真度立体声响复制通道相关的系数向与在通道排序中排序较高的高保真度立体声响复制通道相关的系数重新分配比特。

24、在一些实施例中，该组spar量化模式中的一些或所有模式可以包括从多个交叉预测系数中选择要省略的交叉预测系数的子集。

25、在一些实施例中，该组spar量化模式中的一些或所有模式可以包括从多个解相关器系数中选择要省略的解相关器系数的子集。

26、在一些实施例中，选择系数的子集可以基于高保真度立体声响复制通道的通道排序。

27、在一些实施例中，所接收的输入hoa音频信号可以由被排序为具有相对高的感知重要性的高保真度立体声响复制通道组成。

28、根据本公开的第二方面，提供了一种高阶高保真度立体声响复制hoa音频的解码方法。所述方法可包含接收编码hoa音频信号，所述编码hoa音频信号是通过将spar编码框架及核心音频编码器应用于具有四个以上高保真度立体声响复制通道的输入hoa音频信号而获得的。所述方法可进一步包含对编码hoa音频信号进行解码以获得解码hoa音频信号，所述解码hoa音频信号包含核心解码spar下混通道和解码spar元数据。此外，所述方法可包含基于解码hoa音频信号重构输入hoa音频信号，以获得经重构输入hoa音频信号作为输出hoa信号。

29、在一些实施例中，核心解码spar下混通道可以包括w通道的表示和nres个直接编码预测残差的集合，并且解码spar元数据可包括多个预测系数、多个交叉预测系数和多个解相关器系数。

30、在一些实施方案中，重构输入hoa音频信号可包含基于w通道的表示和多个预测系数预测hoa音频信号的高保真度立体声响复制通道的子集，并且将之添加到nres个直接编码预测残差的集合。

31、在一些实施例中，重构输入hoa音频信号可进一步包含基于w通道的表示、多个预测系数、nres个直接编码预测残差的集合、以及所述多个交叉预测系数来确定剩余残余通道。

32、在一些实施例中，重构输入hoa音频信号可进一步包含基于多个解相关器系数和w通道的多个解相关版本来计算多个交叉预测系数以及预测系数未考虑的剩余能量的指示。

33、根据本公开的第三方面，提供了一种高阶高保真度立体声响复制(hoa)音频的编码装置。所述装置可包含可被配置为实现如下方法的一个或多个处理器，该方法包括：接收具有四个以上高保真度立体声响复制通道的输入hoa音频信号；使用spar编码框架和核心音频编码器来编码hoa音频信号；并且将编码hoa音频信号提供给下游设备，所述编码hoa音频信号包含核心编码spar下混通道和编码spar元数据。

34、根据本公开的第四方面，提供了一种高阶高保真度立体声响复制hoa音频的解码装置。所述装置可包含可被配置为实现如下方法的一个或多个处理器，该方法包括：接收编码hoa音频信号，所述编码hoa音频信号是通过将spar编码框架及核心音频编码器应用于具有四个以上高保真度立体声响复制通道的输入hoa音频信号而获得的；对编码hoa音频信号进行解码以获得解码hoa音频信号，所述解码hoa音频信号包含核心解码spar下混通道和解码spar元数据；并且基于解码hoa音频信号重构输入hoa音频信号，以获得经重构输入hoa音频信号作为输出hoa信号。

35、根据本公开的第五方面，提供了一种包括存储器和一个或多个处理器的装置，所述一个或多个处理器被配置为执行高阶高保真度立体声响复制hoa音频的编码方法或高阶高保真度立体声响复制hoa音频的解码方法。

36、根据本公开的第六方面，提供了一种系统，包括高阶高保真度立体声响复制hoa音频的编码装置和高阶高保真度立体声响复制hoa音频的解码装置。

37、根据本公开的第七方面，提供了一种包括指令的程序，所述指令在由处理器执行时使得处理器执行高阶高保真度立体声响复制hoa音频的编码方法或高阶高保真度立体声响复制hoa音频的解码方法。

38、根据本公开的第八方面，提供了一种存储所述程序的计算机可读存储介质。

技术特征：

1.一种高阶高保真度立体声响复制hoa音频的编码方法，所述方法包括：

2.根据权利要求1所述的方法，其中，编码包括：基于高保真度立体声响复制通道中的一些或全部来生成w通道的表示和ntotal个预测残差的集合，连同在spar元数据中计算相应预测系数；以及从ntotal个预测残差的集合中选择nres个预测残差的子集，该子集要被直接编码得到将提供给下游设备的ndmx＝nres+1个下混通道。

3.根据权利要求2所述的方法，其中，nres个预测残差的子集的选择基于被直接编码通道的阈值数量，其用于指示被直接编码通道的最大数量。

4.根据权利要求3所述的方法，其中，被直接编码通道的阈值数量可基于指示比特率限制、元数据大小、核心编解码器性能和音频质量中的一者或多者的信息被确定。

5.根据权利要求3或4所述的方法，其中，被直接编码通道的阈值数量从被直接编码通道的阈值数量的预定集合中选择。

6.根据权利要求2-5中任一项所述的方法，其中，nres个预测残差的子集根据高保真度立体声响复制通道的从高排序通道到低排序通道的通道排序来选择。

7.根据权利要求6所述的方法，其中，高保真度立体声响复制通道的通道排序是基于高保真度立体声响复制通道的感知重要性的，通道排序中较高的高保真度立体声响复制通道具有较高的感知重要性。

8.根据权利要求6或7所述的方法，其中，高保真度立体声响复制通道的通道排序是基于编码器和解码器之间的通道排序协议的。

9.根据权利要求7或8所述的方法，其中，对于给定阶次l，对应于与左右前后平面具有较大重叠的球谐的高保真度立体声响复制通道被排序为在感知上比对应于与高度方向具有较大重叠的球谐的高保真度立体声响复制通道更重要。

10.根据权利要求7-9中任一项所述的方法，其中，对应于与左右方向具有较大重叠的球谐的高保真度立体声响复制通道被排序为在感知上比对应于与前后方向具有较大重叠的球谐的高保真度立体声响复制通道更重要。

11.根据权利要求7-10中任一项所述的方法，其中，由对应于其中|m|＝l的给定阶次l的球谐的高保真度立体声响复制通道形成的对被排序为在感知上比其中|m|<l的给定阶次l的hoa通道更重要。

12.根据权利要求7-11中任一项所述的方法，其中，对应于给定阶次l的球谐的高保真度立体声响复制通道的通道排序形成对应于第(l+1)阶的球谐的高保真度立体声响复制通道的通道排序的子集，第(l+1)阶的高保真度立体声响复制通道的通道排序从第l阶高保真度立体声响复制通道的通道排序开始。

13.根据权利要求7-12中任一项所述的方法，其中，对应于给定阶次l的在左右前后平面中具有较大重叠的球谐的高保真度立体声响复制通道被排序为：与对应于在高度方向上具有较大重叠的第(l-1)阶的球谐的高保真度立体声响复制通道相比具有更高的感知重要性。

14.根据权利要求7-13中任一项所述的方法，其中，随后将添加到nres个预测残差的子集的一个或多个预测残差可基于如下排序被选择，该排序将对应于球谐的高保真度立体声响复制通道提升超过在对应于其中0<|m|<l的球谐的高保真度立体声响复制通道之前的对应于球谐的高保真度立体声响复制通道。

15.根据权利要求2-14中任一项所述的方法，其中，编码进一步包括基于根据剩余的ndec＝ntotal-nres个预测残差在spar元数据中计算相应系数来表示参数通道。

16.根据权利要求15所述的方法，其中，在spar元数据中计算包括计算多个交叉预测系数，所述多个交叉预测系数供解码器使用以根据nres个直接编码预测残差重构所述ndec个参数通道的至少一部分。

17.根据权利要求16所述的方法，其中，在spar元数据中计算进一步包括计算多个解相关器系数，所述多个解相关器系数供所述解码器使用以在重构期间考虑未由所述预测系数和所述交叉预测系数考虑的剩余能量。

18.根据权利要求15-17中任一项所述的方法，其中，在spar元数据中计算进一步包括以t1毫秒的第一时间分辨率来计算预测系数、交叉预测系数和解相关器系数中的至少一者，该t1毫秒的第一时间分辨率大于编码器滤波器组的t2毫秒的第二时间分辨率。

19.根据权利要求18所述的方法，其中，仅针对高频带执行具有t2毫秒的第二时间分辨率的计算。

20.根据权利要求19所述的方法，其中，在检测到瞬变时执行具有t2毫秒的第二时间分辨率的计算。

21.根据权利要求15-20中任一项所述的方法，其中，在spar元数据中计算进一步包括通过仅使用对应于阶次l的通道的协方差估计来计算对应于给定高保真度立体声响复制阶次l的通道的归一化项。

22.根据权利要求15-21中任一项所述的方法，其中，编码进一步包括获得比特率限制值，从一组spar量化模式中选择spar量化模式以满足比特率限制值，并且将所选择的spar量化模式应用于spar元数据。

23.根据权利要求22所述的方法，其中，该组spar量化模式中的一些或所有模式包括从与在通道排序中排序较低的高保真度立体声响复制通道相关的系数向与在通道排序中排序较高的高保真度立体声响复制通道相关的系数重新分配比特。

24.根据引用权利要求16的权利要求22或23所述的方法，其中，该组spar量化模式中的一些或所有模式包括从多个交叉预测系数中选择要省略的交叉预测系数的子集。

25.根据引用权利要求17的权利要求22-24中任一项所述的方法，其中，该组spar量化模式中的一些或所有模式包括从多个解相关器系数中选择要省略的解相关器系数的子集。

26.根据引用权利要求6的权利要求24或25所述的方法，其中，选择系数的子集是基于高保真度立体声响复制通道的通道排序的。

27.根据权利要求7-26中任一项所述的方法，其中，所接收的输入hoa音频信号由被排序为具有相对高的感知重要性的高保真度立体声响复制通道组成。

28.一种高阶高保真度立体声响复制hoa音频的解码方法，所述方法包括：

29.根据权利要求28所述的方法，其中，核心解码spar下混通道包括w通道的表示和nres个直接编码预测残差的集合，并且其中，解码spar元数据包括多个预测系数、多个交叉预测系数和多个解相关器系数。

30.根据权利要求29所述的方法，其中，重构输入hoa音频信号包括基于w通道的表示和多个预测系数预测hoa音频信号的高保真度立体声响复制通道的子集，并且将之添加到nres个直接编码预测残差的集合。

31.根据权利要求30所述的方法，其中，重构输入hoa音频信号进一步包括基于w通道的表示、多个预测系数、nres个直接编码预测残差的集合、以及所述多个交叉预测系数来确定剩余残余通道。

32.根据权利要求31所述的方法，其中，重构输入hoa音频信号进一步包括基于多个解相关器系数和w通道的多个解相关版本来计算多个交叉预测系数以及预测系数未考虑的剩余能量的指示。

33.一种高阶高保真度立体声响复制hoa音频的编码装置，所述装置包括被配置为实现如下方法的一个或多个处理器，该方法包括：

34.一种高阶高保真度立体声响复制hoa音频的解码装置，所述装置包括被配置为实现如下方法的一个或多个处理器，该方法包括：

35.一种包括存储器和一个或多个处理器的装置，所述一个或多个处理器被配置为执行根据权利要求1-32中任一项所述的方法。

36.一种系统，包括根据权利要求33所述的高阶高保真度立体声响复制hoa音频的编码装置和根据权利要求34所述的高阶高保真度立体声响复制hoa音频的解码装置。

37.一种包括指令的程序，所述指令在由处理器执行时使得处理器实行根据权利要求1-32中任一项所述的方法。

38.一种存储根据权利要求37所述的程序的计算机可读存储介质。

技术总结
本文描述了一种高阶高保真度立体声响复制HOA音频的编码方法，所述方法包括：接收具有四个以上高保真度立体声响复制通道的输入HOA音频信号；使用SPAR编码框架和核心音频编码器来编码HOA音频信号；以及将编码HOA音频信号提供给下游设备，所述编码HOA音频信号包含核心编码SPAR下混通道和编码SPAR元数据。进一步描述了一种高阶高保真度立体声响复制HOA音频的解码方法、相应的装置和计算机程序产品。

技术研发人员：S·布朗,S·布鲁恩,R·特亚吉
受保护的技术使用者：杜比实验室特许公司
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-26798.html

专利

最新回复(0)