本公开涉及媒体编码和解码,包括图像和视频数据的编码和解码。
背景技术:
1、数字媒体功能可以并入范围广泛的设备中,包括数字电视、数字直播系统、无线广播系统、个人数字助理(pda)、膝上型或台式计算机、平板计算机、电子书阅读器、数字相机、数字录音设备、数字媒体播放器、视频游戏设备、视频游戏终端、蜂窝或卫星无线电电话、所谓的“智能电话”、视频电话会议设备、视频流式传输设备等。数字视频设备采用视频译码技术,例如由mpeg-2、mpeg-4、itu-th.263、itu-th.264/mpeg-4第10部分定义的标准中描述的那些、高级视频译码(avc)、itu-th.265/高效视频译码(hevc)、itu-th.266/通用视频译码(vvc)以及此类标准的扩展,以及专有视频编解码器/格式,例如由开放媒体联盟开发的aomedia video1(av1)。视频设备可以通过实施此类视频译码技术更高效地发送、接收、编码、解码和/或存储数字视频信息。
技术实现思路
1、总的来说,本公开描述了用于媒体压缩的技术,包括用于视频和/或图像编码和解码的技术。基于神经网络的媒体(例如,图像和/或视频)压缩方法可以与当前标准竞争并提供几个额外的优势。基于神经的译码方法通常使用高精度浮点算术进行设计和测试。然而,随着技术走向实际部署,神经网络权重和激活函数通常被量化并用低精度整数表示,以改善速度和功耗。
2、本公开解决了当与熵译码(entropy coding)相关的神经网络变量被量化时出现的问题。神经网络变量对于基于神经的视频/图像压缩方案的设计很重要,因为这些变量定义了压缩效率。此外,用于优化神经网络量化的通用工具并未考虑熵译码变量的非常具体的属性。测试表明,最坏的量化效果可能恰好发生在一些最常见的用例上,并且最坏的量化效果造成的损失无法通过重新训练神经网络来恢复。
3、本公开描述了用于优化经训练的熵译码变量的定义的技术,使得对于有效熵译码最重要的信息在用低精度整数表示时得到最好的保存。测试还显示了如何使用此处描述的技术来最小化熵译码所需的存储器量。本公开描述了用于熵译码设计的一般方法,以及用于常用高斯分布的具体解决方案和实现方案。本公开的技术通常可以应用于任何基于神经的压缩技术,但是下面描述的示例集中于用于图像和视频的技术。
4、在一个示例中,一种方法包括:确定通过基于神经的媒体压缩技术译码的数据流的数据元素的概率分布函数参数,其中所述概率分布函数参数是所述数据流的概率分布函数的标准偏差的对数函数;基于所述概率分布函数参数来确定码向量(code vector);以及使用所述码向量对所述数据元素进行熵译码。
5、在另一示例中,设备包括存储器和与存储器通信的一个或多个处理器,该一个或多个处理器被配置为:确定通过基于神经的媒体压缩技术译码的数据流的数据元素的概率分布函数参数,其中所述概率分布函数参数是所述数据流的概率分布函数的标准偏差的对数函数;基于所述概率分布函数参数来确定码向量;以及使用所述码向量对所述数据元素进行熵译码。
6、在另一个示例中,计算机可读存储介质编码有指令,当执行这些指令时,使可编程处理器:确定通过基于神经的媒体压缩技术译码的数据流的数据元素的概率分布函数参数,其中所述概率分布函数参数是所述数据流的概率分布函数的标准偏差的对数函数;基于所述概率分布函数参数来确定码向量;以及使用所述码向量对所述数据元素进行熵译码。
7、在附图和下面的描述中阐述了一个或多个示例的细节。其他特征、目的和优点将从描述、附图和权利要求中显而易见。
1.一种对媒体数据进行译码的方法,所述方法包括:
2.如权利要求1所述的方法,还包括:
3.如权利要求1所述的方法,其中,确定所述码向量包括:
4.如权利要求1所述的方法,其中,所述概率分布函数参数为v,所述概率分布函数的标准偏差为σ,最小标准偏差为σmin,最大标准偏差为σmax,并且其中,v被定义为:
5.如权利要求1所述的方法,还包括:
6.如权利要求5所述的方法,其中,使用所述基于神经的压缩技术来生成所述数据元素包括:
7.如权利要求1所述的方法,其中,使用所述码向量对所述数据元素进行熵译码包括:使用所述码向量对编码的数据元素进行熵解码以创建量化的数据元素,所述方法还包括:
8.如权利要求7所述的方法,还包括:
9.一种被配置为对媒体数据进行译码的装置,所述装置包括:
10.如权利要求9所述的装置,其中,所述一个或多个处理器还被配置为:
11.如权利要求9所述的装置,其中,为了确定所述码向量,所述一个或多个处理器还被配置为:
12.如权利要求9所述的装置,其中,所述概率分布函数参数为v,所述概率分布函数的标准偏差为σ,最小标准偏差为σmin,最大标准偏差为σmax,并且其中,v被定义为:
13.如权利要求9所述的装置,其中,所述一个或多个处理器还被配置为:
14.如权利要求13所述的装置,其中,为了使用所述基于神经的压缩技术生成所述数据元素,所述一个或多个处理器还被配置为:
15.如权利要求14所述的装置,还包括:
16.如权利要求9所述的装置,其中,使用所述码向量对所述数据元素进行熵译码包括:使用所述码向量对编码的数据元素进行熵解码以创建量化的数据元素,并且其中,所述一个或多个处理器还被配置为:
17.如权利要求16所述的装置,其中,所述一个或多个处理器还被配置为:
18.如权利要求17所述的装置,还包括:
19.一种存储指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器:
20.如权利要求19所述的非暂时性计算机可读存储介质,其中,所述概率分布函数参数为v,所述概率分布函数的标准偏差为σ,最小标准偏差为σmin,最大标准偏差为σmax,并且其中,v被定义为: