基于人眼特性和局部自注意力的无参视频质量评估方法与流程

allin2025-03-21  33


本发明属于视频处理,具体涉及一种基于人眼特性和局部自注意力的无参视频质量评估方法。


背景技术:

1、视频质量评估是指衡量视频画面内容质量的方法,其目标是判断人们在观看视频时所感受到的质量,包括图像的清晰度、色彩的丰富程度、运动的流畅性等方面。视频在采集、转码、传输和存储等过程中会进行各种各样的压缩和处理,其每一步骤都会导致画面的失真和视觉感知质量的下降。视频质量评估算法能通过对视频画面建模,来准确地衡量编解码模型、通信传输系统、图像增强和算法的优劣和视频质量的监控。

2、一些常见的质量评估算法,通常需要参考视频作为参照对象,通过量化目标视频和参考视频之间的差异,来评估目标视频的质量,该类方法称为有参质量评估。参考视频通常是指原始获得的,未经多次转码、压缩导致质量失真的视频版本。

3、但是在很多场景中,只有最终需要评估的目标视频,而无法获取到原始获取的参考视频。这种情况下无法使用有参质量评估。因此不需要原始参考视频的无参质量评估方法,是目前视频质量评估领域的研究热点。

4、当前的无参视频质量评估方法,多利用神经网络进行视频帧画面信息特征的提取,来进行画面质量的评估。对于高分辨率的视频,提取这样的特征需要非常多的计算资源,而且也非常耗时。同时,当前的视频质量评估方法多将整个视频帧直接输入神经网络获取特征,整个画面中的所有区域像素权重一致。这与人眼看视频时的主观感受不匹配。人眼在看视频帧时,视线往往会集中于一个区域,即画面内容的感兴趣区域。该区域相比于其它区域,在人眼对整个视频的质量评估过程中,会占据更多的权重。


技术实现思路

1、鉴于以上存在的问题,本发明提供一种基于人眼特性和局部自注意力的无参视频质量评估方法,通过提取人眼感兴趣检测区域,再在该基础上利用局部自注意力神经网络,综合提取视频帧在时域和空域上的特征进行综合评估,得到更符合人眼主观的视频质量结果。整体流程能减少大量的计算资源和时间,同时获得更准确的结果。

2、为解决上述技术问题,本发明采用如下的技术方案:

3、一种基于人眼特性和局部自注意力的无参视频质量评估方法,包括以下步骤:

4、对待评估视频进行采样输入,将连续的视频帧进行抽帧处理,抽取连续4帧作为一次的输入;

5、设计人眼感兴趣区域检测模块,将连续4帧原始帧作为输入,生成最终的感兴趣区域特征图,所述感兴趣区域特征图的大小与原始输入图像相同,每个像素的值表示该位置人眼感兴趣的大小;

6、设计时域感知质量评估模块,将连续4帧的原始帧和感兴趣区域的特征图结合,下采样到1/2的尺寸,作为输入,生成与原始视频帧同样大小的时域质量特征图,每个像素代表该位置时域上帧间的画面质量;

7、设计空域感知质量评估模块,将第一帧原始帧和感兴趣区域的特征图结合作为输入,生成与输入视频帧同样大小的空域质量特征图,每个像素的值代表该位置空域上的画面质量;

8、设计综合质量评估模块,将原始的连续帧、感兴趣区域特征图、时域质量特征图和空域质量特征图作为输入,输出一个介于0到1之间的分数,代表视频的综合质量评分。

9、一种可能的实施方式中,所述设计人眼感兴趣区域检测模块包括:

10、设计第1卷积层,卷积核个数为128,卷积核大小为7x7,步长为1,填充维度为3,在此之后应用relu激活层,引入非线性运算并促进网络学习更复杂的特征;

11、设计第2卷积层,卷积核个数为256,卷积核大小为3x3,步长为1,填充维度为1,在此之后应用relu激活层;

12、设计第3卷积层,卷积核个数为128,卷积核大小为3x3,步长为1,填充维度为1,在此之后应用relu激活层;

13、应用平均池化层,池化窗口大小为2x2,步长为2,以减少特征图的空间维度,同时增加特征的抽象级别;

14、重复上述的卷积层+激活层+池化层的操作3次,设计第4、5、6卷积层,逐渐增加卷积核数量到256,512,1024,其余参数以及激活层和平均池化层的参数与上述保持一致,得到中间特征;

15、对中间特征应用2倍上采样,恢复特征图的空间维度,在此之后应用第7卷积层,卷积核个数为512,卷积核大小为3x3,步长为1,填充维度为1,在此之后应用relu激活层;

16、重复上述上采样+卷积层+relu的操作3次,设计第8、9、10卷积层,逐渐减少卷积核数量到256,128,64,其余参数以及上采样和激活层的参数与上述保持一致,得到与输入帧大小一致的特征图;

17、在此之后应用一个1x1的卷积层来减少特征通道的数量,生成最终的感兴趣区域特征图。

18、一种可能的实施方式中,所述设计时域感知质量评估模块包括:

19、使用预训练的卷积神经网络resnet18进行特征提取,选取卷积层的输出作为特征图,忽略全连接层的输出,从卷积层输出的特征图,输入到设计的局部自注意力层,

20、设计时域局部自注意力层,将特征图分成几个区域,每个局部区域设可学习的权重矩阵wq,wk,wv;卷积层输出的特征图为x,计算查询q、键k和值v的线性变换:q,k,v=wq·x+bq,wk·x+bk,wv·x+bv,其中x是输入特征,wq,wk,wv是可学习的权重矩阵,bq,bk,bv是偏置项;

21、计算注意力权重:其中dk是键的维度,用于缩放点积,将注意力权重与值相乘,得到加权的值;

22、将所有区域的输出拼接起来:concatenate(head1,…,headn),head为上述得到的每个区域的值;

23、再通过一个线性变换层:output=wo.concatenate+bo,其中o为output层的权重;

24、设计多个同上述结构一致的局部自注意力层,连接起来,最后输出层生成与原始视频帧同样大小的时域质量特征图。

25、一种可能的实施方式中,所述设计空域感知质量评估模块包括:

26、使用预训练的卷积神经网络resnet50进行特征提取,选取卷积层的输出作为特征图,忽略全连接层,从卷积层输出的特征图,输入到设计的空域局部自注意力层,

27、进行空域局部自注意力层的设计,将特征图分割成多个区域,相比于时域局部自注意层,需要分割更多;每个区域独立地应用自注意力机制,对输入特征图x2进行线性变换以生成查询q2、键k2和值v2;自注意力机制通过计算q2与k2的点积,然后应用softmax函数来获取注意力权重,最后用这些权重对v2进行加权求和;由于自注意力不包含空间位置信息,因此加入位置编码以提供每个像素在帧中的位置信息;

28、在每个自注意力模块之后,特征图通过一个前馈网络,该网络包含两个线性层和一个非线性激活函数relu;

29、每个模块的输出通过残差连接与输入相加,然后进行层归一化,以促进梯度的传播和稳定性;

30、设计多个同上述结构一致的空域局部自注意力层,连接起来,最后得到输出层,输出层通过一个卷积层和sigmoid激活函数,将编码器的输出转换为与输入视频帧同样大小的空域质量特征图。

31、一种可能的实施方式中,所述设计综合质量评估模块包括:

32、原始帧和感兴趣区域特征图先经卷积层做融合处理,得到感兴趣的融合原始帧特征图;

33、将融合后的原始帧和时域质量特征图和空域质量特征图在通道维度上拼接起来获得总特征图,再次利用感兴趣区域为特征图分配不同的权重;

34、再将其作为输入连接到一系列的卷积层:

35、卷积层1:卷积核个数为64,卷积核大小为3x3,步长为1,填充维度为1。在此之后应用relu激活层;此之后应用平均池化层,池化窗口大小为2x2,步长为2,以减少特征图的空间维度,同时增加特征的抽象级别;

36、卷积层2:卷积核个数为128,卷积核大小为3x3,步长为1,填充维度为1;在此之后应用relu激活层,在此之后应用平均池化层;

37、卷积层3:卷积核个数为256,卷积核大小为3x3,步长为1,填充维度为1;在此之后应用relu激活层,在此之后应用平均池化层;

38、卷积层4:卷积核个数为512,卷积核大小为3x3,步长为1,填充维度为1;在此之后应用relu激活层,在此之后应用平均池化层;

39、在特征处理之后,通过多个全连接层来将高维的特征图转换为一维的特征向量;

40、最后,使用一个全连接层,配合sigmoid激活函数,输出一个介于0到1之间的分数,代表视频的综合质量评分。

41、采用本发明具有如下的有益效果:

42、(1)通过先提取出视频画面中人眼感兴趣的区域,对该区域进行重点处理。相对于对整帧画面无差别的特征处理和提取,能减少大量的计算资源和处理耗时,高效地评估画面质量。

43、(2)根据人眼看视频时主观体验:在看视频帧时,视线往往会集中于一个区域,即画面内容的感兴趣区域。该区域相比于其它区域,在人眼对整个视频的质量评估过程中,会占据更多的权重。本发明结合画面的人眼感兴趣区域,利用卷积和局部自注意力机制将其与画面的时域和空域特征结合,获得更准确的视频质量评估分数。


技术特征:

1.一种基于人眼特性和局部自注意力的无参视频质量评估方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于人眼特性和局部自注意力的无参视频质量评估方法,其特征在于,所述设计人眼感兴趣区域检测模块包括:

3.如权利要求1所述的基于人眼特性和局部自注意力的无参视频质量评估方法,其特征在于,所述设计时域感知质量评估模块包括:

4.如权利要求1所述的基于人眼特性和局部自注意力的无参视频质量评估方法,其特征在于,所述设计空域感知质量评估模块包括:

5.如权利要求1所述的基于人眼特性和局部自注意力的无参视频质量评估方法,其特征在于,所述设计综合质量评估模块包括:


技术总结
本发明公开了一种基于人眼特性和局部自注意力的无参视频质量评估方法,包括以下步骤:对待评估视频进行采样输入,将连续的视频帧进行抽帧处理,抽取连续4帧作为一次的输入;设计人眼感兴趣区域检测模块生成最终的感兴趣区域特征图;设计时域感知质量评估模块,生成与原始视频帧同样大小的时域质量特征图;设计空域感知质量评估模块,生成与输入视频帧同样大小的空域质量特征图;设计综合质量评估模块,将原始的连续帧、感兴趣区域特征图、时域质量特征图和空域质量特征图作为输入,输出一个介于0到1之间的分数,代表视频的综合质量评分。

技术研发人员:陈晓锋,孙彦龙,赵浩
受保护的技术使用者:杭州当虹科技股份有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19430.html

最新回复(0)