本发明涉及视频目标分割,尤其是一种用于高效视频目标分割的时空并行稀疏记忆网络。
背景技术:
1、视频目标分割是计算机视觉中视频理解任务的基础,目的是跟踪视频序列中的目标并将前景像素与背景像素分离,在视频编辑、自动驾驶、机器人导航和虚拟现实等领域中均有着广泛的应用。
2、然而,视频目标分割是一项具有挑战性的任务,特别是在半监督设置中,只有视频的第一帧被标注目标掩码,要求算法预测剩余的帧中的目标。半监督视频目标分割任务要求算法能够准确并连续地跟踪和分割视频中的目标,即使在目标快速移动、形状变化、部分遮挡或存在相似实例的情况下也能维持高准确率。此外,考虑到视频数据的大规模性,算法还需具备高效率和鲁棒性,以适应光照变化和背景干扰,满足现实生活中实时应用的需求。
3、在视频目标分割任务中,存在多种方法,包括基于传播的方法、基于检测的方法以及基于匹配的方法。其中,基于匹配的方法因其卓越的性能而受到广泛关注,这类方法通过存储所有过去的帧,并在其中执行像素级别的匹配来检索相关信息,从而提高分割的准确性。但是,上述方法在实际应用的复杂视频场景下仍然存在分割不准确和效率低下的问题,具体表现如下:
4、1、基于独立帧的记忆模式没有考虑连续帧之间的时间运动信息,限制了对运动目标的感知能力;
5、2、单个帧的有限感受野阻碍了对空间上下文信息的有效利用,导致在区分具有相似外观的物体时表现不佳;
6、3、随着视频长度的增加,计算查询帧与所有记忆帧的密集匹配导致计算负担较重,且会不可避免地引入噪声造成干扰。
技术实现思路
1、针对现有技术的不足,本发明提供一种用于高效视频目标分割的时空并行稀疏记忆网络,本发明能够高效且准确地从这两个记忆组并行检索有用的时间运动信息和空间上下文信息。
2、本发明的技术方案为:一种用于高效视频目标分割的时空并行稀疏记忆网络,包括时空并行记忆构建组件和并行稀疏记忆读取器,所述的时空并行记忆构建组件从过去的多个历史帧中同时挖掘时间和空间记忆值,全面捕获具有区分性的视频目标信息,各个记忆帧的时间和空间映射沿时间维度堆叠形成时间记忆库和空间记忆库;所述的并行稀疏记忆读取器用于从时间记忆库和空间记忆库中均匀并行采样稀疏的记忆帧。
3、作为优选的,所述的时空并行记忆构建组件包括时间记忆构建模块和空间记忆构建模块;其中,所述的时间记忆构建模块通过捕获帧间变化,对视频目标的长期运动进行建模;所述的空间记忆构建模块通过在一个局部区域上聚合更具可辨别性的空间上下文信息,从而增强对相似实例的区分能力。
4、作为优选的,所述的时间记忆构建模块包括全局注意力增强单元和运动感知记忆增强单元。
5、作为优选的,所述的全局注意力增强单元gea包括全局平均池化层gap、卷积层f0、sigmoid层s0。
6、作为优选的,所述的全局平均池化层gap聚合过去帧xt-i的记忆值vt-i以获得整张图像的全局嵌入,然后再传递到卷积层f0和sigmoid层s0以计算全局注意力掩码所述的全局注意力掩码选择性地增强编码器ev中的各种特征,将完整的图像信息合并到记忆值。
7、作为优选的,所述的全局注意力增强单元计算全局注意力掩码的计算式为:
8、
9、式中,为全局注意力掩码;⊙分别表示逐元素求和、逐元素乘法运算;fgae表示全局注意力增强操作,vt-i为过去帧xt-i的记忆值;conv表示卷积层操作;gap表示全局平均池化层聚合操作;σ为sigmoid激活函数。
10、作为优选的,所述的运动感知记忆增强单元包括卷积层f1、sigmoid层s1和一个全局注意力增强单元gea。
11、作为优选的,所述的运动感知记忆增强单元首先计算过去帧xt-i和查询帧xt之间的变化,并与先前预测的掩码mt-i拼接起来然后输入给编码器ev;然后将拼接特征的帧变化信息输入到卷积层f1和sigmoid层s1生成运动感知注意掩码;然后再将运动感知注意掩码与全局注意力掩码相乘后输入全局注意力增强单元gea计算实例增强运动感知记忆值
12、作为优选的,所述的运动感知记忆值的计算式为:
13、
14、fgae表示全局注意力增强操作,为运动感知记忆值;为全局注意力掩码;σ为sigmoid激活函数;ev为增强编码器;xt、xt-i分别为查询帧和过去帧;⊙为逐元素乘法运算,f1为卷积层操作。
15、作为优选的,所述的空间记忆构建模块包括卷积层f2、sigmoid层s2和一个全局注意力增强单元gea。
16、作为优选的,所述的空间记忆构建模块将前一帧xt-i的预测掩码mt-i与查询帧xt拼接以生成空间关系图,然后输入编码器ev;并通过卷积层f2和sigmoid层s2生成空间注意掩码;然后再将空间注意掩码与运动感知记忆值
17、输入全局注意力增强单元gea生成全局上下文嵌入值
18、作为优选的,所述的全局上下文嵌入值的计算式为:
19、
20、式中,为全局上下文嵌入值;fgae为全局注意力增强操作,为运动感知记忆值;⊙为逐元素乘法运算;σ为sigmoid激活函数;f2为卷积层操作;ev为增强编码器;mt-i为前一帧xt-i的预测掩码;xt为查询帧。
21、作为优选的,所述的并行稀疏记忆读取器包括时间记忆采样读取器和空间记忆采样读取器;所述的时间记忆采样读取器和空间记忆采样读取器分别从时间记忆库和空间记忆库中沿时间维度均匀采样一组稀疏的记忆帧;并通过查询帧和均匀采样的记忆帧之间的稀疏匹配相似度来计算软权重,所述的相似度的计算公式为:
22、
23、式中,sim表示相似性计算函数,u表示对记忆帧的均匀采样,(kl)j表示记忆库的键映射,表示查询帧的键映射,i、j表示索引。
24、作为优选的,所述的时间记忆采样读取器根据软权重加权求和的相似性得分,从均匀采样的稀疏时间记忆库中检索相关的时间运动信息,并采用top-k策略过滤相似性得分,所述的时间记忆采样读取器定义为:
25、
26、式中,表示读取到的相关时序运动信息,为查询帧的值映射;topk为选择最头部的k个元素;为时间记忆库的值映射;(kl)j为记忆库的键映射;z为归一化因子;[·,·]表示串联操作;u表示对记忆帧的均匀采样。
27、作为优选的,所述的空间记忆采样读取器根据相似性得分从均匀采样的空间稀疏记忆库中高效地检索目标的空间上下文信息,所述的空间记忆采样读取器定义为:
28、
29、式中,为读取到的相关空间上下文信息,为查询帧的值映射;topk为选择最头部的k个元素;为空间记忆库的值映射;(kl)j为记忆库的键映射;z是归一化因子;[·,·]表示串联操作;u表示对记忆帧的均匀采样;
30、最后将得到的空间上下文信息时序运动信息和查询帧的值映射进行连接,从而获得充足的目标表征的预测掩码mt。
31、本发明的有益效果为:
32、1、本发明从过去的多个历史帧中同时挖掘时间和空间记忆值,全面捕获具有区分性的视频目标信息,各个记忆帧的时间和空间映射沿时间维度堆叠形成时间记忆库和空间记忆组;并高效且准确地从这两个记忆组并行检索有用的时间运动信息和空间上下文信息;进而可以准确且高效的对视频目标进行分割;
33、2、本发明可以增强聚焦动态区域的能力,从而提高分割精度并限制运动物体与静态背景的分割范围;
34、3、本发明通过聚合空间上下文信息,将单帧感受野扩大到多帧感受野;
35、4、本发明的均匀采样可以直接有效地减少帧级别的记忆冗余,从而实现加速,且不影响性能。
1.一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:包括时空并行记忆构建组件和并行稀疏记忆读取器;所述的时空并行记忆构建组件包括时间记忆构建模块和空间记忆构建模块;所述的并行稀疏记忆读取器包括时间记忆采样读取器和空间记忆采样读取器;所述的时空并行记忆构建组件从过去的多个历史帧中同时挖掘时间和空间记忆值,全面捕获具有区分性的视频目标信息,各个记忆帧的时间和空间映射沿时间维度堆叠形成时间记忆库和空间记忆库;所述的并行稀疏记忆读取器用于从时间记忆库和空间记忆库中均匀并行采样稀疏的记忆帧。
2.根据权利要求1所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的时间记忆构建模块通过捕获帧间变化,对视频目标的长期运动进行建模;所述的时间记忆构建模块包括全局注意力增强单元和运动感知记忆增强单元。
3.根据权利要求2所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的全局注意力增强单元gea包括全局平均池化层gap、卷积层f0、sigmoid层s0;所述的全局平均池化层gap聚合过去帧xt-i的记忆值vt-i以获得整张图像的全局嵌入,然后再传递到卷积层f0和sigmoid层s0以计算全局注意力掩码所述的全局注意力掩码选择性地增强编码器ev中的各种特征,将完整的图像信息合并到记忆值。
4.根据权利要求3所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的全局注意力增强单元计算全局注意力掩码的计算式为:
5.根据权利要求4所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的运动感知记忆增强单元包括卷积层f1、sigmoid层s1和一个全局注意力增强单元gea;
6.根据权利要求5所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的运动感知记忆值的计算式为:
7.根据权利要求6所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的空间记忆构建模块通过在一个局部区域上聚合具有可辨别性的空间上下文信息,所述的空间记忆构建模块包括卷积层f2、sigmoid层s2和一个全局注意力增强单元gea;
8.根据权利要求1所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的时间记忆采样读取器和空间记忆采样读取器分别从时间记忆库和空间记忆库中沿时间维度均匀采样一组稀疏的记忆帧;并通过查询帧和均匀采样的记忆帧之间的稀疏匹配相似度来计算软权重,所述的相似度的计算公式为:
9.根据权利要求8所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的时间记忆采样读取器根据软权重加权求和的相似性得分,从均匀采样的稀疏时间记忆库中检索相关的时间运动信息,并采用top-k策略过滤相似性得分,所述的时间记忆采样读取器定义为:
10.根据权利要求8所述的一种用于高效视频目标分割的时空并行稀疏记忆网络,其特征在于:所述的空间记忆采样读取器根据相似性得分从均匀采样的空间稀疏记忆库中高效地检索目标的空间上下文信息,所述的空间记忆采样读取器定义为: