基于吸收马尔科夫链和骨架映射网络的视频分割方法及装置

allin2022-09-03  105



1.本发明属于计算机视觉的技术领域,具体涉及一种基于吸收马尔科夫链和骨架映射网络的视频分割方法及装置。


背景技术:

2.视频分割是指在视频序列中,将不停运动的前景目标物体与背景区域分离。视频分割为识别视频中目标物体和解析视频内容提供基础,它是视频语义解析、视觉导航等研究的关键步骤,在人工智能、视觉感知等领域具有广泛应用。当前,虽然有很多成功的视频分割算法被提出,但是要开发一个能处理复杂的、动态的场景的鲁棒视频分割算法仍然是一个具有挑战性的问题。因为在视频分割中,由于待分割目标自身变化和外界环境干扰,会导致多种分割挑战,例如:遮挡、剧烈形变、复杂背景、光照变化等。这些挑战会导致视频分割时出现轮廓漂移,产生分割错误,如果分割错误一直累积,就会导致分割失败。因此,需要利用目标的运动规律,捕捉目标表观模型的变化趋势,并充分利用目标在第一帧中稳定的特征,提高视频分割的鲁棒性。


技术实现要素:

3.本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于吸收马尔科夫链和骨架映射网络的视频分割方法及装置,可以较好地分割出复杂场景下目标的边缘轮廓。
4.为了达到上述目的,本发明采用以下技术方案:
5.本发明一方面提供了一种基于吸收马尔科夫链和骨架映射网络的视频分割方法,包括下述步骤:
6.基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,将感兴趣区域进行超像素分割成若干超像素;
7.根据第一帧和当前帧的超像素,以及当前帧前一帧和当前帧的超像素,分别构建两条吸收马尔科夫链,计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签;
8.构建短期时空线索和长期时空线索对超像素标签进行优化;所述短期时空线索用于描述目标短时间内外观变化,基于视频序列中当前帧的前几帧的分割结果,校正当前帧中被误分割为前景的孤立背景超像素;所述长期时空线索用于描述目标长久稳定外观特征,构造从第一帧到当前帧的长期外观模型,若当前帧中有多个区域被同时分割为目标,则比较这多个区域与长期外观模型的相似度,选择最相似的区域作为分割结果;
9.基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架;
10.基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练骨架映射网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网
络,输出当前帧的视频分割结果。
11.作为优选的技术方案,所述基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,具体为:
12.在视频序列的第一帧,人工标定目标的位置和大小,即用鼠标在第一帧图像上,画出与目标在上、下、左、右四个方向相切的矩形框,将矩形框的左上角坐标用(x,y)表示,将矩形框的宽用w表示,高用h表示,x、y、w、h四个参数包含矩形框的所有空间信息;
13.基于孪生网络,预测后续帧中的跟踪结果,将每帧的跟踪结果用(x,y,w,h)表示,并将跟踪结果存入文本文件;
14.将每帧跟踪结果所在矩形框的长和宽进行扩展,得到每帧的感兴趣区域,如果扩展后的感兴趣区域边界超出图像范围,则将图像边界作为感兴趣区域的边界。
15.作为优选的技术方案,所述计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签,具体包括下述步骤:
16.将构造的吸收马尔科夫链记做g,g包括多个顶点和多个边;
17.顶点的构造规则为:将感兴趣区域内的每个超像素都表示一个顶点,根据吸收马尔科夫链的构造原理,将所有顶点分类为吸收态顶点和瞬态顶点;
18.边的构造规则为:将g中所有边分成帧内边和帧间边两类;所有在同一帧中一跳和两跳内相邻的超像素,均以帧内边相连,一跳相邻的超像素即某超像素的所有邻居超像素,两跳相邻的超像素即某超像素的所有邻居的邻居超像素;通过光流法寻找两帧中特征相似、位置相近的对应超像素,并用帧间边连接,边的权重为两个超像素的相似性;
19.当前帧和第一帧建立吸收马尔科夫链时,根据顶点的构造规则,第一帧感兴趣区域内的背景超像素被标记为吸收态顶点,第一帧感兴趣区域内的前景超像素和当前帧感兴趣区域内所有超像素被标记为瞬态顶点;根据边的构造规则,构造当前帧与第一帧中两帧内部的帧内边,和连接当前帧与第一帧的帧间边,并根据超像素间的相似性,计算边的权重;最后根据吸收马尔科夫链的吸收原则,得到第一条吸收马尔科夫链当前帧感兴趣区域内所有超像素的吸收时间h1;
20.当前帧和前一帧建立吸收马尔科夫链时,根据顶点的构造规则,当前帧的前一帧感兴趣区域内的背景超像素被标记为吸收态顶点,当前帧的前一帧感兴趣区域内的前景超像素和当前帧感兴趣区域内所有超像素被标记为瞬态顶点;根据边的构造规则,分别构造当前帧与前一帧中两帧内部的帧内边,并构造连接当前帧与前一帧的帧间边,根据超像素间的相似性,计算边的权重;最后根据吸收马尔科夫链的吸收原则,得到第二条吸收马尔科夫链当前帧感兴趣区域内所有超像素的吸收时间h2;
21.根据h1和h2得到当前帧感兴趣区域内所有超像素的吸收时间h,h由h1和h2线性组合得出;
22.基于当前帧感兴趣区域内所有超像素的吸收时间h,计算平均吸收时间超像素吸收时间大于的,标记为前景,吸收时间小于的,标记为背景。
23.作为优选的技术方案,基于短期时空线索对超像素标签优化具体为:
24.通过存储你器存储当前帧前t帧的视频分割结果,分割结果用0-1矩阵表示,0代表
背景像素,1代表前景像素;
25.基于前t帧的分割结果,统计在当前帧中标签为前景,而在当前帧的前t帧中标签均为背景的像素;
26.将矩阵中所有值为1的像素点表示为集合s,并把s中所有像素对应的超像素用集合supers表示,集合supers中,所有超像素的标签均为前景,当supers中某一超像素的所有一跳、两跳内相邻的超像素标签均为背景时,则认为该超像素标签划分错误,将该超像素标签更正为背景。
27.作为优选的技术方案,基于长期时空线索对超像素标签优化具体为:
28.利用当前帧感兴趣区域内超像素的前景标签,构造无向图;将当前帧中所有前景超像素作为无向图的顶点,用边连接两跳内相邻的前景超像素,所述无向图中连通区域的个数即为当前帧分割出候选区域的个数;
29.基于长期时空线索,利用从第一帧到当前帧的前一帧中目标的累计表观特征构造目标的表观模型f
k-1

30.对当前帧分割出的所有候选区域,构造表观模型n为当前帧候选区域的个数,通过比较与f
k-1
的相似性,选取与f
k-1
相似度最高的候选区域,该区域内的超像素标签仍保持为前景,其余区域的超像素标签更正为背景;
31.将当前帧与f
k-1
相似度最高的区域的表观特征记做fk',更新当前帧的目标的表观模型,更新后当前帧目标的表观模型记做fk,fk用于在下一帧中基于长期时空线索的标签优化。
32.作为优选的技术方案,所述基于当前帧超像素的前景标签和超像素间的邻接关系,电饭锅绘制目标的前景骨架,具体为:
33.对于每个前景超像素,先筛选出与其一跳相邻的所有前景超像素,然后根据超像素间的位置关系,只连接位于其最上端的一跳相邻的前景超像素,若无,则连接位于其最下端的一跳内相邻的前景超像素,若均无,则按照先左后右的顺序连接其最左端或最右端的前景超像素;按照此规律连接,得到目标的前景骨架;
34.所述基于与目标外观相似的干扰物,绘制目标的背景骨架,具体为:
35.基于长期时空线索选取了与目标表观模型最相似的一块连通区域保持前景标签不变,其他连通区域的超像素,将其原本的前景标签更改为背景;将所有更改标签的超像素,按照提取前景骨架相同的策略提取其背景骨架;若某帧在标签优化前仅有一块连通区域,则该帧目标无背景骨架。
36.作为优选的技术方案,所述将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果,具体为:
37.骨架映射网络的核心为残差网络和编码解码结构,将残差网络中的resnet50作为骨干网络,提取图像的深度特征,该网络使用标准的显著性目标检测数据集,语义分割的数据集进行预训练;在预训练结束后,使用视频分割中常用数据集训练网络,该网络通过交叉熵损失函数计算损失;
38.骨架映射网络的输入由前景骨架、背景骨架、当前帧的图像信息组成,该骨架映射网络将上述三种输入沿着通道的维度串联,组成五维张量;前景骨架标注图和背景骨架标
注图均为灰度图,前景骨架标注图和背景骨架标注图各占一个维度,w和h为视频序列中每帧的宽和高;
39.骨架映射网络的输出为与输入图像大小相等的响应图,响应值分布在0-1之间,代表每个像素点属于前景或者背景的概率,响应值越接近1,像素点属于前景的概率就越大。
40.本发明另一方面提供了一种基于吸收马尔科夫链和骨架映射网络的视频分割系统,包括超像素分割模块、吸收马尔科夫链构建模块、优化模块、骨架获取模块以及视频分割模块;
41.所述超像素分割模块,基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,将感兴趣区域进行超像素分割成若干超像素;
42.所述吸收马尔科夫链构建模块,用于根据第一帧和当前帧的超像素,以及当前帧前一帧和当前帧的超像素,分别构建两条吸收马尔科夫链,计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签;
43.所述优化模块,用于构建短期时空线索和长期时空线索对超像素标签进行优化;所述短期时空线索用于描述目标短时间内外观变化,基于视频序列中当前帧的前几帧的分割结果,校正当前帧中被误分割为前景的孤立背景超像素;所述长期时空线索用于描述目标长久稳定外观特征,构造从第一帧到当前帧的长期外观模型,若当前帧中有多个区域被同时分割为目标,则比较这多个区域与长期外观模型的相似度,选择最相似的区域作为分割结果;
44.所述骨架获取模块,基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架;
45.所述视频分割模块,基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练骨架映射网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果。
46.本发明又一方面提供了一种电子设备,所述电子设备包括:
47.至少一个处理器;以及,
48.与所述至少一个处理器通信连接的存储器;其中,
49.所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于吸收马尔科夫链和骨架映射网络的视频分割方法。
50.本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于吸收马尔科夫链和骨架映射网络的视频分割方法。
51.本发明与现有技术相比,具有如下优点和有益效果:
52.1、本发明采用基于孪生网络的单目标跟踪方法,用于判断相邻两帧间目标的位移量,并根据目标跟踪结果,生成待分割区域的感兴趣区域,为视频分割提供正确引导。
53.2、本发明引入目标在第一帧中稳定且准确的信息,用于生成吸收马尔科夫链,改进了遮挡挑战时的视频分割效果。
54.3、本发明提出短期时空线索,捕获目标在短时间内的运动规律,降低误分割的孤
立超像素的干扰;同时提出长期时空线索,寻找目标长期稳定的外观特征,防止相似物体干扰分割。
55.4、本发明基于超像素的标签和超像素间的邻接关系,设计前景骨架、背景骨架的生成算法。并基于残差网络和编码解码结构,构造骨架映射网络,得到目标的最终分割结果,基于骨架映射网络的视频分割能达到比超像素级的视频分割更鲁棒的分割效果。
附图说明
56.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
57.图1是基于吸收马尔科夫链和骨架映射网络的视频分割方法的流程图;
58.图2是基于slic算法的超像素分割结果;
59.图3(a)是一跳相连的帧内边的示意图,图3(b)是两跳相连的帧内边的示意图,图书(c)是帧间边的示意图;
60.图4(a)是短期时间线索优化前的分割结果,图4(b)是短期时间线索优化后的分割结果,图4(c)是准确的目标轮廓;
61.图5(a)是长期时间线索优化前的分割结果;图5(b)是长期时间线索优化后的分割效果;
62.图6(a)是原始图像,图6(b)是基于超像素标签提取的目标前景骨架;
63.图7是基于超像素标签提取的目标背景骨架;
64.图8(a)是图像原图,图8(b)是准确的目标轮廓的示意图,图8(c)是本发明的视频分割结果图;
65.图9为本发明实施例基于吸收马尔科夫链和骨架映射网络的视频分割系统的方框图;
66.图10为本发明实施例电子设备的结构图。
具体实施方式
67.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
68.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。
69.请参阅图1,本实施例基于吸收马尔科夫链和骨架映射网络的视频分割方法方法,难点在于将第一帧的信息引入吸收马尔科夫链,提高在遮挡挑战下的视频分割结果;提出短期时空线索,校正被误分割为前景的背景超像素;提出长期时空线索,解决相似物体干扰
的问题;基于超像素标签提取目标的前景骨架和背景骨架,输入骨架映射网络,得到比超像素级的视频分割更精准鲁棒的分割结果,该方法包括下述步骤:
70.s1、基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,将感兴趣区域进行超像素分割成若干超像素;
71.进一步的,请参阅图2,基于孪生网络,获取当前帧的目标跟踪结果,并将跟踪结果向外扩展1.5倍,得到当前帧的感兴趣区域;将感兴趣区域用slic算法进行超像素分割,将感兴趣区域分割成若干超像素;所述感兴趣区域的划分方法包括下述步骤:
72.s11、在视频序列的第一帧,人工标定目标的位置和大小,即用鼠标在第一帧图像上,画出与目标在上、下、左、右四个方向相切的矩形框,将矩形框的左上角坐标用(x,y)表示,将矩形框的宽用w表示,高用h表示,上述四个参数即可包含矩形框的所有空间信息;
73.s12、基于孪生网络,预测后续帧中的跟踪结果,将每帧的跟踪结果用(x,y,w,h)表示,并将跟踪结果存入文本文件;
74.s13、将每帧跟踪结果所在矩形框的长和宽,均扩展1.5倍,得到每帧的感兴趣区域,如果扩展后的感兴趣区域边界超出图像范围,则将图像边界作为感兴趣区域的边界。
75.更进一步的,请再次参阅图2,所示为基于slic算法对感兴趣区域的超像素分割结果,解释如下:
76.图2中的每个边界不规则的闭合区域,均代表一个超像素;
77.图2中的每个点为每个超像素的中心点。
78.可以理解的是,本发明运用基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,将感兴趣区域用slic算法进行超像素分割,将感兴趣区域分割成若干超像素。
79.s2、根据第一帧和当前帧的超像素,以及当前帧前一帧和当前帧的超像素,分别构建两条吸收马尔科夫链,计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签,具体包括下述步骤:
80.s21、将构造的吸收马尔科夫链记做g,令g=(v,e);v为g的顶点,感兴趣区域内的每个超像素都表示一个顶点。根据吸收马尔科夫链的构造原理,将所有顶点分类为吸收态顶点(va)和瞬态顶点(vn);
81.s22、e为g的边,将g中所有边分成帧内边和帧间边两类。所有在同一帧中一跳和两跳内相邻的超像素,均以帧内边相连。一跳相临的超像素即某超像素的所有邻居超像素,两跳相邻的超像素即某超像素的所有邻居的邻居超像素。本文通过光流法寻找两帧中特征相似,位置相近的对应超像素,并用帧间边连接,边的权重为两个超像素的相似性;
82.s23、当前帧和第一帧建立吸收马尔科夫链时,第一帧感兴趣区域内的背景超像素被标记为va,第一帧感兴趣区域内的前景超像素和当前帧感兴趣区域内所有超像素被标记为vn。根据s22中所述边的构造规则,构造当前帧与第一帧中两帧内部的帧内边,和连接当前帧与第一帧的帧间边,并根据超像素间的相似性,计算边的权重;最后根据吸收马尔科夫链的吸收原则,得到当前帧感兴趣区域内所有超像素的吸收时间h1;
83.s24、当前帧前一帧建立吸收马尔科夫链时,当前帧的前一帧感兴趣区域内的背景超像素被标记为va,当前帧的前一帧感兴趣区域内的前景超像素和当前帧感兴趣区域内所
有超像素被标记为vn。根据s22中所述边的构造规则,分别构造当前帧与前一帧中两帧内部的帧内边,并构造连接当前帧与前一帧的帧间边,根据超像素间的相似性,计算边的权重;最后根据吸收马尔科夫链的吸收原则,得到当前帧感兴趣区域内所有超像素的吸收时间h2;
84.s25、h1和h2均为n行1列的矩阵,n为当前帧感兴趣区域内的超像素个数,根据公式(1)得到当前帧感兴趣区域内所有超像素的吸收时间h,h由h1和h2线性组合得出;
[0085][0086]
其中,α1,α2,α3表示h2对吸收时间的影响,当前帧较第一帧形变量越大,则第一帧对当前帧的指导意义就越小。area1表示当前帧感兴趣区域的面积,area2表示第一帧感兴趣区域的面积;
[0087]
s26、基于s25中当前帧感兴趣区域内所有超像素的吸收时间h,计算平均吸收时间超像素吸收时间大于的,标记为前景,吸收时间小于的,标记为背景。
[0088]
请参阅图3(a)-图3(c),所示为吸收马尔科夫链中,建立帧内边和帧间边的示意图,具体解释如下:
[0089]
如图3(a)所示,图中所有直线为图像中心的超像素与其一跳相邻的超像素(图中浅灰色超像素)一跳相连的超像素;
[0090]
如图3(b)所示,图中所有直线为图像中心的超像素与其两跳相邻的超像素(图中深灰色超像素)两跳相连的超像素;
[0091]
图3(c)为用光流法寻找两帧间超像素的对应关系,用帧间边相连,图中直线为两帧之间的帧间边示意图。
[0092]
s3、构建短期时空线索和长期时空线索对超像素标签进行优化;所述短期时空线索用于描述目标短时间内外观变化,基于视频序列中当前帧的前几帧的分割结果,校正当前帧中被误分割为前景的孤立背景超像素;所述长期时空线索用于描述目标长久稳定外观特征,构造从第一帧到当前帧的长期外观模型,若当前帧中有多个区域被同时分割为目标,则比较这多个区域与长期外观模型的相似度,选择最相似的区域作为分割结果;
[0093]
s31、基于短期时空线索,校正当前帧中被误分割为前景的孤立背景超像素,包括下述步骤:
[0094]
s311、通过存储器存储当前帧前t帧的视频分割结果,分割结果用0-1矩阵表示,0代表背景像素,1代表前景像素;
[0095]
s312、基于前t帧的分割结果,根据公式(2)统计在当前帧中标签为前景,而在当前帧的前t帧中标签均为背景的像素;
[0096][0097]
其中,r矩阵的维度为t
×m×
n,m
×
n为每帧的长度
×
宽度,r矩阵中存储前t帧的视频分割结果,tk为当前帧的初始视频分割结果,当前帧为第k帧。根据公式(2)可知,矩阵w中值为1的元素,表示在第k帧中,该像素点的标签为前景,而该像素点,在前t帧中标签均为背
景;
[0098]
s313、将矩阵w中所有值为1的像素点表示为集合s,并把s中所有像素对应的超像素用集合supers表示,集合supers中,所有超像素的标签均为前景,当supers中某一超像素的所有一跳、两跳内相邻的超像素标签均为背景时,则认为该超像素标签划分错误,将该超像素标签更正为背景。
[0099]
s32、基于长期时空线索排除相似物体的干扰,优化超像素的标签标定,具体包括下述步骤:
[0100]
s321、根据当前帧感兴趣区域内超像素的前景标签,构造无向图。将当前帧中所有前景超像素作为图的顶点,用边连接两跳内相邻的前景超像素,所构图中连通区域的个数即为当前帧分割出候选区域的个数;
[0101]
s322、基于长期时空线索,利用从第一帧到当前帧的前一帧中目标的累计表观特征,根据公式(3),构造目标的表观模型f
k-1

[0102][0103]
其中,r
learn
为学习率,fi为第i帧的目标表观模型,fi的物理意义为将目标的lab信息,映射到6
×6×
6的矩阵空间;
[0104]
s323、对当前帧分割出的所有候选区域,构造表观模型n为当前帧候选区域的个数,通过比较与f
k-1
的相似性,选取与f
k-1
相似度最高的候选区域,该区域内的超像素标签仍保持为前景,其余区域的超像素标签更正为背景;
[0105]
s324、将当前帧与f
k-1
相似度最高的区域的表观特征记做fk',根据公式(4)更新当前帧的目标的表观模型,更新后当前帧目标的表观模型记做fk,fk用于在下一帧中基于长期时空线索的标签优化。
[0106][0107]
请参阅图4(a)-图4(c),本发明采用短期时间线索优化对分割结果做处理,可以得到准确的目标轮廓。
[0108]
请再次参阅图5(a)、图5(b),基于长期时空线索优化前后的分割效果,相关解释如下:
[0109]
如图5(a)所示,当两只相邻的丹顶鹤相互靠近时,将两只形态相近的丹顶鹤的躯干部位同时分割为目标,用编号
①②
表示;
[0110]
如图5(b)所示,基于长期时空线索,构造目标的长期表观模型,与
①②
两个区域进行相似度比较,由于区域

与长期表观模型相似度高,所以区域

内的所有超像素为前景标签,区域

内的所有超像素为背景标签。
[0111]
s4、基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架,具体包括下述步骤:
[0112]
s41、对于每个前景超像素,先筛选出与其一跳相邻的所有前景超像素。然后根据超像素间的位置关系,只连接位于其最上端的一跳相邻的前景超像素,若无,则连接位于其最下端的一跳内相邻的前景超像素,若均无,则按照先左后右的顺序连接其最左端或最右端的前景超像素。按照此规律连接,得到目标的前景骨架;
[0113]
s42、基于长期时空线索选取了与目标表观模型最相似的一块连通区域保持前景标签不变,其他连通区域的超像素,将其原本的前景标签更改为背景。本发明将所有更改标签的超像素,按照和s41中提取前景骨架相同的策略提取其背景骨架。若某帧在标签优化前仅有一块连通区域,则该帧目标无背景骨架。
[0114]
请参阅图6(a)、图6(b)和图7,基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架;基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果;
[0115]
s5、基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练骨架映射网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果,具体步骤如下:
[0116]
s51、骨架映射网络的核心为残差网络和编码解码结构,将残差网络中的resnet50作为骨干网络,可以有效提取图像的深度特征,避免过拟合现象。该网络使用标准的显著性目标检测数据集,语义分割的数据集进行预训练;在预训练结束后,使用视频分割中常用数据集训练网络。该网络通过交叉熵损失函数计算损失,并将学习率固定为1e-5;
[0117]
s52、骨架映射网络的输入由前景骨架、背景骨架、当前帧的图像信息组成,该网络将上述三种输入沿着通道的维度串联,组成五维张量。将网络输入记做xi,xi∈i
5*w*h
。其中,当前帧图像的rgb信息占3个维度;前景骨架标注图和背景骨架标注图均为灰度图,前景骨架区域灰度值为0,背景骨架区域灰度值为100,前景骨架标注图和背景骨架标注图各占一个维度,w和h为视频序列中每帧的宽和高;
[0118]
s53、该网络结构的输出为与输入图像大小相等的响应图,响应值分布在0-1之间,代表每个像素点属于前景或者背景的概率,响应值越接近1,像素点属于前景的概率就越大。
[0119]
请参阅图8(a)-图8(c),通过本发明的技术方案,对图(8)进行处理后,得到图8(b)准确的目标轮廓的示意图和图8(c)的视频分割结果,从图中可以看出,通过本发明的技术方案,可以得到较好的分割效果。
[0120]
可以理解的是,本发明选用bo等人提出的目标跟踪方法(以high performance visual tracking with siamese region proposal network为论文题目对应方法的简称)作为跟踪目标,获取感兴趣区域的基本方法;选用achanta等人提出的超像素分割方法(以slic superpixels compared to state-of-the-art superpixel methods为论文题目对应方法的简称)作为对感兴趣区域进行超像素分割的基本方法。
[0121]
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
[0122]
基于与上述实施例中的基于双流驱动编码器和特征记忆模块的视频分割方法相同的思想,本发明还提供了基于双流驱动编码器和特征记忆模块的视频分割系统,该系统可用于执行上述基于双流驱动编码器和特征记忆模块的视频分割方法。为了便于说明,基于双流驱动编码器和特征记忆模块的视频分割系统实施例的结构示意图中,仅仅示出了与
本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0123]
请再次参阅图9,在本技术的另一个实施例中,提供了一种基于吸收马尔科夫链和骨架映射网络的视频分割系统100,该系统包括超像素分割模块101、吸收马尔科夫构建模块102、优化模块103、骨架获取模块104以及视频分割模块105;
[0124]
所述超像素分割模块101,基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,将感兴趣区域进行超像素分割成若干超像素;
[0125]
所述吸收马尔科夫链构造模块102,用于根据第一帧和当前帧的超像素,以及当前帧前一帧和当前帧的超像素,分别构建两条吸收马尔科夫链,计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签;
[0126]
所述优化模块103,用于构建短期时空线索和长期时空线索对超像素标签进行优化;所述短期时空线索用于描述目标短时间内外观变化,基于视频序列中当前帧的前几帧的分割结果,校正当前帧中被误分割为前景的孤立背景超像素;所述长期时空线索用于描述目标长久稳定外观特征,构造从第一帧到当前帧的长期外观模型,若当前帧中有多个区域被同时分割为目标,则比较这多个区域与长期外观模型的相似度,选择最相似的区域作为分割结果;
[0127]
所述骨架获取模块104,基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架;
[0128]
所述视频分割模块105,基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练骨架映射网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果。
[0129]
需要说明的是,本发明的基于吸收马尔科夫链和骨架映射网络的视频分割系统与本发明的基于吸收马尔科夫链和骨架映射网络的视频分割方法一一对应,在上述基于吸收马尔科夫链和骨架映射网络的视频分割方法的实施例阐述的技术特征及其有益效果均适用于基于吸收马尔科夫链和骨架映射网络的视频分割的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
[0130]
此外,上述实施例的基于吸收马尔科夫链和骨架映射网络的视频分割系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于吸收马尔科夫链和骨架映射网络的视频分割系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
[0131]
请参阅图10,在一个实施例中,提供了一种实现基于吸收马尔科夫链和骨架映射网络的视频分割方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如基于基于吸收马尔科夫链和骨架映射网络的视频分割方法程序203。
[0132]
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光
盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(securedigital,sd)卡、闪存卡(flash card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如多方隐私保护机器学习程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0133]
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
[0134]
图10仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图9示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0135]
所述电子设备200中的所述第一存储器202存储的基于双流驱动编码器和特征记忆模块的视频分割程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
[0136]
基于孪生网络的目标跟踪算法,计算出每帧中目标的感兴趣区域,并对感兴趣区域进行超像素分割;
[0137]
根据第一帧和当前帧的超像素,以及当前帧前一帧和当前帧的超像素,分别构建两条吸收马尔科夫链,计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签;
[0138]
构造骨架映射网络模块,基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架;基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果;
[0139]
将基于吸收马尔科夫链和骨架映射网络构造模块输出的特征融合,对融合后的特征进行解码,得到当前帧视频分割结果。
[0140]
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0141]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编
程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0142]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0143]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:
1.基于吸收马尔科夫链和骨架映射网络的视频分割方法,其特征在于,包括下述步骤:基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,将感兴趣区域进行超像素分割成若干超像素;根据第一帧和当前帧的超像素,以及当前帧前一帧和当前帧的超像素,分别构建两条吸收马尔科夫链,计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签;构建短期时空线索和长期时空线索对超像素标签进行优化;所述短期时空线索用于描述目标短时间内外观变化,基于视频序列中当前帧的前几帧的分割结果,校正当前帧中被误分割为前景的孤立背景超像素;所述长期时空线索用于描述目标长久稳定外观特征,构造从第一帧到当前帧的长期外观模型,若当前帧中有多个区域被同时分割为目标,则比较这多个区域与长期外观模型的相似度,选择最相似的区域作为分割结果;基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架;基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练骨架映射网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果。2.根据权利要求1所述基于吸收马尔科夫链和骨架映射网络的视频分割方法,其特征在于,所述基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,具体为:在视频序列的第一帧,人工标定目标的位置和大小,即用鼠标在第一帧图像上,画出与目标在上、下、左、右四个方向相切的矩形框,将矩形框的左上角坐标用(x,y)表示,将矩形框的宽用w表示,高用h表示,x、y、w、h四个参数包含矩形框的所有空间信息;基于孪生网络,预测后续帧中的跟踪结果,将每帧的跟踪结果用(x,y,w,h)表示,并将跟踪结果存入文本文件;将每帧跟踪结果所在矩形框的长和宽进行扩展,得到每帧的感兴趣区域,如果扩展后的感兴趣区域边界超出图像范围,则将图像边界作为感兴趣区域的边界。3.根据权利要求1所述基于吸收马尔科夫链和骨架映射网络的视频分割方法,其特征在于,所述计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签,具体包括下述步骤:将构造的吸收马尔科夫链记做g,g包括多个顶点和多个边;顶点的构造规则为:将感兴趣区域内的每个超像素都表示一个顶点,根据吸收马尔科夫链的构造原理,将所有顶点分类为吸收态顶点和瞬态顶点;边的构造规则为:将g中所有边分成帧内边和帧间边两类;所有在同一帧中一跳和两跳内相邻的超像素,均以帧内边相连,一跳相邻的超像素即某超像素的所有邻居超像素,两跳相邻的超像素即某超像素的所有邻居的邻居超像素;通过光流法寻找两帧中特征相似、位置相近的对应超像素,并用帧间边连接,边的权重为两个超像素的相似性;当前帧和第一帧建立吸收马尔科夫链时,根据顶点的构造规则,第一帧感兴趣区域内的背景超像素被标记为吸收态顶点,第一帧感兴趣区域内的前景超像素和当前帧感兴趣区域内所有超像素被标记为瞬态顶点;根据边的构造规则,构造当前帧与第一帧中两帧内部
的帧内边,和连接当前帧与第一帧的帧间边,并根据超像素间的相似性,计算边的权重;最后根据吸收马尔科夫链的吸收原则,得到第一条吸收马尔科夫链当前帧感兴趣区域内所有超像素的吸收时间h1;当前帧和前一帧建立吸收马尔科夫链时,根据顶点的构造规则,当前帧的前一帧感兴趣区域内的背景超像素被标记为吸收态顶点,当前帧的前一帧感兴趣区域内的前景超像素和当前帧感兴趣区域内所有超像素被标记为瞬态顶点;根据边的构造规则,分别构造当前帧与前一帧中两帧内部的帧内边,并构造连接当前帧与前一帧的帧间边,根据超像素间的相似性,计算边的权重;最后根据吸收马尔科夫链的吸收原则,得到第二条吸收马尔科夫链当前帧感兴趣区域内所有超像素的吸收时间h2;根据h1和h2得到当前帧感兴趣区域内所有超像素的吸收时间h,h由h1和h2线性组合得出;基于当前帧感兴趣区域内所有超像素的吸收时间h,计算平均吸收时间超像素吸收时间大于的,标记为前景,吸收时间小于的,标记为背景。4.根据权利要求1所述基于吸收马尔科夫链和骨架映射网络的视频分割方法,其特征在于,基于短期时空线索对超像素标签优化具体为:通过存储你器存储当前帧前t帧的视频分割结果,分割结果用0-1矩阵表示,0代表背景像素,1代表前景像素;基于前t帧的分割结果,统计在当前帧中标签为前景,而在当前帧的前t帧中标签均为背景的像素;将矩阵中所有值为1的像素点表示为集合s,并把s中所有像素对应的超像素用集合supers表示,集合supers中,所有超像素的标签均为前景,当supers中某一超像素的所有一跳、两跳内相邻的超像素标签均为背景时,则认为该超像素标签划分错误,将该超像素标签更正为背景。5.根据权利要求1所述基于吸收马尔科夫链和骨架映射网络的视频分割方法,其特征在于,基于长期时空线索对超像素标签优化具体为:利用当前帧感兴趣区域内超像素的前景标签,构造无向图;将当前帧中所有前景超像素作为无向图的顶点,用边连接两跳内相邻的前景超像素,所述无向图中连通区域的个数即为当前帧分割出候选区域的个数;基于长期时空线索,利用从第一帧到当前帧的前一帧中目标的累计表观特征构造目标的表观模型f
k-1
;对当前帧分割出的所有候选区域,构造表观模型n为当前帧候选区域的个数,通过比较与f
k-1
的相似性,选取与f
k-1
相似度最高的候选区域,该区域内的超像素标签仍保持为前景,其余区域的超像素标签更正为背景;将当前帧与f
k-1
相似度最高的区域的表观特征记做f
k
',更新当前帧的目标的表观模型,更新后当前帧目标的表观模型记做f
k
,f
k
用于在下一帧中基于长期时空线索的标签优化。6.根据权利要求1所述基于吸收马尔科夫链和骨架映射网络的视频分割方法,其特征在于,所述基于当前帧超像素的前景标签和超像素间的邻接关系,电饭锅绘制目标的前景
骨架,具体为:对于每个前景超像素,先筛选出与其一跳相邻的所有前景超像素,然后根据超像素间的位置关系,只连接位于其最上端的一跳相邻的前景超像素,若无,则连接位于其最下端的一跳内相邻的前景超像素,若均无,则按照先左后右的顺序连接其最左端或最右端的前景超像素;按照此规律连接,得到目标的前景骨架;所述基于与目标外观相似的干扰物,绘制目标的背景骨架,具体为:基于长期时空线索选取了与目标表观模型最相似的一块连通区域保持前景标签不变,其他连通区域的超像素,将其原本的前景标签更改为背景;将所有更改标签的超像素,按照提取前景骨架相同的策略提取其背景骨架;若某帧在标签优化前仅有一块连通区域,则该帧目标无背景骨架。7.根据权利要求1所述基于吸收马尔科夫链和骨架映射网络的视频分割方法,其特征在于,所述将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果,具体为:骨架映射网络的核心为残差网络和编码解码结构,将残差网络中的resnet50作为骨干网络,提取图像的深度特征,该网络使用标准的显著性目标检测数据集,语义分割的数据集进行预训练;在预训练结束后,使用视频分割中常用数据集训练网络,该网络通过交叉熵损失函数计算损失;骨架映射网络的输入由前景骨架、背景骨架、当前帧的图像信息组成,该骨架映射网络将上述三种输入沿着通道的维度串联,组成五维张量;前景骨架标注图和背景骨架标注图均为灰度图,前景骨架标注图和背景骨架标注图各占一个维度,w和h为视频序列中每帧的宽和高;骨架映射网络的输出为与输入图像大小相等的响应图,响应值分布在0-1之间,代表每个像素点属于前景或者背景的概率,响应值越接近1,像素点属于前景的概率就越大。8.基于吸收马尔科夫链和骨架映射网络的视频分割系统,其特征在于,包括超像素分割模块、吸收马尔科夫链构建模块、优化模块、骨架获取模块以及视频分割模块;所述超像素分割模块,基于孪生网络的目标跟踪算法,获取当前帧的目标跟踪结果,并将目标跟踪结果向外扩展,计算出每帧中目标的感兴趣区域,将感兴趣区域进行超像素分割成若干超像素;所述吸收马尔科夫链构建模块,用于根据第一帧和当前帧的超像素,以及当前帧前一帧和当前帧的超像素,分别构建两条吸收马尔科夫链,计算出当前帧每个超像素的两个吸收时间,并对吸收时间加权,根据加权后的吸收时间确定超像素的初始前景标签和背景标签;所述优化模块,用于构建短期时空线索和长期时空线索对超像素标签进行优化;所述短期时空线索用于描述目标短时间内外观变化,基于视频序列中当前帧的前几帧的分割结果,校正当前帧中被误分割为前景的孤立背景超像素;所述长期时空线索用于描述目标长久稳定外观特征,构造从第一帧到当前帧的长期外观模型,若当前帧中有多个区域被同时分割为目标,则比较这多个区域与长期外观模型的相似度,选择最相似的区域作为分割结果;所述骨架获取模块,基于当前帧超像素的前景标签和超像素间的邻接关系,绘制目标
的前景骨架;基于与目标外观相似的干扰物,绘制目标的背景骨架;所述视频分割模块,基于残差网络和编码解码框架构造骨架映射网络,用语义分割和视频分割的通用数据集训练骨架映射网络,并将前景骨架、背景骨架、当前帧的图像信息输入骨架映射网络,输出当前帧的视频分割结果。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于吸收马尔科夫链和骨架映射网络的视频分割方法。10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于吸收马尔科夫链和骨架映射网络的视频分割方法。

技术总结
本发明公开了基于吸收马尔科夫链和骨架映射网络的视频分割方法及装置,方法包括下述步骤:提取目标的感兴趣区域并对该区域进行超像素分割;根据当前帧、第一帧、上一帧的超像素建立吸收马尔科夫链,初步判断当前帧超像素的标签;提出长期、短期时空线索,优化超像素标签;根据超像素标签,获取表达目标形态的前景骨架和表达干扰物体信息的背景估计;构造骨架映射网络,将前景骨架、背景骨架和当前帧图像,作为骨架映射网络的输入,输出目标的最终分割结果。本发明可以较好地分割出复杂场景下目标的边缘轮廓,应对视频分割中的剧烈形变,相似背景等挑战,且不需要长时间训练神经网络,对计算机硬件的需求较低。计算机硬件的需求较低。计算机硬件的需求较低。


技术研发人员:梁云 郑晋图 张宇晴 翁诗彤 肖磊 林毅申
受保护的技术使用者:华南农业大学
技术研发日:2022.03.31
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-3394.html

最新回复(0)