本发明涉及计算机立体视觉,特别是涉及一种基于多视图立体视觉的深度图生成方法、装置和设备。
背景技术:
1、多视图立体视觉(multi-view stereo, mvs)技术的核心是通过建立跨不同视图的像素级对应关系来重建三维场景。传统的mvs方法通常依赖于从rgb图像中提取的基于学习的外观特征,以便在不同视角的图像间找到匹配点。这些外观特征通常包含颜色、纹理等信息,通过深度学习模型提取和聚合后,可以在不同视图之间建立初步的像素级对应关系。然而,由于这些方法主要依赖于rgb图像中的视觉特征,因此在光照条件变化和遮挡情况下容易出现严重的问题。
2、光照条件的变化是多视图立体视觉中一个主要的挑战。在真实场景中,光照往往是动态且不一致的,这导致了在不同视图下,相同物体的外观特征可能表现出显著的差异。例如,在一组多视图图像中,某个物体可能在一张图像中被阳光直射而显得非常明亮,而在另一张图像中由于阴影而显得暗淡。这种光照的不一致性使得基于rgb图像的外观特征聚合难以保证跨视图匹配的准确性,从而降低了像素级匹配的精度。
3、此外,遮挡现象也对mvs的像素级匹配提出了极大的挑战。在复杂场景中,物体之间的遮挡是常见的,例如家具、墙壁或其他物体可能部分遮挡视野中的目标物体。这些遮挡导致某些视角下的目标物体在图像中完全不可见,传统基于rgb图像的特征提取方法在这些情况下往往无法提供可靠的匹配信息,进一步影响了立体视觉重建的精度。
4、现有技术为了解决这些问题,已经引入了一些改进方法。例如,结合深度图、法向图或使用多尺度特征提取技术以增加对复杂场景的适应性。然而,这些方法在实际应用中仍然受限,无法完全克服光照变化和遮挡带来的问题。即使在引入了多模态的辅助信息后,如深度图或法向图等,系统仍然面临由于光照条件变化和遮挡导致的特征不一致问题。这种不一致性会在特征聚合过程中引入噪声,导致最终的匹配精度大幅下降。
5、因此,尽管现有技术在多模态特征匹配上进行了许多优化,但在应对光照条件变化和不可见物体的遮挡时,依然存在显著的局限性。面对这些挑战,如何进一步提高多模态特征匹配的鲁棒性,成为了实现高精度三维重建的关键技术难题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高促进了跨视图像素级匹配精度的一种基于多视图立体视觉的深度图生成方法、装置和设备。
2、一种基于多视图立体视觉的深度图生成方法,所述方法包括:
3、对输入的一组多视图图像进行图像分割,得到若干图像片段以及每个图像片段对应的置信度。
4、通过预先训练的视觉语言大模型获取保留图像片段的语义特征,以及多视图图像的上下文语义特征,并将上下文语义特征分配给每个图像片段中的每个像素点。
5、根据每个像素点所属的保留图像片段的语义特征与上下文语义特征,执行多级语义特征聚合,得到每个像素点的语义聚合特征。
6、将每个像素点的语义聚合特征和外观特征进行特征聚合,得到每个像素点对应的目标聚合特征。
7、根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图。
8、一种基于多视图立体视觉的深度图生成装置,所述装置包括:
9、图像分割模块,用于对输入的一组多视图图像进行图像分割,得到若干图像片段以及每个图像片段对应的置信度。
10、语义特征提取模块,用于通过预先训练的视觉语言大模型获取保留图像片段的语义特征,以及多视图图像的上下文语义特征,并将上下文语义特征分配给每个图像片段中的每个像素点。
11、语义特征聚合模块,用于根据每个像素点所属的保留图像片段的语义特征与上下文语义特征,执行多级语义特征聚合,得到每个像素点的语义聚合特征。
12、语义-外观特征聚合模块,用于将每个像素点的语义聚合特征和外观特征进行特征聚合,得到每个像素点对应的目标聚合特征。
13、深度图聚合模块,根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图。
14、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
15、对输入的一组多视图图像进行图像分割,得到若干图像片段以及每个图像片段对应的置信度。
16、通过预先训练的视觉语言大模型获取保留图像片段的语义特征,以及多视图图像的上下文语义特征,并将上下文语义特征分配给每个图像片段中的每个像素点。
17、根据每个像素点所属的保留图像片段的语义特征与上下文语义特征,执行多级语义特征聚合,得到每个像素点的语义聚合特征。
18、将每个像素点的语义聚合特征和外观特征进行特征聚合,得到每个像素点对应的目标聚合特征。
19、根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图。
20、上述基于多视图立体视觉的深度图生成方法、装置和设备,首先,在多视图图像分割阶段,通过对输入的多视图图像进行分割,得到若干图像片段,并计算每个片段的置信度。这一过程确保了在处理图像时,能够识别出在不同视角下的关键信息,从而为后续的语义特征提取奠定了基础。接下来,利用预训练的视觉语言大模型来获取这些图像片段的语义特征,同时提取整个多视图图像的上下文语义特征,并将这些上下文语义特征分配给每个图像片段的每个像素点。这一步骤的核心在于,通过引入视觉语言大模型,使系统能够理解和关联复杂场景中的语义信息,不仅仅依赖于视觉特征,同时结合了语言和上下文信息,尤其在处理光照变化和看不见的物体时,显得尤为有效,光照变化和遮挡通常会导致传统视觉方法在像素级匹配上产生误差,而通过引入上下文语义特征,系统能够更准确地理解场景中的各个元素及其相对关系,减少了因光照不一致或遮挡而产生的匹配错误。随后,根据每个像素点所属的保留图像片段的语义特征与上下文语义特征,执行多级语义特征聚合。这一步骤能够通过层次化的特征聚合,将像素级别的局部信息与全局语义信息相结合,生成更具代表性的语义聚合特征。这种多级特征聚合的方式,有助于在复杂场景中区分出光照影响下的物体轮廓和遮挡区域,使得语义特征与视觉特征更加紧密地结合在一起。最后,将每个像素点的语义聚合特征和外观特征进行进一步的特征聚合,得到每个像素点对应的目标聚合特征。有效地将语义信息与视觉信息整合在一起,使得在生成参考图像的深度图时,能够更加准确地反映出场景中的深度关系,从而大大提高了多视图图像匹配的精度。
1.一种基于多视图立体视觉的深度图生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,对输入的一组多视图图像进行图像分割,得到若干图像片段以及每个图像片段对应的置信度,包括:
3.根据权利要求2所述的方法,其特征在于,根据每个像素点所属的保留图像片段的语义特征与所述上下文语义特征,执行多级语义特征聚合,得到每个像素点的语义聚合特征,包括:
4.根据权利要求3所述的方法,其特征在于,在将每个像素点的语义聚合特征和外观特征进行聚合,得到每个像素点对应的目标聚合特征的步骤前,还包括:
5.根据权利要求4所述的方法,其特征在于,将每个像素点的语义聚合特征和外观特征进行特征聚合,得到每个像素点对应的目标聚合特征,包括:
6.根据权利要求5所述的方法,其特征在于,根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图,包括:
7.一种基于多视图立体视觉的深度图生成装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
