本发明涉及一种三维地图重建,特别是关于一种基于双目稀疏视觉slam的三维稠密地图构建方法及系统。
背景技术:
1、随着计算机视觉的快速发展,视觉slam以其信息获取及时、信息量丰富等优势逐渐成为研究热点。其中双目视觉slam的优点是简单可靠,结果精确度更好,价格也更低廉,因此在各个领域都得到广泛的应用。slam精度的关键要素是特征点选择(通常是角落或边缘)以及相机姿势和地标位置的联合优化(束调整)。由于这些原因,与分离地图进行相机姿态估计的稠密方法相比,稀疏slam会产生更准确的结果。在实际应用中使用时,稀疏slam通常与其他传感器融合,以提高鲁棒性,并提供度量尺度。但是,稀疏特征图在视觉上没有信息,不能直接用于无碰撞运动规划或表面感知ar(augmented reality)或无碰撞运动规划等任务。若是同时进行稠密建图和定位,稠密图像对齐容易受到光度噪声的影响,并且大量的场景参数限制实时联合优化。
技术实现思路
1、针对上述问题,本发明的目的是提供一种基于双目稀疏视觉slam的三维稠密地图构建方法及系统,其在室内外均能有效获得空间深度信息,解决了场景参数限制实时联合优化的问题。
2、为实现上述目的,本发明采取以下技术方案:一种基于双目稀疏视觉slam的三维稠密地图构建方法,其包括:通过改进的orb-slma2,对获取的双目相机彩色图像中的每帧图像进行特征点提取,以实时计算相机位姿;采用基于交叉注意力机制的深度学习网络架构,获取三维空间物体的深度信息,得到单帧稠密点云地图;将连续视图下的多个单帧稠密点云地图合并,根据实时相机位姿及合并后的点云构建三维稠密地图。
3、进一步,通过改进orb-slma2的视觉slam,对获取的双目相机彩色图像中的每帧图像进行特征点提取,以实时计算相机位姿,包括:
4、采用orb特征点提取算法,提取角点作为特征点;
5、通过ransac算法与epnp算法相结合,在ransac算法框架下迭代使用epnp算法,以获得误差最小的位姿。
6、进一步,在ransac算法框架下迭代使用epnp算法,以获得误差最小的位姿,包括:
7、在世界坐标系内寻找四个控制点,寻找控制点是从所有控制点对中,选择3d参考点的重心作为第一个控制点进而求取另外三个控制点;
8、假设已知匹配点在世界坐标系中的坐标匹配点在相机坐标系中的坐标以及每个控制点的坐标在世界坐标系下,根据匹配点与控制点的关系得到相机投影模型;
9、将控制点的坐标x表示为一个12维向量,通过计算匹配点得到mx=0的x的所有解的集合成为系数m的零空间;
10、根据坐标x可以计算得到相机坐标系中的3d匹配点,并利用icp算法分别在世界坐标系和相机坐标系中计算匹配点的质心,通过计算移去质心后的矩阵得到本征矩阵;
11、通过奇异值分解采用旋转矩阵r和摄像机姿态的位移向量t计算本征矩阵的分解,得到相机的姿态变换关系,确定相机在获取图像数据时的姿态信息。
12、进一步,采用基于交叉注意力机制的深度学习网络架构,获取三维空间物体的深度信息,得到单帧稠密点云地图,包括:
13、对双目相机获取的彩色图像,通过交叉注意力机制的深度学习网络架构直接沿扫描线进行全局匹配,通过交叉视图交互整合来自另一张图像的知识,获取视差图,将视差图转换为深度图获取深度信息;
14、利用原彩色图像中的rgb彩色信息和深度信息,计算包含彩色信息的空间点,利用滤波器进行点云精简,以得到单帧稠密点云地图。
15、进一步,对双目相机获取的彩色图像,通过交叉注意力机制的深度学习网络架构直接沿扫描线进行全局匹配,通过交叉视图交互整合来自另一张图像的知识,获取视差图,包括:
16、以两个图像左视图i1和右视图i2作为输入,假设8×下采样密集特征为两个图像特征提取器,其中h,w和d分别表示高度、宽度和特征尺寸;s表示特征张量的空间;当输入图像进入交叉注意力机制的深度学习网络模型时,首先经过一个卷积层,用于对输入图像进行特征提取;
17、将固定的二维正弦和余弦位置编码添加到两个卷积特征和中,以补充对应的空间信息,并输入transformer中以增强特征匹配功能,通过交叉注意力机制整合另一幅图像中潜在匹配候选的知识,得到增强特征f1,f2;
18、通过增强特征f1和f2进行全局匹配,全局匹配为校正立体匹配,根据校正立体匹配的矩阵得到匹配分布mdisp,对mdisp的w×w切片的上三角进行掩膜,并计算匹配分布mdisp与所有潜在水平位置p加权平均值,得到匹配分布与潜在水平位置的一维对应关系,w为切片的宽度;
19、通过计算1d水平像素网格g1d与一维对应关系的对应坐标之间的差值得到视差值
20、引入一个自注意力层,通过测量特征的自相似性,将高质量的预测结果传播到不匹配的区域,得到整图视差值vdisp,将存储单视图所有像素视差值的二维图像作为视差图。
21、进一步,在构建三维稠密地图时,还包括通过回环检测进行后端优化,以动态调整地图,并在检测到回环时通过回环优化对图像帧的位姿进行调整,更新全局地图。
22、进一步,回环检测,包括:
23、从图像序列中选取一部分有代表性的图像作为关键帧,只对关键帧的姿态估计进行优化;
24、通过提取关键帧图像特征,再将关键帧图像特征进行分类构建视觉字典,采用视觉字典中的单词集合表征任一幅图像;
25、通过回环候选帧的匹配点确定是否回环:通过时间一致性确定回环,或通过结构一致性校验确定回环;
26、检测到回环后采用非线性优化的方式进行ba优化,由图优化显式地形象化表示;
27、如果已知相机在地图中的位置,则通过矩阵变换将点云转换到地图坐标系中,以构建出全局三维稠密地图。
28、一种基于双目稀疏视觉slam的三维稠密地图构建系统,其包括:位姿计算模块,通过改进的orb-slma2,对获取的双目相机彩色图像中的每帧图像进行特征点提取,以实时计算相机位姿;单帧稠密地图构建模型,采用基于交叉注意力机制的深度学习网络架构,获取三维空间物体的深度信息,得到单帧稠密点云地图;三维稠密地图构建模块,将连续视图下的多个单帧稠密点云地图合并,根据实时相机位姿及合并后的点云构建三维稠密地图。
29、一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。
30、一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。
31、本发明由于采取以上技术方案,其具有以下优点:
32、1、本发明采用基于视觉slam的三维稠密地图构建,通过双目视觉系统来进行稠密三维重建能规避rgbd相机在强光照和户外大深度场景深度获取困难与单目相机无法在静止时建图的缺点。双目视觉系统通过同时获取同一场景的两幅不同视角的rgb彩色图像,以匹配点的视差来计算景深信息。本发明基于图像内容的方法可以获得丰富的空间结构信息,因而在室内外均可以有效获得空间深度信息。
33、2、本发明采用单独的立体匹配算法来推断稠密深度,通过深度学习所估计的视差图生成彩色深度点云联合改进的orbslam2所提供的位姿构建三维稠密地图并可以实现回环检测更新全局地图。这种松耦合的方式可实现灵活的关键帧选择,立体匹配算法包调整和实时执行,而不会中断主slam流程构建三维稠密地图。
34、3、本发明通过构建基于视觉slam系统的三维地图,还原真实场景下的地图环境,相比目前多数基于特征点的slam算法侧重于定位,只能构建出由特征点组成的稀疏地图,本发明可构建稠密的三维地图,对无人系统导航、未知环境地图构建等领域均有一定的实用价值和科研价值。
1.一种基于双目稀疏视觉slam的三维稠密地图构建方法,其特征在于,包括:
2.如权利要求1所述基于双目稀疏视觉slam的三维稠密地图构建方法,其特征在于,通过改进orb-slma2的视觉slam,对获取的双目相机彩色图像中的每帧图像进行特征点提取,以实时计算相机位姿,包括:
3.如权利要求2所述基于双目稀疏视觉slam的三维稠密地图构建方法,其特征在于,在ransac算法框架下迭代使用epnp算法,以获得误差最小的位姿,包括:
4.如权利要求1所述基于双目稀疏视觉slam的三维稠密地图构建方法,其特征在于,采用基于交叉注意力机制的深度学习网络架构,获取三维空间物体的深度信息,得到单帧稠密点云地图,包括:
5.如权利要求4所述基于双目稀疏视觉slam的三维稠密地图构建方法,其特征在于,对双目相机获取的彩色图像,通过交叉注意力机制的深度学习网络架构直接沿扫描线进行全局匹配,通过交叉视图交互整合来自另一张图像的知识,获取视差图,包括:
6.如权利要求1所述基于双目稀疏视觉slam的三维稠密地图构建方法,其特征在于,在构建三维稠密地图时,还包括通过回环检测进行后端优化,以动态调整地图,并在检测到回环时通过回环优化对图像帧的位姿进行调整,更新全局地图。
7.如权利要求6所述基于双目稀疏视觉slam的三维稠密地图构建方法,其特征在于,回环检测,包括:
8.一种基于双目稀疏视觉slam的三维稠密地图构建系统,其特征在于,包括:
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1至7所述方法中的任一方法。
10.一种计算设备,其特征在于,包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。