一种基于多神经网络的SLAM方法及系统

allin2025-05-03  20


本发明涉及计算机视觉,具体的是一种基于多神经网络的slam方法及系统。


背景技术:

1、近二十年来,同步定位与建图(slam)已成为机器人学和计算机视觉领域的研究热点。它是移动机器人、微型飞行器、自动驾驶和增强现实等许多应用的基本模块,因为它们都需要实时定位。slam技术利用传感器获取的信息构建未知环境的地图,并在地图中定位传感器。视觉slam因相机价格低廉且能获取丰富的环境信息而被广泛研究。

2、目前使用的大多数视觉slam系统都依赖于手工创建的视觉特征。例如,orb-slam通过提取每帧图像中的orb特征来执行特征匹配和闭环检测,然后估计摄像机姿态并构建环境地图。虽然手工创建的特征点提取算法大多数能够快速地检测关键点,但是在角点检测区域特征不明显时,存在特征提取不准确的问题,同时手工创建的特征可能无法在复杂环境中提供一致的特征检测和准确的匹配结果。

3、随着深度学习的发展,许多研究者利用卷积神经网络(cnn)训练模型用于图像领域得到的深度特征点提取算法,其准确度和速度远高于传统的特征提取算法,基于深度学习的兴趣点检测器和描述符越来越流行,并且通过大量的实验证明,深度学习特征点提取优于人工提取特征算法。基于深度神经网络的特征提取已取代手工特征提取,成为相关研究的主流,基于神经网络的特征也被广泛应用于视觉slam系统的设计和研究中。例如,基于几何对应网络的gcn-slam,基于高频网络的dxslam,基于superpoint的自动驾驶视觉slam。虽然这些方法通过使用深度特征而不是手工创建的特征提高了视觉slam系统的性能,但这些系统可能无法很好地连续跟踪特征点。这是因为它们采用了与手工创建特征相同的特征匹配方法。这种设计限制了系统的性能。


技术实现思路

1、为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于多神经网络的slam方法及系统,使用深度特征点superpoint,结合lightglue网络模型完成特征匹配。

2、第一方面,本发明的目的可以通过以下技术方案实现:一种基于多神经网络的slam方法,方法包括以下步骤:

3、获取图片,将图片输入至预先建立的superpoint网络模型内进行superpoint深度特征提取,输出得到深度特征点;

4、将深度特征点基于光流算法计算得出上一帧图片中相应特征点,对上一帧图片中相应特征点通过几何一致性检查标注动态特征点,将动态特征点剔除,得到处理后的深度特征点;

5、将处理后的深度特征点输入至预先建立的lightglue网络模型内进行特征匹配,输出得到特征匹配结果,根据特征匹配结果完成对相机的位姿估计,并进行局部建图线程、闭环检测线程,最终得到相机运动轨迹和三维场景地图。

6、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述预先建立的superpoint网络模型和lightglue网络模型通过创建特征提取器并转化superpoint网络模型和lightglue和网络模型,使用onnx框架部署网络模型以及硬件gpu加速。

7、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述预先建立的superpoint网络模型由共享编码器、特征检测解码器和特征描述子解码器三部分组成,共享编码器是基于vgg卷积神经网络进行图像降维得到共享张量;特征检测解码器通过共享张量还原图像像素并计算输出每个像素是特征点的概率;特征描述子解码器对共享张量卷积处理得到不完全描述子,然后双线性插值得到完整特征描述子。

8、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述预先建立的lightglue网络模型由多个相同层和最后一个特征匹配头共同构成,预测从图像a和b提取的局部特征集之间的部分匹配关系,这些相同层共同处理两个特征集合,其中每个层都由自注意力单元和交叉注意力单元组成,用于更新每个点到另一张图片的相似度,然后由每层的置信度分类器决定是否停止推理,若满足一定数量的匹配点对则结束推理;若不满足停止准则,则删除那些被预测为既可信又不可匹配的点,最后特征匹配头计算相似分数矩阵和可匹配性得到匹配点对。

9、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述根据特征匹配结果完成对相机的位姿估计的过程中,使用pnp算法估计相机的运动,然后最小化3d点到2d点的重投影误差,以优化相机位姿。

10、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述局部建图线程、闭环检测线程需判断是否创建关键帧,局部建图线程利用关键帧构建局部地图,基于lightgule的三角测量和自适应局部束调整ba优化来重建精确的3d地图点,最后检测移除冗余地图点和关键帧。

11、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述闭环检测线程接收关键帧,基于seq-calc网络的深度闭环检测器在关键帧数据库中检测候选闭环帧,在候选闭环帧中使用lightgule进行特征匹配和sim3计算进一步确定闭环关键帧,然后利用闭环约束进行闭环矫正对关键帧进行融合和全局ba来优化整体姿态,消除系统运行过程中累计的误差;最终得到相机运动轨迹和三维场景地图。

12、第二方面,为了达到上述目的,本发明公开了一种基于多神经网络的slam系统,包括:

13、特征提取模块,用于获取图片,将图片输入至预先建立的superpoint网络模型内进行superpoint深度特征提取,输出得到深度特征点;

14、特征点优化模块,用于将深度特征点基于光流算法计算得出上一帧图片中相应特征点,对上一帧图片中相应特征点通过几何一致性检查标注动态特征点,将动态特征点剔除,得到处理后的深度特征点;

15、特征输出模块,用于将处理后的深度特征点输入至预先建立的lightglue网络模型内进行特征匹配,输出得到特征匹配结果,根据特征匹配结果完成对相机的位姿估计,并进行局部建图线程、闭环检测线程,最终得到相机运动轨迹和三维场景地图。

16、结合第二方面,在第二方面的某些实现方式中,该系统还包括:所述特征提取模块和特征输出模块内预先建立的superpoint网络模型和lightglue网络模型通过创建特征提取器并转化superpoint网络模型和lightglue和网络模型,使用onnx框架部署网络模型以及硬件gpu加速。

17、或者特征提取模块内预先建立的superpoint网络模型由共享编码器、特征检测解码器和特征描述子解码器三部分组成,共享编码器是基于vgg卷积神经网络进行图像降维得到共享张量;特征检测解码器通过共享张量还原图像像素并计算输出每个像素是特征点的概率;特征描述子解码器对共享张量卷积处理得到不完全描述子,然后双线性插值得到完整特征描述子;

18、其中,特征输出模块内预先建立的lightglue网络模型由多个相同层和最后一个特征匹配头共同构成,预测从图像a和b提取的局部特征集之间的部分匹配关系,这些相同层共同处理两个特征集合,其中每个层都由自注意力单元和交叉注意力单元组成,用于更新每个点到另一张图片的相似度,然后由每层的置信度分类器决定是否停止推理,若满足一定数量的匹配点对则结束推理;若不满足停止准则,则删除那些被预测为既可信又不可匹配的点,最后特征匹配头计算相似分数矩阵和可匹配性得到匹配点对;

19、特征输出模块内根据特征匹配结果完成对相机的位姿估计的过程中,使用pnp算法估计相机的运动,然后最小化3d点到2d点的重投影误差,以优化相机位姿;

20、特征输出模块内局部建图线程、闭环检测线程需判断是否创建关键帧,局部建图线程利用关键帧构建局部地图,基于lightgule的三角测量和自适应局部束调整ba优化来重建精确的3d地图点,最后检测移除冗余地图点和关键帧;

21、特征输出模块内闭环检测线程接收关键帧,基于seq-calc网络的深度闭环检测器在关键帧数据库中检测候选闭环帧,在候选闭环帧中使用lightgule进行特征匹配和sim3计算进一步确定闭环关键帧,然后利用闭环约束进行闭环矫正对关键帧进行融合和全局ba来优化整体姿态,消除系统运行过程中累计的误差;最终得到相机运动轨迹和三维场景地图。

22、在本发明的另一方面,为了达到上述目的,公开了一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了如上所述的一种基于多神经网络的slam方法方法。

23、本发明的有益效果:

24、本发明使用卷积神经网络模型superpoint和lightglue进行特征提取和特征匹配,减少人工设计的特征点的局限性,提升了系统的精确性和在复杂环境下的鲁棒性。


技术特征:

1.一种基于多神经网络的slam方法,其特征在于,方法包括以下步骤:

2.根据权利要求1所述的一种基于多神经网络的slam方法,其特征在于,所述预先建立的superpoint网络模型和lightglue网络模型通过创建特征提取器并转化superpoint网络模型和lightglue和网络模型,使用onnx框架部署网络模型以及硬件gpu加速。

3.根据权利要求2所述的一种基于多神经网络的slam方法,其特征在于,所述预先建立的superpoint网络模型由共享编码器、特征检测解码器和特征描述子解码器三部分组成,共享编码器是基于vgg卷积神经网络进行图像降维得到共享张量;特征检测解码器通过共享张量还原图像像素并计算输出每个像素是特征点的概率;特征描述子解码器对共享张量卷积处理得到不完全描述子,然后双线性插值得到完整特征描述子。

4.根据权利要求2所述的一种基于多神经网络的slam方法,其特征在于,所述预先建立的lightglue网络模型由多个相同层和最后一个特征匹配头共同构成,预测从图像a和b提取的局部特征集之间的部分匹配关系,这些相同层共同处理两个特征集合,其中每个层都由自注意力单元和交叉注意力单元组成,用于更新每个点到另一张图片的相似度,然后由每层的置信度分类器决定是否停止推理,若满足一定数量的匹配点对则结束推理;若不满足停止准则,则删除那些被预测为既可信又不可匹配的点,最后特征匹配头计算相似分数矩阵和可匹配性得到匹配点对。

5.根据权利要求1所述的一种基于多神经网络的slam方法,其特征在于,所述根据特征匹配结果完成对相机的位姿估计的过程中,使用pnp算法估计相机的运动,然后最小化3d点到2d点的重投影误差,以优化相机位姿。

6.根据权利要求1所述的一种基于多神经网络的slam方法,其特征在于,所述局部建图线程、闭环检测线程需判断是否创建关键帧,局部建图线程利用关键帧构建局部地图,基于lightgule的三角测量和自适应局部束调整ba优化来重建精确的3d地图点,最后检测移除冗余地图点和关键帧。

7.根据权利要求6所述的一种基于多神经网络的slam方法,其特征在于,所述闭环检测线程接收关键帧,基于seq-calc网络的深度闭环检测器在关键帧数据库中检测候选闭环帧,在候选闭环帧中使用lightgule进行特征匹配和sim3计算进一步确定闭环关键帧,然后利用闭环约束进行闭环矫正对关键帧进行融合和全局ba来优化整体姿态,消除系统运行过程中累计的误差;最终得到相机运动轨迹和三维场景地图。

8.一种基于多神经网络的slam系统,其特征在于,包括:

9.根据权利要求8所述的一种基于多神经网络的slam系统,其特征在于,所述特征提取模块和特征输出模块内预先建立的superpoint网络模型和lightglue网络模型通过创建特征提取器并转化superpoint网络模型和lightglue和网络模型,使用onnx框架部署网络模型以及硬件gpu加速;

10.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了权利要求1至7中任一项所述的一种基于多神经网络的slam方法。


技术总结
本发明公开了一种基于多神经网络的SLAM方法及系统,涉及计算机视觉技术领域,包括:获取图片,将图片输入至预先建立的SuperPoint网络模型内进行SuperPoint深度特征提取,输出得到深度特征点;将深度特征点基于光流算法计算得出上一帧图片中相应特征点,对上一帧图片中相应特征点通过几何一致性检查标注动态特征点,将动态特征点剔除,得到处理后的深度特征点;将处理后的深度特征点输入至预先建立的LightGlue网络模型内进行特征匹配,输出得到特征匹配结果,根据特征匹配结果完成对相机的位姿估计,并进行局部建图线程、闭环检测线程,最终得到相机运动轨迹和三维场景地图。

技术研发人员:刘泽,梁志伟,高翔,胡博文
受保护的技术使用者:南京邮电大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-20888.html

最新回复(0)