基于语义信息引导扩散模型的自主导航建图系统及方法

allin2025-08-08  27


本发明涉及一种自主探索实时建图方法,具体涉及一种基于语义信息引导扩散模型的自主导航建图系统及方法。


背景技术:

1、随着智能机器人技术的不断发展,机器人在各个领域的应用日益广泛,包括物流、导航服务以及高风险作业等,这一转变极大地改变了人类的生产和生活方式,使得自动化和智能化程度得以提升。例如,智能服务机器人,较常见的是送餐机器人,其在首次启动时需要先让机器人自主导航并构建室内环境地图。在送餐过程中,机器人持续更新内部地图,实时调整路径以避开障碍物,确保高效、精准地完成送餐任务。又如,仓库管理机器人,其首次启动时同样需要先要让机器人自主导航并构建室内环境地图。在随后的物品存取过程中,还需要通过传感器(如lidar、摄像头和imu)构建和更新仓库地图,机器人可以优化路径,减少空跑时间,提高物品存取的效率。

2、同步定位与建图(simultaneous localization and mapping,slam)技术作为机器人技术的核心部分,成为机器人在未知环境中实现自主定位和环境建模的关键。主动slam的引入将传统slam技术提升到新的高度,通过自主探索策略,使机器人具备更强的感知和决策能力,可以在未知环境中自主进行定位和地图构建。

3、主动slam中的探索策略的主要目标是让机器人在未知环境中,以固定的时间和资源构建出完整的环境地图。然而,由于环境的复杂性和多样性,现有的探索策略在以下几个方面存在不足:

4、(1)探索效率低下

5、现有的探索策略主要基于机器人当前的观测来预测未知区域,这在复杂的环境中往往导致预测不准确。由于对占用和自由区域的空间关系缺乏有效的建模,对空间结构的不确定预测使得机器人在导航和探索过程中可能会遇到不稳定性,甚至可能导致探索失败。这种低效率不仅影响机器人的任务进度,还可能导致资源的浪费;

6、此外,现有方法贪婪地选择预测模型的不确定性信息的区域来引导机器人探索,其预测模型采用现有的unet网络,难以适应环境的动态变化。

7、(2)泛化能力不足

8、探索策略的泛化性是指策略在不同环境中保持有效的探索能力。现有策略在特定环境中经过训练后,往往难以适应具有不同结构和布局的新环境。此外,传统策略缺乏对环境上下文信息的有效利用,导致在结构多样的新环境中难以实现有效探索。

9、这些问题限制了主动slam的探索效率和机器人适应不同环境的能力。


技术实现思路

1、本发明的目的是提供一种基于语义信息引导扩散模型的自主导航建图系统及方法,以解决上述问题,本发明的方法根据预测出的语义信息在有限的时间内最大化机器人的探索效率,同时使机器人具备适应不同环境实时的自主建图的能力,提供了更具适应性和泛化能力的主动slam探索策略。

2、为了达到上述目的,本发明提供了一种基于语义信息引导扩散模型的自主导航建图方法,该方法包含:基于指导机器人探索的目标点机器人规划器和局部策略将根据目标点生成具体的执行动作,并更新地图信息mt+1,根据机器人的观测信息获取下一时刻观测ot+1,该方法还包含:

3、(s100)基于语义先验的预测模块将建图模块所得到的度量地图mt作为输入,通过捕捉度量地图mt中不同类别物体的结构特征,进行空间布局预测,所述类别总数为c,预测得到新的度量地图mt′,将新的度量地图mt′进行地图裁剪和下采样处理获得当前地图信息mt,该当前地图信息mt用于后续的探索决策过程;

4、(s200)当前地图信息mt、当前机器人的位姿和上一时刻的长期目标点at-1构成机器人观测数据ot,基于扩散模型的全局策略模块根据观测数据ot,从一个噪声样本xt~n(0,i)通过去除噪声,经过i步的去噪得到一个指导机器人探索的目标点该目标点是机器人在t时刻执行的动作值,即t时刻的最优决策,由机器人当前时刻的观测数据ot、需要探索的目标点即时奖励rt、下一时刻观测数据ot+1共同构成一个机器人探索的经验当机器人探索经验池中经验数量到达w时,开始使用所述经验对所述全局策略模块中的网络参数更新,直至策略收敛,当策略收敛时获得一个策略π*,根据该策略所述全局策略模块在机器人当前观测数据的引导下首先基于高斯过程产生一个初始的目标点,然后经过i步去噪,得到下一步需要探索的目标点,不断驱动机器人在未知的环境中进行探索并完成地图构建。

5、在步骤(s100)中,所述预测模块采用语义分割网络unet网络,将任务中的类内上下文和类间上下文建模为一种先验信息,并由真实标签监督获得的类别注意力图显式地反映出环境中各个位置所属类别的分布情况,类别注意力图对unet网络的编码器编码得到的底层特征进行类内特征精细化操作,对这些经过精细化的特征执行了类内和类间相似度优化,增强不同类别之间的差异性。

6、所述预测模块的总损失函数,为:

7、l=λalmain+λblattention+λclinter+λdlintra  (4)

8、式(4)中,lattention、linter、lintra分别代表类别注意力图损失函数、类间区分度损失函数、类内一致性损失函数;lmain用于评估模型输出与真实标签之间的一致性;每个λ系数代表一个权重因子。

9、

10、式(5)中,c表示类别的总数;表示预测值中第k个像素点属于类别c的概率;mk,c表示真实值中第k个像素点属于类别c的概率;∈表示一个很小的数,可设置为0.000001~0.00001,防止分母为0。

11、在步骤(s200)中,将机器人在室内未知环境下的主动探索过程定义为一个由元组(s,ω,a,r)组成的部分可观测的马尔科夫决策过程,s表示状态空间;ω表示观测空间,即机器人做决策时所能感知到的信息;a表示动作空间;r表示奖励函数;对状态空间、观测空间、动作空间和奖励函数进行分析,并将去噪扩散概率模型集成到基于软行动者-评论家的主动探索策略框架中,设计diffsac算法,在diffsac算法中用编码器将ot映射为一个低维的特征向量f(ot),f(ot)能有效编码了当前机器人的观测信息,将编码f(ot)作为扩散模型的条件输入,采用扩散模型的逆向过程,从高斯噪声状态出发将机器人的观测作为扩散模型中每一步去噪条件,用于逐步精细化生成探索动作。

12、在步骤(s200)中,所述diffsac算法的架构包含:一个动作生成网络agn、一个目标动作生成网络tagn、两个动作评价网络scn1和scn2,以及两个目标动作评价网络tscn1和tscn2。

13、所述diffsac算法的agn网络则通过学习最大化动作的q值得期望来改进策略,表示为:

14、

15、式(4-8)中,πθ(f(ot))表示agn网络的策略,代表在观测数据ot下去噪i步后的动作分布。通过最大化式(4-8)鼓励当前策略πθ向着q值较高的动作梯度方向进行更新。

16、在agn网络中引入了动作熵正则化项,所述agn网络的目标表示为:

17、

18、式(4-9)中,h(πθ(f(ot)))表示动作熵正则化项;α表示温度系数,用于控制熵的强度。

19、所述agn网络参数θ的梯度表示为:

20、

21、式(4-9)中,be是第e次训练时采样得到的一个mini-batch轨迹数据;θe和φe分别代表第e次训练时使用的agn网络参数和scn网络参数。

22、然后,agn网络通过执行梯度下降进行更新,表示为:

23、

24、式(4-11)中,ηa是agn网络的学习率。

25、通过公式(4-11)对agn网络的参数θ不断更新,使得diffsac算法能够学到最大化公式(4-9)的最优策略参数。

26、通过最小化tscn网络输出值与scn网络输出值之间的时间差分误差来对scn网络进行改进,以使scn网络能对agn网络产生的动作进行有效评估,表示为:

27、

28、式(4-13)中,表示输出对应动作at的q估计值;γ代表折扣因子,取值范围为[0,1];dt+1代表下一时刻是否终止。

29、优选地,所述w的取值为[3000,10000]的自然数。

30、优选地,所述预测模块包含:类别注意力模块;所述类别注意力模块,使用真实标签通过下采样生成一个简化的类别语义图,该类别语义图通过独热编码处理后,形成了一个维度为的矩阵其中c代表类别总数,在中每一个通道独立表示一个类别的空间分布情况,从而为模型提供了明确的类别空间信息;在的监督下获得一个类别注意力图,通过监督学习所获得的类别注意力图能够显式地反映出环境中各个位置所属类别的分布情况,为模型提供了一种有效的方式来理解和识别室内布局中类别的空间分布和关系。

31、优选地,所述类别注意力图损失函数采用均方误差损失函数(mse)来进行优化,以确保类别注意力图准确地反映每个像素所属的类别分布;所述类别注意力图损失函数为:

32、

33、式(6)中,c为类别总数,n为每个通道的像素点总数,为经过独热编码后的类别语义图中第i个像素点在第c个通道的值,ai,c为输入地图mt经过类别注意力模块后得到的类别注意力图中相应位置的值。

34、通过最小化mse损失,自由和占用类别注意力图能够显式地反映出环境中各个位置所属类别的分布情况,增强模型对不同类别之间空间关系的捕捉能力。

35、优选地,所述预测模块包含:特征精细化模块;所述特征精细化模块,对从unet编码器输出的特征图其中cl代表特征图的通道数,和分别代表特征图的高和宽,将特征图中的每个像素点视为一个维度为1×cl的向量,整个特征图包含个这样的向量;然后,根据所述类别注意力图,获知每个类别的对应的掩码通过应用掩码信息,采用平均池化操作提取每个类别区域内的平均特征向量vk作为该类别的代表性特征原型;最后,利用掩码信息将每个类别的原型向量按其空间位置重新分配到特征图中,确保了类别原型向量与原始特征空间的准确对应;将这些精细化的特征向量与原始特征图进行融合,生成精细化后的特征图s′。

36、

37、式(7)中,si代表特征图中的特征向量,qi为掩码mk中的权重值,而i表示特定位置的索引。

38、优选地,所述类内和类间相似度优化,包含:考虑了基于批量维度的类内和类间相似度优化方法,定义了类内一致性损失函数lintra和类间区分度损失函数linter分别用于确保批量中不同样本的相同类别原型向量之间相似和不同类别原型向量之间不同;所述类内一致性损失函数为:

39、

40、式(8)中,n是批量中的样本数量,c是类别的总数,和分别是批量中第i个和第j个样本中类别c的原型向量,·表示向量点乘,|·|表示向量的范数,即向量的长度。

41、所述类间区分度损失函数为:

42、

43、式(9)中,和是批量内类别c1和c2的平均原型向量,c是类别的总数。

44、优选地,所述即时奖励rt采用如下式(3-9)的奖励函数计算,为:

45、rt=waat+wsst+wuut  (3-9)

46、式(3-9)中,at是覆盖面积奖励,代表t时刻机器人因探索而增加的地图区域面积;st是探索率奖励,代表机器人达到某个探索率时给予的奖励;ut是不确定性信息奖励,代表t时刻机器人因探索而减少的地图不确定性信息量;wa、ws、wu分别是权重系数。

47、所述覆盖面积奖励at,为:

48、at=area(mt+1)-area(mt)  (3-10)

49、式(3)中,area(mt)表示在时刻,地图mt中已探索区域的面积,即探索通道中值为1的格点数目;area(mt+1)表示在时刻t+1地图mt中已探索区域的面积。

50、为了鼓励机器人尽可能实现更高的地图探索率,探索率奖励st设计如下:

51、

52、式(3-11)中,ep是机器人在t时刻的探索率。

53、为了鼓励机器人探索环境中不确定性高的区域,不确定性信息奖励ut设计如下:

54、ut=uncertainty(mt+1)-uncertainty(mt)  (3-12)

55、式(3-12)中,uncertainty(mt)=∑var f(mt′;θ)表示在时刻t地图m′t中不确定性信息的量度。

56、通过所述的奖励函数,以鼓励机器人在未知环境中高效地进行探索,以构建准确和全面的地图。

57、优选地,在步骤(s200)中,所述观测空间ω,将机器人感知到的地图信息采用8通道来表示,分别是障碍物通道、探索区域通道、历史轨迹通道、不确定性信息通道;其中障碍物和探索区域通道采用独热编码来表示;为了强调轨迹的方向性,轨迹通道采用指数衰减权重来表示;不确定性信息通道则是通过计算预测模型集合的输出方差来估计环境的认知不确定性;其中,所述观测空间ω由当前机器人的观测数据ot构成。

58、在步骤(s200)中,为了增强机器人对当前场景结构的空间尺寸感知,采取了地图裁剪和下采样的方法,该方法包含:考虑到机器人当前的位置和朝向,对采用预测模块获得的新的度量地图m′t进行裁剪,以获得一个4通道的大小为g×g以机器人为中心的局部地图;接着,通过最大池化操作对度量地图m′t进行下采样以匹配局部地图的大小;最后,将下采样后的地图与原始裁剪地图叠加,生成当前时刻机器人的地图观察mt。

59、优选地,在步骤(s200)中,所述diffsac算法的步骤包含:

60、(s1)在diffsac算法开始时初始化agn网络参数θ、scn网络参数φ,并将参数θ和φ分别赋值给目标网络同时初始化隐藏状态、机器人探索经验池、机器人当前位姿、地图信息、上一时刻的长期目标点;

61、(s2)在每个回合开始时,从室内仿真环境集中抽取一张地图,并且随机初始化机器人当前的位姿、地图信息、上一时刻的长期目标点和隐藏状态,每个回合执行n步,首先根据机器人当前的位姿和地图信息mt以及上一时刻的长期目标点at-1构成机器人观测数据ot,用编码器将ot映射为一个低维的特征向量f(ot),并且从标准正态分布中随机抽取噪声样本;

62、(s3)将噪声样本、去噪步数i以及经过编码后的机器人观测f(ot)输入到agn网络中,通过i步去噪获得动作

63、(s4)根据该目标点进行探索,使用现有成熟的自主导航算法,根据该目标点生成具体的执行动作,并更新地图信息mt+1,根据机器人的信息获取下一时刻观测数据ot+1,计算即时奖励rt,由当前时刻的观测数据ot、需要探索的目标点即时奖励rt、下一时刻观测数据ot+1共同构成一个探索的经验

64、(s5)当机器人探索经验池中经验数量到达w时,开始使用经验进行agn和scn网络参数更新;从机器人探索经验池中随机抽取一批次数据并使用式(4-11)对agn网络的参数θ进行更新,然后使用b通过梯度下降更新scn网络参数φ,以最小化公式(4-12),最后使用软更新的方式来更新目标网络tagn和tscn的参数和通过不断地更新迭代,直至策略收敛,最终得到策略π*。

65、其中,在diffsac算法中为了减少训练过程中的方差,对agn网络和scn网络采用了具有相同的网络结构的目标网络tagn和tscn。

66、本发明的另一目的是提供一种基于语义信息引导扩散模型的自主导航建图系统,该系统采用所述的方法进行自主导航建图。

67、本发明的另一目的是提供一种基于语义信息引导扩散模型的自主导航建图的机器人,该机器人具有所述的自主导航建图系统。

68、本发明的基于语义信息引导扩散模型的自主导航建图系统及方法,具有以下优点:

69、(1)本发明的自主导航建图方法,基于语义先验的预测模块中类别注意力图由真实标签监督获得并且能够显式地反映出环境中各个位置所属类别的分布情况,为模型提供了一种有效的方式来理解和识别室内布局中各类别的空间分布和关系,将类别注意力图对unet网络的编码器编码得到的底层特征进行类内特征精细化操作,该操作通过强化相同类别内的共性特征并平滑其间的差异性,提高了特征的一致性和模型的预测精度,对这些经过精细化的特征执行了相似度优化,增强了不同类别之间的差异性;

70、(2)本发明的自主导航建图方法,基于扩散模型的全局策略模块则在预测模块所得到的度量地图以及度量地图中的语义信息,及机器人位姿的引导下,借助扩散模型对各种分布强大的拟合能力以及sac算法的高效和稳定的策略学习能力,从一个高斯噪声状态出发逐步精细化生成机器人下一个需要探索的全局目标点,该方法给环境中布局分布差异导致的探索策略泛化问题提供解决方案,即是在布局与训练集不同的环境中实现有效探索。本发明的方法可以在有限时间内最大化机器人探索效率,同时使机器人具备适应不同环境实时的自主建图的能力。


技术特征:

1.一种基于语义信息引导扩散模型的自主导航建图方法,该方法通过全局策略生成的机器人探索的目标点机器人规划器和局部策略将根据目标点生成具体的执行动作,并通过建图模块更新地图信息mt+1,其特征在于,该方法还包含:

2.根据权利要求1所述的方法,其特征在于,所述预测模块包含:类别注意力模块;

3.根据权利要求2所述的方法,其特征在于,所述类别注意力图损失函数采用均方误差损失函数来进行优化,以确保类别注意力图准确地反映每个像素所属的类别分布;

4.根据权利要求1所述的方法,其特征在于,所述预测模块包含:特征精细化模块;

5.根据权利要求1所述的方法,其特征在于,所述类内和类间相似度优化,包含:

6.根据权利要求1所述的方法,其特征在于,所述即时奖励rt采用如下式(3-9)的奖励函数计算,为:

7.根据权利要求1所述的方法,其特征在于,在步骤(s200)中,所述观测空间ω,将机器人感知到的地图信息采用8通道来表示,分别是障碍物通道、探索区域通道、历史轨迹通道、不确定性信息通道;其中障碍物和探索区域通道采用独热编码来表示;为了强调轨迹的方向性,轨迹通道采用指数衰减权重来表示;不确定性信息通道则是通过计算预测模型集合的输出方差来估计环境的认知不确定性;

8.根据权利要求1所述的方法,其特征在于,在步骤(s200)中,所述diffsac算法的步骤包含:

9.一种基于语义信息引导扩散模型的自主导航建图系统,其特征在于,该系统采用如权利要求1~8中任意一项所述的方法进行自主导航建图。

10.一种基于语义信息引导扩散模型的自主导航建图的机器人,其特征在于,该机器人具有如权利要求9所述的自主导航建图系统。


技术总结
本发明公开了一种基于语义信息引导扩散模型的自主导航建图系统及方法,方法包括:基于语义先验的预测模块将度量地图作为输入,通过对空间布局的预测得到新的度量地图,该度量地图作为机器人观测的一部分;基于扩散模型的全局策略模块根据机器人实时观测生成长期目标点,引导机器人对未知环境进行探索,利用机器人前往目标点收集的观测数据训练全局策略网络并更新其网络参数,直至策略收敛;收敛后的策略在机器人观测的引导下,首先基于高斯过程产生一个初始目标点坐标,然后通过不断去除噪声生成当前的探索目标点。本发明的方法能够提高机器人探索效率,同时使机器人具备适应不同环境实时自主建图的能力,提供具有高效且泛化能力的主动探索策略。

技术研发人员:徐超,黄自桢,胡瑾,王天本,张凡,曾繁江
受保护的技术使用者:西北农林科技大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-23854.html

最新回复(0)