基于值分布强化学习的自动驾驶汽车决策规划方法

allin2024-08-02 83

1.本发明属于自动驾驶汽车领域，涉及一种基于值分布强化学习的自动驾驶汽车决策规划方法。

背景技术：

2.自动驾驶技术近年来取得飞速发展，但是安全性已成为自动驾驶技术所面临的一个关键问题。安全性是阻碍自动驾驶汽车商业化的一个重要因素，也是近年来的一个研究热点。而自动驾驶决策规划模块，作为自动驾驶汽车的“大脑”，对自动驾驶汽车安全性有相当重要的影响，尤其是在十字路口等复杂城市场景下，如何进行自主安全的决策，近年来被广泛研究。
3.自动驾驶汽车决策规划模块，主要是根据当前环境状态，决策生成最优的驾驶行为，从而安全的完成驾驶任务，现有的决策规划方法，主要分为基于规则、基于优化以及基于学习的三类。其中，基于规则的方法，只适用于特定的场景；基于优化的方法，在实时性方面的表现较差。因此，基于学习的方法近年来被学术界和工业界广泛研究，其中强化学习已被广泛用于自动驾驶汽车的决策规划问题，得益于强化学习的实时性与场景适应性，基于强化学习的决策规划方法能很好的完成驾驶任务。但是，由于自动驾驶汽车所面临的驾驶环境日益复杂，恶劣天气、建筑物遮挡等造成的不完全感知，以及周围交通参与者的行为不确定性，给自动驾驶汽车的安全性带来了巨大挑战，传统的强化学习算法已经无法满足自动驾驶汽车对安全性的需求。
4.由于传统的强化学习以最大化回报的期望值来选择最优动作，回报的分布信息很大程度上被丢失，因此无法考虑由于环境中内在的不确定性对决策策略的影响。因此，亟需提出一种新的强化学习算法来处理环境中存在的不确定性，以提升自动驾驶汽车决策规划的安全性。

技术实现要素：

5.有鉴于此，本发明的目的在于提供一种基于值分布强化学习的自动驾驶汽车决策规划方法，能提高自动驾驶汽车在具有不确定性的环境下决策规划策略的安全性与稳定性。
6.为达到上述目的，本发明提供如下技术方案：
7.一种基于值分布强化学习的自动驾驶汽车决策规划方法，具体包括以下步骤：
8.s1：构建考虑不确定性的无信号灯十字路口场景；
9.s2：构建全参数化分位数函数(fqf)网络模型，作为自动驾驶汽车控制模型；
10.s3：基于全参数化分位数函数(fqf)模型中学习的状态-动作回报分布信息，引入条件风险价值(cvar)，生成具有风险意识的驾驶行为。
11.进一步，步骤s1中，构建考虑不确定性的无信号灯十字路口场景，具体包括：建立遮挡模型，确定周围车辆模型，建立周围车辆类型分布。
12.进一步，步骤s1中，建立遮挡模型，具体包括：考虑十字路口两侧的遮挡，通过分析周围车辆与自车以及十字路口中心的相对位置关系，根据几何关系，计算出周围车辆能被自车观测到的临界距离d，以此作为判断周围车辆是否被遮挡的临界条件：
[0013][0014]
其中，l为每条车道宽度，d
′
为自车车头到十字路口中心点的距离，为道路边界到遮挡物的距离，d为周围车辆车头至十字路口中心点的距离。
[0015]
进一步，步骤s1中，确定周围车辆模型，具体包括：为使周围车辆能对环境的主动变化做出反应，规定仿真环境中，周围车辆的行为由智能驾驶员模型控制(intelligent driver model)：
[0016][0017][0018]
其中，a为加速度，a
max
为最大加速度，v为车辆纵向速度，v
target
为车辆纵向期望速度，m为加速度参数，d
target
为车辆纵向期望距离，d0为车辆纵向最小距离，t0为车辆最小碰撞时间，δv为与前车的相对速度。
[0019]
进一步，步骤s1中，建立周围车辆类型分布，具体包括：规定仿真环境中，周围车辆包括激进(aggressive)、保守(conservative)、正常(normal)三种类型，每种类型的车辆在每一个时间步，分别以一定的概率添加到环境中，周围车辆类型空间为：
[0020][0021]
进一步，步骤s2中，构建全参数化分位数函数模型，具体包括以下步骤：
[0022]
s21：构建分位数提议网络(fraction proposal network)：以状态信息作为网络输入，输出每个状态-动作对应的最优分位点τ；
[0023]
s22：构建分位数值网络(quantile value network)：将由分位数提议网络得到的最优分位点作为分位数值网络的输入，映射得到对应当前状态下，各个分位点对应的分位函数值；
[0024]
s23：构建状态空间s：以周围车辆的位置、速度、航向角以及自车的位置、速度及航向角作为自车可观测的状态信息，值分布强化学习基于自车观测信息进行下一步的决策规划；
[0025]
s24：构建动作空间a：动作空间定义为自车可执行动作的集合，为值分布强化学习网络的输出值，此处自车的动作空间包括加速、巡航和减速三个离散动作值；其中加速和减速两个动作的具体加速度由智能驾驶员模型(intelligent driver model)计算得到；
[0026]
s25：设计奖励函数，总奖励等于碰撞奖励r
collision
、完成任务的奖励r
success
以及超时奖励r
timeout
三部分之和；
[0027]
s26：根据当前状态s
t
，执行动作a
t
，将自车执行动作后所得到的训练数据(s
t
,a
t
,r
t
,s
t+1
)添加至经验池；
[0028]
s27：拟合回报分布；
[0029]
s28：更新分位数提议网络：通过最小化1-wasserstein距离，更新分位数提议网络，以确定最优的分位点τ，使其拟合的得到的分布更接近真实分布；
[0030]
s29：更新分位数值网络：分位数值网络的更新目标是，最小化分位数回归huber-loss,使分位数值网络的输出尽可能逼近目标值，以梯度下降法更新分位数值网络。
[0031]
进一步，步骤s27具体包括：通过n个混合dirac函数的加权值，拟合回报的分布：
[0032][0033]
其中，n为分位点数目，τi为分位数提议网络生成的分位点，满足τ
i-1
《τi，且τ0＝0，τn＝1，δ
θi(s,a)
为当前状态(s,a)下参数θi的dirac函数。
[0034]
进一步，步骤s28具体包括以下步骤：
[0035]
s281：1-wasserstein距离公式为：
[0036][0037]
其中，n为分位点数目，ω为神经网络参数，为分位点对应的分位数函数值，
[0038]
s282：由于真实的分位数函数实际上是无法得到的，因此利用带有分位数网络参数ω2的分位数值函数作为当前状态下真实的分位数值函数；
[0039]
s283：为了避免直接计算1-wasserstein距离，通过对分位数提议网络的参数ω1利用梯度下降以最小化1-wasserstein距离：
[0040][0041]
s284：全参数化分位数函数的回报期望为：
[0042]
进一步，步骤s29具体包括以下步骤：
[0043]
s291：求解时间差分方程：
[0044][0045]
其中，δ
ij
为td-error，r
t
为当前时刻的回报，γ为衰减因子，z为当前时刻的回报分布，z
′
为下一时刻的回报分布；
[0046]
s292：计算分位数回归huber-loss：
[0047][0048][0049]
其中，为分位数回归huber-loss，为huber-loss函数，κ为阈值；
[0050]
s293：利用随机梯度下降，更新分位数值网络：
[0051][0052]
其中，为t时刻的td-error。
[0053]
进一步，步骤s3具体包括以下步骤：
[0054]
s31：基于步骤s2全参数化分位数函数(fqf)模型中所得到的回报分布信息，计算各个分布对应的条件风险价值(cvar)为：
[0055][0056]
其中，风险价值(var)：z为回报的分布，α为累积概率，r为回报，是一个随机变量；
[0057]
s32：选择最优动作，以最大化cvar值为目标，选择最优的具有风险敏感性的行为：
[0058][0059]
其中，为当前状态s
t
下所选择的最优动作，z为回报的分布，α为累积概率。
[0060]
本发明的有益效果在于：
[0061]
1)本发明设计了一种无信号灯十字路口的仿真训练环境，同时考虑了由于环境中的遮挡导致的不完全感知和周围交通参与者的行为不确定性，使该场景更符合真实驾驶场景。
[0062]
2)本发明设计了一种基于值分布强化学习的决策规划方法，采用全参数化分位数函数(fqf)更加准确的拟合值分布，为后续具有风险意识的决策行为生成，提供更准确的分布信息。
[0063]
3)本发明设计了一种基于条件风险价值(cvar)的行为生成方法，基于所得到的回报分布信息，考虑环境中存在的不确定性，生成具有风险意识的驾驶行为。
[0064]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0065]
为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：
[0066]
图1为本发明基于值分布强化学习的自动驾驶汽车决策规划方法的整体逻辑框架图；
[0067]
图2为构建仿真训练环境的逻辑框架图；
[0068]
图3为全参数化分位数函数(fqf)网络结构图。
具体实施方式
[0069]
以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书
所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
[0070]
请参阅图1～图3，本发明提供了一种基于值分布强化学习的自动驾驶汽车决策规划方法。考虑到真实驾驶环境中存在的不确定性，建立了同时考虑遮挡以及不同驾驶员类型的无信号灯十字路口仿真训练环境。同时，考虑到自动驾驶汽车决策规划对于安全性的需求，提出了一种基于值分布强化学习的方法，通过全参数化分位数函数(fqf)拟合回报的真实分布，进而将条件风险值(cvar)引入所得到的分布信息，生成具有风险意识的驾驶行为，提升自动驾驶汽车对环境中不确定性的处理能力。该方法具体包括以下步骤：
[0071]
步骤s1：构建无信号灯的十字路口仿真训练场景，如图2所示，具体包括以下步骤：
[0072]
s11：建立遮挡模型：考虑十字路口两侧的遮挡，通过分析周围车辆与自车以及十字路口中心的相对位置关系，根据几何关系，计算出周围车辆可被自车观测到的临界距离d，以此作为判断周围车辆是否被遮挡的临界条件：
[0073][0074]
其中，l为每条车道宽度，d
′
为自车车头到十字路口中心点的距离，为道路边界到遮挡物的距离，d为周围车辆车头至十字路口中心点的距离。
[0075]
s12：确定周围车辆模型：为使周围车辆能对环境的变化做出相应的反应，规定仿真环境中，周围车辆的行为由智能驾驶员模型控制(intelligent driver model)：
[0076][0077][0078]
其中，a为加速度，a
max
为最大加速度，v为车辆纵向速度，v
target
为车辆纵向期望速度，m为加速度参数,d
target
为车辆纵向期望距离，d0为车辆纵向最小距离，t0为车辆最小碰撞时间，δv为与前车的相对速度。
[0079]
s13：建立周围车辆类型分布：为使自车能够根据不同驾驶员类型做出不同决策，规定仿真环境中，周围车辆包括激进(aggressive)、保守(conservative)、正常(normal)三种类型，每种类型的车辆在每一个时间步，分别以概率：p
aggressive
＝0.2,p
conservative
＝0.3,p
normal
＝0.5添加到环境中，周围车辆类型空间为：
[0080][0081]
s14：初始化环境：随机初始化周围车辆的初始速度、位置与目标速度。
[0082]
s2：构建全参数化分位数函数(fqf)模型，作为自动驾驶汽车控制模型，如图3所示，具体包括以下步骤：
[0083]
s21：构建分位数提议网络(fraction proposal network)：以状态信息作为网络输入，输出每个状态-动作对应的最优分位点τ。
[0084]
s22：构建分位数值网络(quantile value network)：将由分位数提议网络得到的最优分位点作为分位数值网络的输入，映射得到对应当前状态下，各个分位点对应的分位函数值。
[0085]
s23：构建状态空间s：以周围车辆的位置、速度、航向角以及自车的位置、速度及航向角为自车可观测的状态信息，值分布强化学习基于自车观测信息进行下一步的决策规划。
[0086][0087]
其中，i＝0代表自车，i∈[1,n]代表周围车辆，xi,yi代表车辆的横向和纵向位置，v
xi
,v
yi
代表车辆的横向和纵向速度，代表车辆的航向角。
[0088]
s24：构建动作空间a：动作空间定义为自车可执行动作的集合，为值分布强化学习网络的输出值，此处自车的动作空间包括加速、巡航、减速，其中加速和减速两个动作的具体加速度由智能驾驶员模型(intelligent driver model)计算得到：
[0089][0090][0091]
其中，a为加速度，a
max
为最大加速度，v为车辆纵向速度，v
target
为车辆纵向期望速度，m为加速度参数，d
target
为车辆纵向期望距离，d0为车辆纵向最小距离，t0为车辆最小碰撞时间，δv为与前车的相对速度，加速度范围为：a∈[-3，1]m2/s。
[0092]
s25：设计奖励函数：奖励函数主要考虑安全r
collision
，成功率r
success
以及效率r
timeout
三部分之和，即：
[0093]
r＝r
collision
+r
success
+r
timeout
[0094]
第一项r
collision
为碰撞奖励，要求自车不能与周围环境车辆发生碰撞；
[0095]rcollision
＝-10
[0096]
第二项r
success
为完成任务的奖励，要求自车能够无碰撞的到达目标地点；
[0097]rsuccess
＝10
[0098]
第三项r
timeout
为超时奖励，要求自车不能超过规定的回合最大步数。
[0099]rtimeout
＝-10
[0100]
s26：根据当前状态s
t
，执行动作a
t
，将自车执行动作后所得到的训练数据(s
t
，a
t
，r
t
，s
t+1
)添加至经验池。
[0101]
s27：拟合回报分布：通过n个混合dirac函数的加权，拟合回报的分布：
[0102][0103]
其中，n为分位点数目，τi为分位数提议网络生成的分位点，满足τ
i-1
＜τi，且τ0＝0，τn＝1以及＝1以及为当前状态(s，a)下参数θi的dirac函数。
[0104]
s28：更新分位数提议网络：通过最小化1-wasserstein距离，更新分位数提议网络，以确定最优的分位点τ，使其拟合得到的分布更接近真实分布。具体操作如下：
[0105]
s281：1-wasserstein距离公式为：
[0106][0107]
其中，n为分位点数目，ω为神经网络参数，为分位点对应的分位函数值，
[0108]
s282：由于真实的分位数函数实际上是无法得到的，因此利用带有分位数网络参数ω2的分位数值函数作为当前状态下真实的分位数值函数。
[0109]
s283：为了避免直接计算1-wasserstein距离，通过对分位数提议网络的参数ω1利用梯度下降以最小化1-wasserstein距离：
[0110][0111]
其中，为分位点τi对应的分位函数值，ω2为分位数值网络参数。
[0112]
s284：全参数化分位数函数的回报期望为：
[0113][0114]
其中，n为分位点数目，为分位点τi对应的分位函数值，ω2为分位数值网络参数。
[0115]
s29：更新分位数值网络：分位数值网络的更新目标是，最小化分位数回归huber-loss，使分位数值网络的输出尽可能逼近目标值，求得损失函数后，以梯度下降法更新分位数值网络，具体操作如下：
[0116]
s291：求解时间差分方程：
[0117][0118]
其中，r
t
为当前时刻的回报，γ为衰减因子，ω1为神经网络网络参数，为分位点τi对应的分位函数值，z为当前时刻的回报分布，z
′
为下一时刻的回报分布。
[0119]
s292：计算分位数回归huber-loss：
[0120][0121]
其中，huber-loss：δ
ij
为td-error，κ为阈值。
[0122]
s293：利用随机梯度下降，更新分位数值网络：
[0123][0124]
其中，n为分位点数目，为分位数回归huber-loss，为t时刻的td-error，κ为
阈值，τi为分位点，
[0125]
s3：基于步骤s2中所得到的回报分布，引入条件风险值(cvar)，生成具有风险意识的驾驶行为，具体包括以下步骤：
[0126]
s31：基于步骤s2所得到的回报分布信息，计算各个分布对应的条件风险价值(cvar)：
[0127][0128]
其中，风险价值(var)：z为回报的分布，α为累积概率，r为回报，是一个随机变量。
[0129]
s32：选择最优动作：以最大化cvar值为目标，选择最优的具有风险敏感性的行为：
[0130][0131]
其中，为当前状态s
t
下所选择的最优动作，z为回报的分布，α为累积概率。
[0132]
最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

技术特征：
1.一种基于值分布强化学习的自动驾驶汽车决策规划方法，其特征在于，该方法具体包括以下步骤：s1：构建考虑不确定性的无信号灯十字路口场景；s2：构建全参数化分位数函数模型，作为自动驾驶汽车控制模型；s3：基于全参数化分位数函数模型中学习到的状态-动作回报分布信息，引入条件风险价值，生成具有风险意识的驾驶行为。2.根据权利要求1所述的自动驾驶汽车决策规划方法，其特征在于，步骤s1中，构建考虑不确定性的无信号灯十字路口场景，具体包括：建立遮挡模型，确定周围车辆模型，建立周围车辆类型分布。3.根据权利要求2所述的自动驾驶汽车决策规划方法，其特征在于，步骤s1中，建立遮挡模型，具体包括：考虑十字路口两侧的遮挡，通过分析周围车辆与自车以及十字路口中心的相对位置关系，根据几何关系，计算出周围车辆能被自车观测到的临界距离d，以此作为判断周围车辆是否被遮挡的临界条件：其中，l为每条车道宽度，d
′
为自车车头到十字路口中心点的距离，为道路边界到遮挡物的距离，d为周围车辆车头至十字路口中心点的距离。4.根据权利要求2所述的自动驾驶汽车决策规划方法，其特征在于，步骤s1中，确定周围车辆模型，具体包括：周围车辆的行为由智能驾驶员模型控制：围车辆模型，具体包括：周围车辆的行为由智能驾驶员模型控制：其中，a为加速度，a
max
为最大加速度，v为车辆纵向速度，v
target
为车辆纵向期望速度，m为加速度参数，d
target
为车辆纵向期望距离，d0为车辆纵向最小距离，t0为车辆最小碰撞时间，δv为与前车的相对速度。5.根据权利要求1所述的自动驾驶汽车决策规划方法，其特征在于，步骤s2中，构建全参数化分位数函数模型，具体包括以下步骤：s21：构建分位数提议网络：以状态信息作为网络输入，输出每个状态-动作对应的最优分位点τ；s22：构建分位数值网络：将由分位数提议网络得到的最优分位点作为分位数值网络的输入，映射得到对应当前状态下，各个分位点对应的分位函数值；s23：构建状态空间s：以周围车辆的位置、速度、航向角以及自车的位置、速度及航向角作为自车可观测的状态信息，值分布强化学习基于自车观测信息进行下一步的决策规划；s24：构建动作空间a：动作空间定义为自车可执行动作的集合，为值分布强化学习网络的输出值，此处自车的动作空间包括加速、巡航和减速三个离散动作值；其中加速和减速两个动作的具体加速度由智能驾驶员模型计算得到；s25：设计奖励函数，总奖励等于碰撞奖励r
collision
、完成任务的奖励r
success
以及超时奖
励r
timeout
三部分之和；s26：根据当前状态s
t
，执行动作a
t
，将自车执行动作后所得到的训练数据(s
t
,a
t
,r
t
,s
t+1
)添加至经验池；s27：拟合回报分布；s28：更新分位数提议网络：通过最小化1-wasserstein距离，更新分位数提议网络，以确定最优的分位点τ，使其拟合的得到的分布更接近真实分布；s29：更新分位数值网络：分位数值网络的更新目标是，最小化分位数回归huber-loss,使分位数值网络的输出尽可能逼近目标值，并以梯度下降法更新分位数值网络。6.根据权利要求5所述的自动驾驶汽车决策规划方法，其特征在于，步骤s27具体包括：通过n个混合dirac函数的加权值，拟合回报的分布：其中，n为分位点数目，τ
i
为分位数提议网络生成的分位点，满足τ
i-1
<τ
i
，且τ0＝0，τ
n
＝1，为当前状态(s,a)下参数θ
i
的dirac函数。7.根据权利要求6所述的自动驾驶汽车决策规划方法，其特征在于，步骤s28具体包括以下步骤：s281：1-wasserstein距离公式为：其中，n为分位点数目，ω为神经网络参数，为分位点对应的分位数函数值，s282：利用带有分位数网络参数ω2的分位数值函数作为当前状态下真实的分位数值函数；s283：通过对分位数提议网络的参数ω1利用梯度下降以最小化1-wasserstein距离：s284：全参数化分位数函数的回报期望为：8.根据权利要求7所述的自动驾驶汽车决策规划方法，其特征在于，步骤s29具体包括以下步骤：s291：求解时间差分方程：其中，δ
ij
为td-error，r
t
为当前时刻的回报，γ为衰减因子，z为当前时刻的回报分布，z
′
为下一时刻的回报分布；s292：计算分位数回归huber-loss：
其中，为分位数回归huber-loss，为huber-loss函数，k为阈值；s293：利用随机梯度下降，更新分位数值网络：其中，为t时刻的td-error。9.根据权利要求1所述的自动驾驶汽车决策规划方法，其特征在于，步骤s3具体包括以下步骤：s31：基于步骤s2中全参数化分位数函数模型所得到的回报分布信息，计算各个分布对应的条件风险价值(cvar)为：其中，风险价值z为回报的分布，α为累积概率，r为回报；s32：选择最优动作，以最大化cvar值为目标，选择最优的具有风险敏感性的行为：其中，为当前状态s
t
下所选择的最优动作，z为回报的分布，α为累积概率。

技术总结
本发明涉及一种基于值分布强化学习的自动驾驶汽车决策规划方法，属于自动驾驶汽车领域。该方法包括：S1：构建考虑不确定性的无信号灯十字路口场景；S2：构建全参数化分位数函数模型，作为自动驾驶汽车控制模型；S3：基于全参数化分位数函数模型中学习的状态-动作回报分布信息，引入条件风险价值，生成具有风险意识的驾驶行为。本发明利用值分布强化学习提高了自动驾驶汽车在具有不确定性的环境下决策规划策略的安全性与稳定性。划策略的安全性与稳定性。划策略的安全性与稳定性。

技术研发人员：唐小林钟桂川杨凯陈永力邓忠伟彭颖胡晓松李佳承
受保护的技术使用者：重庆大学
技术研发日：2022.05.06
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-15913.html

专利

最新回复(0)