本发明属于电动汽车,涉及独立驱动电动汽车稳定性控制,具体涉及一种基于深度强化学习的电动汽车无模型稳定性控制方法。
背景技术:
1、现阶段,随着对环境污染和能源危机等问题关注度的提升,电动汽车已成为科研院所和高校研究的热点。其中,独立驱动电动汽车各驱动轮独立可控,具有传动链短、传动效率高、结构紧凑和控制灵活等优点,是未来汽车的发展方向。
2、稳定性控制是提升车辆行驶安全性、操纵性及乘坐舒适性的关键技术之一。因此,研究车辆稳定性控制系统对于提升车辆的性能具有重要意义。特别的,对于独立驱动电动汽车,由于其存在多变量、强耦合、非线性、过冗余及高自由度等特点,控制难度大,对独立驱动电动汽车的稳定性控制更需要进一步深入研究与探讨。
3、从稳定性控制方法技术层面考虑,现有控制多为基于模型或基于规则的方法。然而,这类方法需建立在构建准确车辆模型的基础上。简化的模型将会影响控制精度;而建立复杂的模型技术难度大,同时需占用较大的计算资源,难以满足稳定性控制系统对控制实时性的要求。同时,车辆行驶路面状况复杂多变,采用参数化的方法难以对其进行准确描述,影响控制系统的可靠性与稳定性。因此,设计一种能够适应不同路面条件且不依赖于模型的车辆稳定性控制方法一直是本领域技术人员亟待解决的技术难题。
技术实现思路
1、针对现有技术存在的不足,本发明的目的在于,提供一种基于深度强化学习的电动汽车无模型稳定性控制方法,以解决现有技术中的稳定性控制方法的道路辨识的精确度以及控制策略的工况适应性有待进一步提升的技术问题。
2、为了解决上述技术问题,本发明采用如下技术方案予以实现:
3、一种基于深度强化学习的车辆无模型稳定性控制方法,该方法包括以下步骤:
4、步骤一,建立车辆七自由度动力学模型:
5、所述的车辆七自由度动力学模型包括车辆纵向动力学方程、车辆横向动力学方程、车辆横摆动力学方程、四个车轮的转动方程、四个车轮的侧偏角方程、四个车轮的滑移率方程以及轮胎力的魔术公式。
6、步骤二,建立路面辨识模型,对采集到的路面图像进行处理,判断当前路面类型。
7、所述的路面辨识模型为卷积神经网络。
8、步骤三,根据车辆行驶状态与路面类型,建立当前车辆-路状态下的理想稳定性状态参考模型,所述的理想稳定性状态参考模型采用车辆在当前路况与行驶条件下的质心侧偏角与横摆角速度进行表征。
9、步骤四,基于马尔科夫决策过程,设计深度强化学习的环境。
10、步骤五,设计深度强化学习的状态空间和动作空间:
11、以车辆的质心侧偏角和横摆角速度为控制依据,选择车辆的状态空间s={ωr,β};将直接横摆力矩作为控制量,选择车辆的动作空间a={mz}。
12、式中:
13、β表示质心侧偏角;
14、ωr表示横摆角速度;
15、mz表示附加横摆力矩。
16、步骤六,设计深度强化学习的回报函数。
17、所述的深度强化学习的回报函数由回报函数增量和附加惩罚项两部分组成。
18、步骤七,根据路面类型,设计不同强化学习agent的actor-critic网络和策略梯度,动态调整稳定性控制策略,并采用转矩平均分配的方法将直接横摆力矩分配给驱动轮。
19、本发明还具有如下技术特征:
20、步骤三的具体过程为:
21、步骤301,将车辆等效为具有横向运动与横摆运动两个自由度的模型。
22、步骤302,根据路面附着系数、车速以及方向盘转角参数值,计算当前车辆-路状态下的车辆理想状态,得到车辆稳态响应下的状态空间方程。
23、步骤303,根据车辆稳态响应下的状态空间方程,得到车辆稳态响应下的质心侧偏角的参考值和横摆角速度的参考值。
24、步骤304,由于路面附着条件的限制,当道路附着系数为μ时,得到车辆所能达到的质心侧偏角的最大值和横摆角速度的最大值。
25、步骤305,根据步骤303得到的质心侧偏角的参考值和横摆角速度的参考值,以及步骤304得到的质心侧偏角的最大值和横摆角速度的最大值,获得车辆在当前路况与行驶条件下的质心侧偏角的期望值与横摆角速度的期望值。
26、本发明与现有技术相比,具有如下技术效果:
27、(ⅰ)不同于基于卡尔曼滤波的道路附着系数估计方法,本发明通过对路面图像信息进行实时采集和处理,无需建立状态方程和观测方程即可判断路面类型,避免了过程噪声和观测噪声对估计结果的影响,提高了道路辨识的精确度,并可根据道路条件动态调整稳定性控制策略,提高控制策略的工况适应性。
28、(ⅱ)与现有基于被控车辆对象模型的稳定性控制策略相比,深度强化学习无模型稳定性控制不受限于建模精度与车辆非线性特性,避免了极限工况下模型参数失配对控制精确度的负面影响。
29、(ⅲ)端到端的策略学习方法无需关注模型参数,通过自学习,降低了控制系统的开发难度,缩短了系统开发时间。
1.一种基于深度强化学习的车辆无模型稳定性控制方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的基于深度强化学习的车辆无模型稳定性控制方法,其特征在于,步骤三的具体过程为:
3.如权利要求2所述的基于深度强化学习的车辆无模型稳定性控制方法,其特征在于,步骤301中,所述的两个自由度的模型运动微分方程为:
4.如权利要求3所述的基于深度强化学习的车辆无模型稳定性控制方法,其特征在于,步骤302中,所述的车辆稳态响应下的状态空间方程为:
5.如权利要求4所述的基于深度强化学习的车辆无模型稳定性控制方法,其特征在于,步骤303中,所述的质心侧偏角的参考值和横摆角速度的参考值为:
6.如权利要求5所述的基于深度强化学习的车辆无模型稳定性控制方法,其特征在于,步骤304中,所述的质心侧偏角的最大值和横摆角速度的最大值为:
7.如权利要求6所述的基于深度强化学习的车辆无模型稳定性控制方法,其特征在于,步骤305中,所述的质心侧偏角的期望值与横摆角速度的期望值为: