摘要
为了提高混合动力汽车的燃油经济性和控制策略的稳定性,以第三代普锐斯混联式混合动力汽车作为研究对象,提出了一种等效燃油消耗最小策略(equivalent fuel consumption minimization strategy,ECMS)与深度强化学习方法(deep feinforcement learning,DRL)结合的分层能量管理策略。仿真结果证明,该分层控制策略不仅可以让强化学习中的智能体在无模型的情况下实现自适应节能控制,而且能保证混合动力汽车在所有工况下的SOC都满足约束限制。与基于规则的能量管理策略相比,此分层控制策略可以将燃油经济性提高20.83%~32.66%;增加智能体对车速的预测信息,可进一步降低5.12%的燃油消耗;与没有分层的深度强化学习策略相比,此策略可将燃油经济性提高8.04%;与使用SOC偏移惩罚的自适应等效燃油消耗最小策略(A-ECMS)相比,此策略下的燃油经济性将提高5.81%~16.18%。
车辆传动系统的电气化是未来可持续发展中的重要环节。但就现阶段而言,纯电动汽车的电池技术还未实现突破;混合动力汽车(hybrid electric vehicle,HEV)的节油潜力也没有得到充分发挥,设计良好的能量管理策略可以提高节油率。
混合动力汽车最优能量管理的经典数值计算方法有2种:一是基于系统模型的动态规划(dynamic programming,DP);二是庞特里亚金极值原理(Pontryagin’s minimal principle,PMP
自人工智能进入最优控制领域以来,深度强化学习(deep reinforcement learning,DRL)已经成为了一种常用的控制策略,正在被广泛地应用于混合动力汽车的传动系统控
ECMS策略可以将全局最优问题转化为瞬时优化问题,简化了能量管理问题的求解。考虑到在持续变化的工况中,难以获取ECMS策略最佳等效因子的问题,综合能量管理所需的控制策略特性,笔者提出了一种将深度强化学习算法和ECMS策略结合的分层控制策略。上层算法采用基于工况数据的深度强化学习方法来选择最佳等效因子;下层算法基于等效燃油消耗最小的控制目标来实现最优功率分配。这种分层控制策略方法可以充分利用深度强化学习的探索性以及ECMS策略的鲁棒性,从而提高混合动力汽车的燃油经济性和能量控制策略的稳定性。
强化学习的原理如

图1 强化学习原理示意图
Fig. 1 Schematic diagram of the principle of reinforcement learning
第三代Prius的传动系统结构如

图2 第三代丰田Prius传动系统结构图
Fig. 2 Transmission system structure of the third generation Toyota PRIUS
根据驱动力与外部阻力平衡的力学原
(1) |
式中:为驱动力;为惯性力;为空气阻力;为坡度阻力;为滚动阻力;为加速度;为空气密度;为迎风面积;为空气阻力系数;为车辆相对速度;为滚动阻尼系数。整车的主要结构参数如
整备质量/kg | 迎风面积/ | 风阻系数 | 车轮半径/m | 滚动阻尼系数 |
---|---|---|---|---|
1 449 | 2.25 | 0.27 | 0.285 | 0.012 5 |
发动机的万有特性图与电动机的二维效率曲面图分别如

图3 效率MAP图
Fig. 3 Efficiency MAP of engine and driving motor
(2) |
式中:表示燃油消耗率;G为插值查表的方法;为发动机功率。对于电机而言,所需电机功率则为
(3) |
式中:表示电机转速;表示电机扭矩。
采用一阶等效电路模型来描述镍氢电池的动态特性,同时忽略温度变化和电池老化的影响,电池的动态方程可以描述为
(4) |
式中:、分别指电池的功率、电流;为开路电压;为电池内阻;指电池标称容量;表示电池的荷电状态。完整的电池模型参数如
发动机峰值功率/kW | MG1电机峰值功率/kW | MG2电机峰值功率/kW | 电池标称容量/(A·h) | 电池电压/V | 主减速比 |
---|---|---|---|---|---|
73 | 42 | 60 | 6.5 | 201 | 3.27 |
本节阐述了将深度强化学习和ECMS策略相结合的分层混联HEV能量管理方法。
Paganell
, | (5) |
式中:表示等效当量油耗,g/s;为实际发动机燃油消耗量,g/s;电能消耗的等效油耗,g/s。
, | (6) |
式中:为虚拟燃油消耗因子;为汽油最低热值,MJ/kg;为电池功率;为等效因子。
在自适应等效燃油消耗策略中,等效因子可以在驾驶工况中作为荷电状态的函数进行不断更新。这种自适应的反馈调节可以很好地维持电池的荷电状态,但不能保证能量的最优分
。 | (7) |
式中:和分别为电池荷电状态的上限和下限。

图4 A-ECMS偏移惩罚函数
Fig. 4 A-ECMS offset penalty function
在已知等效因子的情况下,可采用
, | (8) |
式中:,为需要学习得到的变量;表示在危险荷电状态下的惩罚系数,它是嵌入到仿真环境当中的;表示平均燃油消耗,取235 g/(kW·h);表示平均充电与平均放电效率,即电能转换效率,取值0.7。
深度确定性策略梯度算法(deep deterministic policy gradient, DDPG)可以实现能量管理中连续动作的输出。该算法由2个独立的深度神经网络构成,是一种具有演员-评论家结构的确定性策略梯度算法,用“演员”来选择控制策略,用“评论家”来评估所采用的控制策略优劣。
“评论家”网络是基于最优动作值函数完成设计的。该动作值函数的递推关系为贝尔曼方程
, | (9) |
式中:为奖励;为折扣因子;指从环境中采样得到的下一时刻状态。
若采用神经网络作为函数拟合器来逼近函数,那么就需要对参数进行不断地学习和改进。因此,可定义为贝尔曼均方误差函数:
(10) |
DDPG中的“演员”通过学习一个确定性策略来将“评论家”的打分进行最大化,即最大化动作值函数。
。 | (11) |
智能体与环境交互是基于状态观测完成的,环境为车辆仿真模型。在混合动力汽车能量管理问题中,智能体通常采用3个参数作为状态
。 | (12) |
ECMS的启发式特性可以对能量管理的决策过程进行简化,从而在一维的搜索空间下进行快速决策。但ECMS中的等效因子对于工况的变化较为敏感,如何确定最佳等效因子是ECMS方法中的难点。传统的解决办法是在标准工况下进行多次仿真,离线计算特定工况下的最佳等效因子并在实际运行过程中查表。这种方法不仅工作量巨大,而且在不同工况下的节油效果也相差较大。因此笔者提出了一种分层能量管理策略:上层采用无模型的强化学习方法——DDPG,通过学习的方法自适应获得最佳的等效因子;下层使用一维搜索来快速确定最佳的发动机功率。该策略算法的完整实现流程如

图5 分层能量管理实现流程
Fig. 5 Hierarchical energy management implementation process
为了验证等效燃油消耗最小策略和深度强化学习方法相结合的分层能量管理策略,笔者在Python中搭建了系统的仿真环境。设置电池的充放电区间为20%~80%,并将分层策略与全局优化DP算法、基于规则的控制策略(rule-based,RULE)和直接控制发动机功率的深度强化学习控制策略(power-DDPG,P-DDPG)分别进行了对比试验。其中,分层策略(two level-DDPG,T-DDPG)可以分为三特征策略和四特征策略,分别简写为T3-DDPG和T4-DDPG。T4-DDPG在T3-DDPG的基础上添加了未来车速信息作为第四特征量。最后采用重庆地区的实测工况作为测试集,来验证此分层策略对于工况的适应性。
深度强化学习方法DDPG包含了4个深度神经网络,2个值函数网络(“评论家”)和2个策略网络(“演员”)。4个神经网络均包含3层全连接隐藏层,宽度分别为256、128、64。训练过程的超参数设置见
批大小 | 经验池 | 折扣率 | 学习率 | 动作高斯噪声方差 |
---|---|---|---|---|
64 | 10 000 | 0.9 | 0.001 | 2 |

图6 深度强化学习算法训练过程对比图
Fig. 6 Training process comparison of deep reinforcement learning algorithms
分层控制策略中,下层算法采用的是ECMS来实现最优功率的分配,所以等效因子是下层算法的重要参数。针对传统的常等效因子进行WLTC工况下的ECMS策略研究分析,得到如

图7 WLTC工况下常等效因子SOC轨迹
Fig. 7 Constant equivalent factor SOC trajectory under WLTC condition

图8 NEDC工况下等效因子对比图
Fig. 8 Comparison of equivalent factors with different methods under NEDC

图9 双NEDC工况电池荷电状态变化曲线
Fig. 9 SOC variation under double NEDC driving cycle
为了验证分层控制策略的节油效果,笔者在大量标准工况下进行了仿真分析。

图10 不同工况能耗对比图
Fig. 10 Energy consumption comparison under different driving conditions
为了验证该分层控制策略对未知工况的适应性,笔者采用重庆地区的实测道路工况作为所提出策略的测试集。测试集中由于实测的车速信息存在噪声,所以对其进行滑动平均和滤波处理。处理后的测试工况数据集如

图11 重庆道路实际测试工况
Fig. 11 The real working conditions on Chongqing roads

图12 实际道路测试与训练结果对比
Fig. 12 Comparison of test and training results under real driving condition
分层控制策略不仅可以解决传统ECMS策略中等效因子难以确定的问题,而且还能解决深度强化学习方法中由于探索和干扰带来的不稳定性问题。在多种标准工况下的仿真结果表明,该分层控制策略中的智能体能够学习到一个良好的控制策略,在所有工况下车辆的电池荷电状态都能满足约束条件。除此以外,笔者所提出的分层控制策略算法具有无模型的特性,所以能够迁移至其他构型的混合动力汽车进行能量管理策略的开发。最后,仿真结果进一步表明了经过大量工况训练后的智能体对各种不同的未知工况具有较强的适应性,使得该分层控制策略具有非常重要的实际应用价值。
参考文献
Onori S, Serrao L, Rizzoni G. Hybrid electric vehicles: energy management strategies[M]. London: Springer London, 2016. [百度学术]
Scordia J, Renaudin M D, Trigui R, et al. Global optimisation of energy management laws in hybrid vehicles using dynamic programming[J]. International Journal of Vehicle Design, 2005, 39(4): 349. [百度学术]
Liu J M, Peng H E. Control optimization for a power-split hybrid vehicle[C]//2006 American Control Conference. IEEE, 2006: 6. [百度学术]
Musardo C, Rizzoni G, Guezennec Y, et al. A-ECMS: an adaptive algorithm for hybrid electric vehicle energy management[J]. European Journal of Control, 2005, 11(4/5): 509-524. [百度学术]
Serrao L, Onori S, Rizzoni G. ECMS as a realization of Pontryagin’s minimum principle for HEV control[C]//2009 American Control Conference. IEEE, 2009: 3964-3969. [百度学术]
Rezaei A. An optimal energy management strategy for hybrid electric vehicles[D]. Houghton, Michigan: Michigan Technological University, 2017. [百度学术]
Sun C, Sun F C, He H W. Investigating adaptive-ECMS with velocity forecast ability for hybrid electric vehicles[J]. Applied Energy, 2017, 185: 1644-1653. [百度学术]
Hu X S, Liu T, Qi X W, et al. Reinforcement learning for hybrid and plug-In hybrid electric vehicle energy management: recent advances and prospects[J]. IEEE Industrial Electronics Magazine, 2019, 13(3): 16-25. [百度学术]
Zhao P, Wang Y Z, Chang N, et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles[C]//2018 23rd Asia and South Pacific Design Automation Conference (ASP-DAC). IEEE, 2018: 196-202. [百度学术]
Lian R, Peng J, Wu Y, et al. Rule-interposing deep reinforcement learning based energy management strategy for power-split hybrid electric vehicle[J]. Energy, 2020, 197: 117297. [百度学术]
Hu Y E, Li W M, Xu K, et al. Energy management strategy for a hybrid electric vehicle based on deep reinforcement learning[J]. Applied Sciences, 2018, 8(2): 187. [百度学术]
Wang Y, Tan H C, Wu Y K, et al. Hybrid electric vehicle energy management with computer vision and deep reinforcement learning[J]. IEEE Transactions on Industrial Informatics, 2021, 17(6): 3857-3868. [百度学术]
Qi X W, Luo Y D, Wu G Y, et al. Deep reinforcement learning-based vehicle energy efficiency autonomous learning system[C]//2017 IEEE Intelligent Vehicles Symposium (IV). IEEE, 2017: 1228-1233. [百度学术]
Zhang Z D, Zhang D X, Qiu R C. Deep reinforcement learning for power system applications: an overview[J]. CSEE Journal of Power and Energy Systems, 2019, 6(1): 213-225. [百度学术]
余志生. 汽车理论[M]. 5版. 北京: 机械工业出版社, 2009. [百度学术]
Yu Z S. Automobile theory[M]. 5th ed. Beijing: China Machine Press, 2009.(in Chinese) [百度学术]
Paganelli G. Conception et commande d’une chaîne de traction pour véhicule hybride parallèle thermique et électrique[D]. Famars: Université de Valenciennes, 1999. [百度学术]
Paganelli G. A general formulation for the instantaneous control of the power split in charge-sustaining hybrid electric vehicles[C]// Proceedings of AVEC 2000, 5th Int. Symp. on Advanced Vehicle Control. 2000. [百度学术]
Onori S, Serrao L, Rizzoni G. Adaptive equivalent consumption minimization strategy for hybrid electric vehicles[C]//Proceedings of ASME 2010 Dynamic Systems and Control Conference. IEEE, 2011: 499-505. [百度学术]