储能电站的多系统协调优化控制方法与流程

allin2025-06-05  92


本发明属于电气自动化领域,具体涉及一种储能电站的多系统协调优化控制方法。


背景技术:

1、随着经济技术的发展和人们生活水平的提高,电能已经成为了人们生产和生活中必不可少的二次能源,给人们的生产和生活带来了无尽的便利。因此,保障电能的稳定可靠供应,就成为了电力系统最重要的任务之一。

2、目前,环境问题越来越严重,因此越来越多的新能源发电系统开始并入电力系统并发电。但是,新能源发电系统的输出波动性和随机性的特点,给电力系统的安全稳定运行带来了极大的挑战。

3、储能作为电能的载体,可有效地平抑大规模新能源发电接入电网带来的波动性,促进电力系统运行中电源和负荷的平衡,提高电网运行的安全性、经济型和灵活性;储能技术也成为构建智能电网与实现可再生能源发电的核心关键。因此,越来越多的储能电站开始应用于电力系统。

4、储能电站中存在bms系统(电池管理系统)、pcs系统(储能变流器系统)、ems系统(电能管理系统)和tms系统(热能管理系统)等多套系统;储能电站的多系统协调优化控制方案,对于储能系统的运行而言,意义重大。但是,目前的储能电站优化控制方案,仅能够实现bms系统、pcs系统、ems系统和tms系统中的单个系统或两个系统的优化控制,并无法综合的实现bms-pcs-ems-tms系统的多系统协调优化控制;这使得现有的储能电站的综合运行水平相对较差。


技术实现思路

1、本发明的目的在于提供一种可靠性高且精确性好的储能电站的多系统协调优化控制方法。

2、本发明提供的这种储能电站的多系统协调优化控制方法,包括如下步骤:

3、s1.获取目标储能电站的数据信息;

4、s2.基于分布式通信方案,构建目标储能电站的bms-pcs-ems-tms系统的分布式通信拓扑;

5、s3.以pcs系统、ems系统和tms系统参数为变量,构建目标储能电站的ems系统的运行模型并求解,得到pcs系统、ems系统和tms系统的优化参数变量;

6、s4.根据步骤s3得到的pcs系统的优化参数变量,建立目标储能电站的pcs系统的运行模型并求解,以完成pcs-ems系统间的小时级优化,实现目标储能电站的充放电控制;

7、s5.根据步骤s3得到的tms系统的优化参数变量,建立目标储能电站的tms系统的运行模型并求解,以完成tms-ems系统间的分钟级优化,实现目标储能电站的冷却液流量控制;

8、s6.根据步骤s3得到的ems系统的优化参数变量,建立目标储能电站的ems系统的运行模型并求解,以完成pcs-bms系统间的毫秒级优化,实现目标储能电站的储能电池工况的控制;

9、s7.根据步骤s3~s6得到的结果,完成目标储能电站的多系统协调优化控制。

10、步骤s2所述基于分布式通信方案,构建目标储能电站的bms-pcs-ems-tms系统的分布式通信拓扑,具体包括如下步骤:

11、通过分布式通信方案,构建ems系统与pcs系统、tms系统的分布式通信拓扑;

12、基于iec61850 goose协议,pcs系统之间通过分布式通信方式,实现ems-pcs之间的分布式拓扑协同,构成高层系统监控单元;

13、构建tms系统之间的分布式通信拓扑,传递ems系统当前电池仓的热管理信息,并形成管理指令传递给底层的bms系统;同时,基于bms-pcs多级拓扑协同,各个pcs系统通过分布式协同通信接收ems系统下发的指令并执行,共同构成中间层监控单元;

14、底层bms系统通过分布式通信连接,向上接受pcs和tms指令,在各个bms之间传递并执行,向下将指令传递给对应的电池仓,构成底层监控单元;

15、在同层级内部,系统之间能够相互通信,对数据进行特征选择后将选定的数据传递给其他层级系统,以提高通信稳定性;

16、构建分布式通信拓扑后,再进行建模:

17、bms-pcs间分布式拓扑通信建模:

18、设定存在n台bms系统,且bms系统之间能够互相通信;存在m台pcs系统,且pcs系统之间能够相互通信;pcs层与bms层之间,通过若干台中心交换机进行数据通信,且任意pcs系统均能够与指定的bms系统进行通信;

19、根据m台pcs系统与n台bms系统,建立通信互联矩阵rbms-pcs为

20、

21、ems-tms间分布式拓扑通信建模:

22、设定存在nn台tms设备,且tms设备之间能够互相通信;存在1台ems设备;ems层与tms层之间,通过1台中心交换机进行数据通信,且ems系统均能够与任意tms系统进行通信;

23、根据nn台tms系统与1台ems系统,建立通信互联矩阵rems-tms为

24、ems-pcs间分布式拓扑通信建模:

25、设定存在m台pcs系统,且pcs系统之间能够相互通信;存在1台ems设备;ems层与pcs层之间,通过1台中心交换机进行数据通信,且ems系统均能够与任意pcs系统进行通信;

26、根据m台pcs系统与1台ems系统,建立通信互联矩阵rems-tms为

27、

28、步骤s3所述的构建目标储能电站的ems系统的运行模型,具体包括如下步骤:

29、采用如下算式作为ems系统的运行模型:

30、minctms+cpcs+cbms

31、式中ctms为tms系统的运行维护成本,且k1为第一权重系数,q(t)为tms系统t时刻的冷却液流量,t1为分钟尺度下的时间采样;cpcs为pcs系统的运行维护成本,且k2为第二权重系数,p(t)为pcs系统t时刻的总功率,t2为毫秒尺度下的时间采样;cbms为bms系统的运行维护成本,且socn为第n台bms系统的荷电状态,var(soc1,soc2,...,socn)为n台bms系统t时刻的储能电池soc一致性带来的损失成本,t3为小时尺度下的时间采样。

32、步骤s3所述的求解,具体包括如下步骤:

33、a.基于sae模型的储能系统荷电状态编码:

34、sae模型包括编码器和解码器;推断网络以n台bms系统的荷电状态样本数据x作为输入,生成带参数的概率分布模型并编码为隐变量z;解码器采用隐变量z还原输入数据,生成带参数θ的pθ(x|z)的近似概率分布;

35、采用sae进行状态编码,以得到更多的bms系统的特征分布概率分布模型从而实现对更多bms系统的状态编码;

36、利用对数最大似然估计pθ(x|z)的参数,优化目标表示为

37、

38、式中n为样本总数;pθ(x(i))为中间变量,且divkl()为kullback-leibler(kl)散度的计算,x(i)为第i个训练样本,lb()为变分下界函数,||为隔断符,表明计算的是与pθ之间的kl散度;

39、基于深度学习网络大化似然概率的方法,最大化变分下界函数表示为

40、

41、式中取高斯分布,表示为pθ(z|x(i))取标准正态分布,表示为pθ(z|x)~n(0,1);则kl散度计算式表示为

42、

43、式中m为编码降维后隐变量z的维度;σj为bms系统储能荷电状态样本数据编码的方差;μj为bms系统储能荷电状态样本数据编码的均值;

44、为后验概率的对数似然,并通过抽样方式简化为

45、

46、式中l为抽样的样本数;pθ(x(i)|z')的分布设定为高斯分布或伯努利分布,并通过神经网络获得设定分布的均值与方差,然后根据概率密度公式求解;

47、编码流程为:将n台bms系统每一时刻的荷电状态数据转换为百分比形式,并表示为一个1×n的行向量;对于d条荷电状态历史数据,采用一个d×n的数组存储;sae训练阶段,每次训练抽取的样本数为k,得到k×n的数组,然后将数据重塑为k×100×n的像素数组,作为训练样本;将训练样本采用编码器编码降维生成代表样本数据的均值和方差;为了实现网络梯度的反向传播,利用重参数化引入辅助向量ε~n(0,1),生成隐变量z;以隐变量z作为解码器输入,以还原样本输入数据;通过解码器的输出数据与输入原始数据对比,利用分布模型计算变分下界函数,以梯度反向传播更新网络参数,反复迭代训练直至sae模型收敛;

48、b.储能系统多层次协同优化调度马尔科夫决策模型:

49、针对目标函数,将每个决策周期内的电源、负载及不受调度策略控制的量设定为常数,则将目标函数模型作为一个序贯模型,并进一步转化为一个马尔科夫决策过程模型;所述马尔科夫决策过程模型包括储能系统状态集合s、储能系统决策集合a、储能系统调度结果奖励反馈集合r、储能系统调度结果惩罚反馈集合k、系统状态转移概率p以及系统调度奖励折扣因子γ;

50、储能系统状态集合s:

51、利用sae模型对储能系统荷电状态的编码后,设定储能系统在t时刻的状态集合st为其中ei(t)为t时刻bms余量的特征编码,li(t)为t时刻bms可调度容量下限的特征编码,m为编码后的数据维度,rk(t)为储能系统在t时刻的不同层次间分布式通信矩阵,k为分布式通信的层次数量,pj(t)为储能系统的要求输出或输入功率,j为pcs设备数量,t为调度时段且以二进制编码的形式表示;

52、为验证模型在不确定性状态下的适应性,在输入数据中叠加含噪声的随机偏差,表示为

53、dxt=θ(μ-xt)dt+σdwt

54、式中xt为t时刻的预测偏差;θ为回归速率;μ为预测偏差均值;σ为预测偏差方差;wt为维纳过程;

55、储能系统决策集合a:

56、储能系统决策集合为模型优化的决策动作;将bms系统的实时充放电功率作为决策集合;对于n台bms系统,设定决策集合at为at=[a1(t),...,ai(t),...,an(t)],其中ai(t)为第i台bms系统在t时刻的充放电功率;

57、储能系统调度结果奖励反馈集合r:

58、在训练过程中,储能系统根据当前状态和决策动作的奖励来选择最优动作或更新动作策略网络;

59、将ctms+cpms+cbms转化为强化学习中的奖励最大化模式,设定智能体的奖励函数rt为rt=-(cbms+cpcs+ctms);

60、储能系统调度结果惩罚反馈集合k:

61、储能系统调度结果惩罚反馈用于修正储能系统的调度动作;

62、对于储能设备,当前的调度动作可能导致系统在下一状态的储能soc状态超过允许的上下限,因此设定越限惩罚项kb为其中为第i个基站的动作的辅助向量,为当前策略下bms系统调度第i个基站的动作向量,n为基站总数,2为l2范数,计算矩阵中每个元素平方和的平方根;

63、c.储能电站系统协同优化调度:

64、基于马尔科夫决策模型,将协同优化调度模型转化为强化学习框架,并采用td3算法进行求解;

65、具体包括如下步骤:

66、(1)sae模型训练:对构建的sae模型进行预训练;训练完成后保留模型参数;

67、(2)参数初始化与经验回放池:初始化各个集合参数;actor网络以sae模型编码后的st作为观测状态输入,将配电网内储能系统的调度决策作为动作输出at=μ(st)+ε;储能系统执行当前的动作,并生成st+1,将st+1中的储能系统荷电状态也采用sae模型进行编码;根据当前环境计算奖励rt,并反馈给储能系统,储能系统将t时刻的经验{st,at,rt,st+1}存放至经验回放池;每次从经验池中抽取若干样本以用于网络训练;

68、(3)critic网络更新:双critic网络通过最小化所抽取样本评估值与目标值之间的差值来更新,表示为最小化损失函数lj(θ):

69、

70、式中m为训练样本数;为第i个样本的目标q值;为状态网络的值;为状态网络的参数;

71、采用双目标状态网络以及目标策略平滑正则化的解决方法,通过目标actor网络下一时刻动作a'=μ'(tt+1)+ε,由双目标critic状态网络计算m个样本的目标价值和并取最小值从而更新网络参数,表示为

72、

73、式中为目标状态网络的网络参数;rt为奖励函数;γ为折扣因子;a'为下一状态st+1下基站储能的动作;μ为目标调度网络策略函数;ε为随机噪声,且取正态分布并对采样噪声做截断,表示为ε~clip(n(0,σ),-c,c),以使得目标动作更加接近原始动作;

74、(4)actor网络更新:actor网络通过最大化累计期望回报来更新网络参数,表示为

75、

76、式中jβ(μ)为采取动作分布能够获取的期望回报;ρβ(s)为在配电网环境状态s下储能系统动作调度μ的分布;qμ(s,μ(s))为在状态s下储能系统所采取动作调度μ的价值函数;

77、根据梯度下降更新actor网络参数,表示为

78、

79、式中为采取动作分布能够获取期望回报的梯度;为在配电网环境状态s下储能系统动作调度μ的分布所带来的期望;为在状态s下价值函数的梯度;为在状态s下动作调度的梯度;

80、(5)参数延迟更新:采用软更新的形式更新策略网络以及目标价值网络参数,表示为其中τ为软更新系数;

81、为了减小状态网络尚未稳定就更新策略网络引起的误差,延迟actor网络参数的更新:提高状态网络的参数更新频率,并等待状态网络收敛后再更新调度网络参数,从而减小累积误差,降低方差;

82、循环执行步骤(1)~(5),实现模型的训练,直至奖励最大化和网络收敛;训练完成后,将网络参数进行保存,以用于实时调度;

83、应用时,在每个时段t将当前配电网的状态st输入到训练后的actor网络中,得到实时的基站储能调度动作at,获得奖励值rt,并状态转移生成下一时段状态st+1;在下一时刻,储能系统继续观测环境的状态信息,并继续由调度网络决策调度信息。

84、步骤s4所述的根据步骤s3得到的pcs系统的优化参数变量,建立目标储能电站的pcs系统的运行模型,具体包括如下步骤:

85、采用如下算式作为目标储能电站的pcs系统的运行模型的目标函数:

86、

87、式中pi为第i个pcs系统的运行功率;pr为pcs系统的额定运行功率;var(p1,p2,...,pm)为所有pcs系统运行功率的方差;wi为第i个pcs系统的权重值;stai为第i个pcs系统的运行状态,且第i个pcs系统关闭则stai=0,第i个pcs系统工作则stai=1;

88、采用如下算式作为目标储能电站的pcs系统的运行模型的约束条件:

89、pmin<pi<pmax

90、式中pmin为pcs系统的最小运行功率;pmax为pcs系统的最大运行功率。

91、步骤s4所述的求解,具体包括如下步骤:

92、(1)将n台pcs设备的运行功率数据输入到sae模型中得到系统功率状态的编码:将n台pcs系统每一时刻的功率状态数据转换为百分比形式,并表示为一个1×n的行向量;对于d条功率状态历史数据,采用一个d×n的数组存储;sae训练阶段,每次训练抽取的样本数为k,得到k×n的数组,然后将数据重塑为k×100×n的像素数组,作为训练样本;将训练样本采用编码器编码降维生成代表样本数据的均值和方差;为了实现网络梯度的反向传播,利用重参数化引入辅助向量ε~n(0,1),生成隐变量z;以隐变量z作为解码器输入,以还原样本输入数据;通过解码器的输出数据与输入原始数据对比,利用分布模型计算变分下界函数,以梯度反向传播更新网络参数,反复迭代训练直至sae模型收敛后生成系统功率状态的编码;

93、(2)参数初始化与经验回放池:初始化各个集合参数;actor网络以sae模型编码后的pcs功率状态st作为观测状态输入,将pcs系统的调度决策作为动作输出at=μ(st)+ε;pcs系统执行当前的动作,并生成st+1,将st+1中的pcs系统功率状态采用sae模型进行编码;根据当前环境计算奖励rt,并反馈给pcs系统,pcs系统将t时刻的经验{st,at,rt,st+1}存放至经验回放池;每次从经验池中抽取若干样本以用于网络训练;

94、(3)critic网络更新:双critic网络通过最小化所抽取样本评估值与目标值之间的差值来更新,表示为最小化损失函数lj(θ):

95、

96、式中m为训练样本数;为第i个样本的目标q值;为状态网络的值;为状态网络的参数;

97、采用双目标状态网络以及目标策略平滑正则化的解决方法,通过目标actor网络下一时刻动作a'=μ'(tt+1)+ε,由双目标critic状态网络计算m个样本的目标价值和并取最小值从而更新网络参数,表示为

98、

99、式中为目标状态网络的网络参数;rt为奖励函数;γ为折扣因子;a'为下一状态st+1下pcs系统的动作;μ为目标调度网络策略函数;ε为随机噪声,且取正态分布并对采样噪声做截断,表示为ε~clip(n(0,σ),-c,c),以使得目标动作更加接近原始动作;

100、(4)actor网络更新:actor网络通过最大化累计期望回报来更新网络参数,表示为

101、

102、式中jβ(μ)为采取动作分布能够获取的期望回报;ρβ(s)为在配电网环境状态s下pcs系统动作调度μ的分布;qμ(s,μ(s))为在状态s下pcs系统所采取动作调度μ的价值函数;

103、根据梯度下降更新actor网络参数,表示为

104、

105、式中为采取动作分布能够获取期望回报的梯度;为在配电网环境状态s下pcs系统动作调度μ的分布所带来的期望;为在状态s下价值函数的梯度;为在状态s下pcs系统动作调度的梯度;

106、(5)参数延迟更新:采用软更新的形式更新策略网络以及目标价值网络参数,表示为其中τ为软更新系数;

107、为了减小状态网络尚未稳定就更新策略网络引起的误差,延迟actor网络参数的更新:提高状态网络的参数更新频率,并等待状态网络收敛后再更新调度网络参数,从而减小累积误差,降低方差;

108、循环执行步骤(1)~(5),实现模型的训练,直至奖励最大化和网络收敛;训练完成后,将网络参数进行保存,以用于实时调度;

109、应用时,在每个时段t将当前pcs系统的功率状态st输入到训练后的actor网络中,得到实时的pcs设备调度动作at,获得奖励值rt,并状态转移生成下一时段状态st+1;在下一时刻,储能系统继续观测pcs设备的功率状态信息,并继续由调度网络决策调度信息。

110、步骤s5所述的根据步骤s3得到的tms系统的优化参数变量,建立目标储能电站的tms系统的运行模型,具体包括如下步骤:

111、采用液冷结构对储能电池柜进行tms热管理,实现对储能系统的热量控制;

112、设定储能电池柜内部包含m行n列的单体储能电池,第i行第j列的电池单体为bij,电池单体的电芯温度为tij,ems系统给tms系统设定的各电池标准参考工作温度为tref;tms系统给冷却循环系统发出指令,对冷却液的流速进行控制,流速的变化导致各个电池单体处水流量发生变化,第i行第j列的电池单体处的水流量记为qij;

113、采用如下算式作为目标储能电站的tms系统的运行模型的目标函数:

114、

115、式中var(t11,...,t1n,...,tm1,...,tmn)为所有电池单体电芯温度的方差;

116、采用如下算式作为目标储能电站的tms系统的运行模型的约束条件:

117、

118、式中t0为初始环境温度;k为流量比例系数;q0为初始冷却液流量;k为流速比例系数;n为储能电池柜中单体储能电池的列数;v为冷却液的流速。

119、步骤s5所述的求解,具体包括如下步骤:

120、(1)将n台tms设备的运行功率数据输入到sae模型中得到系统热管理状态的编码:将n台tms系统每一时刻的热管理状态数据转换为百分比形式,并表示为一个1×n的行向量;对于d条热管理状态历史数据,采用一个d×n的数组存储;sae训练阶段,每次训练抽取的样本数为k,得到k×n的数组,然后将数据重塑为k×100×n的像素数组,作为训练样本;将训练样本采用编码器编码降维生成代表样本数据的均值和方差;为了实现网络梯度的反向传播,利用重参数化引入辅助向量ε~n(0,1),生成隐变量z;以隐变量z作为解码器输入,以还原样本输入数据;通过解码器的输出数据与输入原始数据对比,利用分布模型计算变分下界函数,以梯度反向传播更新网络参数,反复迭代训练直至sae模型收敛后生成系统热管理状态的编码;

121、(2)参数初始化与经验回放池:初始化各个集合参数;actor网络以sae模型编码后的tms热管理状态st作为观测状态输入,将tms系统的调度决策作为动作输出at=μ(st)+ε;tms系统执行当前的动作,并生成st+1,将st+1中的tms系统热管理状态采用sae模型进行编码;根据当前环境计算奖励rt,并反馈给tms系统,tms系统将t时刻的经验{st,at,rt,st+1}存放至经验回放池;每次从经验池中抽取若干样本以用于网络训练;

122、(3)critic网络更新:双critic网络通过最小化所抽取样本评估值与目标值之间的差值来更新,表示为最小化损失函数lj(θ):

123、

124、式中m为训练样本数;为第i个样本的目标q值;为状态网络的值;为状态网络的参数;

125、采用双目标状态网络以及目标策略平滑正则化的解决方法,通过目标actor网络下一时刻动作a'=μ'(tt+1)+ε,由双目标critic状态网络计算m个样本的目标价值和并取最小值从而更新网络参数,表示为

126、

127、式中为目标状态网络的网络参数;rt为奖励函数;γ为折扣因子;a'为下一状态st+1下tms系统的动作;μ为目标调度网络策略函数;ε为随机噪声,且取正态分布并对采样噪声做截断,表示为ε~clip(n(0,σ),-c,c),以使得目标动作更加接近原始动作;

128、(4)actor网络更新:actor网络通过最大化累计期望回报来更新网络参数,表示为

129、

130、式中jβ(μ)为采取动作分布能够获取的期望回报;ρβ(s)为在配电网环境状态s下tms系统动作调度μ的分布;qμ(s,μ(s))为在状态s下tms系统所采取动作调度μ的价值函数;

131、根据梯度下降更新actor网络参数,表示为

132、

133、式中为采取动作分布能够获取期望回报的梯度;为在配电网环境状态s下tms系统动作调度μ的分布所带来的期望;为在状态s下价值函数的梯度;为在状态s下tms系统动作调度的梯度;

134、(5)参数延迟更新:采用软更新的形式更新策略网络以及目标价值网络参数,表示为其中τ为软更新系数;

135、为了减小状态网络尚未稳定就更新策略网络引起的误差,延迟actor网络参数的更新:提高状态网络的参数更新频率,并等待状态网络收敛后再更新调度网络参数,从而减小累积误差,降低方差;

136、循环执行步骤(1)~(5),实现模型的训练,直至奖励最大化和网络收敛;训练完成后,将网络参数进行保存,以用于实时调度;

137、应用时,在每个时段t将当前tms系统的热管理状态st输入到训练后的actor网络中,得到实时的tms设备调度动作at,获得奖励值rt,并状态转移生成下一时段状态st+1;在下一时刻,储能系统继续观测tms设备的热管理状态信息,并继续由调度网络决策调度信息。

138、步骤s6所述的根据步骤s3得到的ems系统的优化参数变量,建立目标储能电站的ems系统的运行模型,具体包括如下步骤:

139、采用如下算式作为目标储能电站的ems系统的运行模型的目标函数:

140、minvar(soc1,soc2,...,socn)

141、式中var(soc1,soc2,...,socn)为所有bms设备soc值的方差;

142、采用如下算式作为目标储能电站的ems系统的运行模型的约束条件:

143、

144、式中socmin为储能电池soc值的下限;socmax为储能电池soc值的上限;soci为第i个bms系统的soc值。

145、步骤s6所述的求解,具体包括如下步骤:

146、(1)将n台bms设备的运行功率数据输入到sae模型中得到系统荷电状态的编码:将n台bms系统每一时刻的荷电状态数据转换为百分比形式,并表示为一个1×n的行向量;对于d条荷电状态历史数据,采用一个d×n的数组存储;sae训练阶段,每次训练抽取的样本数为k,得到k×n的数组,然后将数据重塑为k×100×n的像素数组,作为训练样本;将训练样本采用编码器编码降维生成代表样本数据的均值和方差;为了实现网络梯度的反向传播,利用重参数化引入辅助向量ε~n(0,1),生成隐变量z;以隐变量z作为解码器输入,以还原样本输入数据;通过解码器的输出数据与输入原始数据对比,利用分布模型计算变分下界函数,以梯度反向传播更新网络参数,反复迭代训练直至sae模型收敛后生成系统热管理状态的编码;

147、(2)参数初始化与经验回放池:初始化各个集合参数;actor网络以sae模型编码后的bms荷电状态st作为观测状态输入,将bms系统的调度决策作为动作输出at=μ(st)+ε;bms系统执行当前的动作,并生成st+1,将st+1中的bms系统荷电状态也采用sae模型进行编码;根据当前环境计算奖励rt,并反馈给bms系统,bms系统将t时刻的经验{st,at,rt,st+1}存放至经验回放池;每次从经验池中抽取若干样本以用于网络训练;

148、(3)critic网络更新:双critic网络通过最小化所抽取样本评估值与目标值之间的差值来更新,表示为最小化损失函数lj(θ):

149、

150、式中m为训练样本数;为第i个样本的目标q值;为状态网络的值;为状态网络的参数;

151、采用双目标状态网络以及目标策略平滑正则化的解决方法,通过目标actor网络下一时刻动作a'=μ'(tt+1)+ε,由双目标critic状态网络计算m个样本的目标价值和并取最小值从而更新网络参数,表示为

152、

153、式中为目标状态网络的网络参数;rt为奖励函数;γ为折扣因子;a'为下一状态st+1下bms系统的动作;μ为目标调度网络策略函数;ε为随机噪声,且取正态分布并对采样噪声做截断,表示为ε~clip(n(0,σ),-c,c),以使得目标动作更加接近原始动作;

154、(4)actor网络更新:actor网络通过最大化累计期望回报来更新网络参数,表示为

155、

156、式中jβ(μ)为采取动作分布能够获取的期望回报;ρβ(s)为在配电网环境状态s下bms系统动作调度μ的分布;qμ(s,μ(s))为在状态s下bms系统所采取动作调度μ的价值函数;

157、根据梯度下降更新actor网络参数,表示为

158、

159、式中为采取动作分布能够获取期望回报的梯度;为在配电网环境状态s下bms系统动作调度μ的分布所带来的期望;为在状态s下价值函数的梯度;为在状态s下bms系统动作调度的梯度;

160、(5)参数延迟更新:采用软更新的形式更新策略网络以及目标价值网络参数,表示为其中τ为软更新系数;

161、为了减小状态网络尚未稳定就更新策略网络引起的误差,延迟actor网络参数的更新:提高状态网络的参数更新频率,并等待状态网络收敛后再更新调度网络参数,从而减小累积误差,降低方差;

162、循环执行步骤(1)~(5),实现模型的训练,直至奖励最大化和网络收敛;训练完成后,将网络参数进行保存,以用于实时调度;

163、应用时,在每个时段t将当前bms系统的荷电状态st输入到训练后的actor网络中,得到实时的bms设备调度动作at,获得奖励值rt,并状态转移生成下一时段状态st+1;在下一时刻,储能系统继续观测bms设备的荷电状态信息,并继续由调度网络决策调度信息。

164、本发明提供的这种储能电站的多系统协调优化控制方法,基于分布式通信方案构建了目标储能电站的bms-pcs-ems-tms系统的分布式通信拓扑,并基于构建通信拓扑方案,构建目标储能电站的bms系统、pcs系统、ems系统和tms系统的运行模型并求解;因此本发明不仅能够实现储能电站的多系统协调优化控制,而且可靠性更高,精确性更好。


技术特征:

1.一种储能电站的多系统协调优化控制方法,包括如下步骤:

2.根据权利要求1所述的储能电站的多系统协调优化控制方法,其特征在于步骤s2所述基于分布式通信方案,构建目标储能电站的bms-pcs-ems-tms系统的分布式通信拓扑,具体包括如下步骤:

3.根据权利要求2所述的储能电站的多系统协调优化控制方法,其特征在于步骤s3所述的构建目标储能电站的ems系统的运行模型,具体包括如下步骤:

4.根据权利要求3所述的储能电站的多系统协调优化控制方法,其特征在于步骤s3所述的求解,具体包括如下步骤:

5.根据权利要求4所述的储能电站的多系统协调优化控制方法,其特征在于步骤s4所述的根据步骤s3得到的pcs系统的优化参数变量,建立目标储能电站的pcs系统的运行模型,具体包括如下步骤:

6.根据权利要求5所述的储能电站的多系统协调优化控制方法,其特征在于步骤s4所述的求解,具体包括如下步骤:

7.根据权利要求6所述的储能电站的多系统协调优化控制方法,其特征在于步骤s5所述的根据步骤s3得到的tms系统的优化参数变量,建立目标储能电站的tms系统的运行模型,具体包括如下步骤:

8.根据权利要求7所述的储能电站的多系统协调优化控制方法,其特征在于步骤s5所述的求解,具体包括如下步骤:

9.根据权利要求8所述的储能电站的多系统协调优化控制方法,其特征在于步骤s6所述的根据步骤s3得到的ems系统的优化参数变量,建立目标储能电站的ems系统的运行模型,具体包括如下步骤:

10.根据权利要求9所述的储能电站的多系统协调优化控制方法,其特征在于步骤s6所述的求解,具体包括如下步骤:


技术总结
本发明公开了一种储能电站的多系统协调优化控制方法,包括获取目标储能电站的数据信息;构建目标储能电站的BMS‑PCS‑EMS‑TMS系统分布式通信拓扑;构建目标储能电站的EMS系统的运行模型并求解得到PCS系统、EMS系统和TMS系统的优化参数变量;建立目标储能电站的PCS系统的运行模型并求解实现目标储能电站的充放电控制;建立目标储能电站的TMS系统的运行模型并求解实现目标储能电站的冷却液流量控制;建立目标储能电站的EMS系统的运行模型并求解实现目标储能电站的储能电池工况的控制;根据得到的结果完成目标储能电站的多系统协调优化控制。本发明能够实现储能电站的多系统协调优化控制,可靠性高,精确性好。

技术研发人员:秦正斌,单周平,徐志强,张兴伟,周鲲,谭丽平,贺丽,罗正经,章玉明,王继军,成月良,董雪,陆炳辰,李欣
受保护的技术使用者:国网湖南省电力有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-21827.html

最新回复(0)