建筑能耗占社会总能耗的25%~30%[1],在建筑能耗组成中,供热、制冷能耗占比达50%以上[2]。中国北方地区大多都采取市政热水集中供热的方式[3],而南方地区主要是混合型供热方式[4],其主要形式包括锅炉热水二次换热[5]、市政蒸汽[6]以及空调供热等。对比常见制冷供热方式制冷供热能效比,由于锅炉热水二次换热供热能效比较低[7],并且运行成本也较高,因此,对于夏天采用中央空调制冷, 冬天采取自烧锅炉热水二次换热系统供热的建筑来说,对锅炉进行能耗诊断对降低建筑能耗和能源成本有着重要意义。
从数据获取方式的角度来说,能耗诊断主要分为线上和线下诊断两种模式[8]。线上诊断主要基于数据动态性能自适应的筛选并建立诊断模型,本质上是一个动态数据筛选和建模的过程[9],线下诊断主要是基于已有数据的模型辨识,本质上是基于过去数据对未来或者其他数据集模型预测诊断的过程[10]。数据处理方法主要包括基于能耗指标[11]、基于数据挖掘[12]、基于统计学[13]以及基于能耗软件模拟[14]。然而,这些方法都只针对能耗数据而并未考虑到实际工况变化对能耗的影响,因此,都存在一定的局限性。
机器学习是一个集合的概念,是对数据内在本质的一个挖掘,是把有效信息从大量的数据集中萃取出来的过程[15];是把已有算法与实际数据相结合的产物,也是大数据背景下基于计算机强大计算能力对算法的一种再创新和应用[16]。随着计算机科学的飞速发展,机器学习越来越多地应用到人工智能[17]、数据挖掘[18]、模式识别[19]、图像处理[20]等领域,在实际工程中得到越来越多的应用[21]。文献[22-23]分别讨论了机器学习算法在电力系统能耗诊断中的应用。本文利用机器学习算法建立针对锅炉二次换热供热系统的能耗诊断模型,并做相应的案例研究,为机器学习算法在锅炉热水节能诊断中的应用提供一个标准模型结构。
锅炉热水供热系统是锅炉烧热水经过二次换热把能量从一次供热端传递到用户末端的过程。从锅炉热水供热系统节能的定义上,在满足热负荷需求的情况下,尽可能减少能耗是节能优化的目标。然而,影响热负荷的因素有很多,除了室外气候条件,还包括建筑物本体的体形架构,建筑物的外围护结构等。这些影响因子之间所满足的物理关系是非线性的,无论是基于机理建模还是基于一般非线性优化的方法都难达到诊断的目的。基于机器学习的能耗诊断模型是一种线下诊断模型,诊断的原理如图 1所示。由于锅炉热水二次换热供热系统是一个多变量复杂系统,因此,诊断数据的质量对模型建立以及能耗诊断效果起决定性作用,理想情况下更希望用节能数据对不节能数据进行诊断,这样诊断的结果才能有一定的实用价值;其次,变量的选取也会影响模型拟合,倘若所选变量不完全,模型拟合度较低(即R值低),诊断本身就没有意义,因而,变量的选取也是数据质量的一个层面。因此,诊断模型建立主要包括:变量选取、数据采集、判别与筛选以及模型的建立。
变量选取是对系统初步基于原理的定性分析的过程,一般选取的原则为:
1) 系统运行与能耗相关性较大的作为输入变量,与能耗直接相关的作为输出变量。
2) 对有节能控制的系统(如气候补偿器、变频泵)应把影响节能效果的被控制变量(如热水流量)作为输出变量,控制参变量作为输入变量(如室外温度、末端温度等)。
3) 为了模型拟合的效果,输入变量要尽量包含所有影响热负荷或者能耗的参变量。
针对锅炉二次换热供热系统,表 1给出了常见的输入、输出可选取变量。变量的系统层次不同,能耗诊断也可分为系统层的诊断和设备层的诊断,前者主要集中于能耗数据的数值诊断,后者侧重于设备运行的故障诊断[24]。而本文模型参变量选择主要针对能耗数值的诊断,这种诊断本质上是节能控制中被控制变量对于工况条件的响应,而模型反映了响应的映射关系,能耗数据则是这种响应的直观表现,且这种直观表现是基于外界条件(比如室外温度、供回水温度等)而与时间序列无关[25],从原始数据中筛选出有效的节能数据并不影响诊断模型本身的正确性。
数据筛选是基于影响因子对数据进行筛选过程,从节能的角度看,在约束条件下(设备、工况、人员等),用尽量少的热量去满足相应的热负荷被认为是最为理想的节能状态[26]。由于室外温度对热负荷的影响最大[27],因此,把室外温度与供热量相关性系数R作为数据筛选初级指标较为合理。数据筛选流程如图 2所示,若相关性系数R大于-0.2,可以认为供热量与热负荷脱节,处于不节能状态,而不能作为诊断数据;R介于-0.2到-0.5之间的数据,可以认为数据中部分是节能的,需要把节能数据从数据集中筛选出来;如果R值小于-0.5,可以认为它具有很好的节能特性,可直接用于诊断。常用筛选算法有概率模型筛选算法[28]、无监督聚类算法[29]及监督学习分类算法[30],筛选获得数据的评价应考虑:
1) R是否小于-0.5,即是否筛选出适宜建模的诊断数据。
2) 筛选出来的数据占采集总数据集的比例η应大于30%,才能保证被筛选数据的普遍性和代表性,从而保证诊断的可靠性。
3) 节能数据量是否足够大,即诊断数据量N必须大于被诊断数据量2N′作为标准。
如果符合要求的数据集很多并对诊断数据没有很高的节能特性要求,且都满足R < -0.5,可以适当减少分类数来保证数据的量。由于变量个数过多会影响模型拟合的速度,因此,原则上若实际情况需要,可以用变量降维算法[31-32]。
二次换热供热系统的诊断模型建立采用多变量回归拟合的方式,常用的多元回归算法有最小二乘回归[33]、人工神经网络[34]、LS-SVM回归[35]、回归树[36]等。由于在选择回归模型时既要考虑数据的数量、质量,也要考虑所诊断的目标变量,因此,并不存在统一的模型选择标准。本文案例研究中采用K-means聚类[37]的数据筛选算法和基于贝叶斯正则化训练的人工神经网络回归模型。
主要选取以下3个指标作为节能特性的判定:
1) 供热量与室外温度的相关性R。R数值越大,越节能。
2) MAP指标。
式中:E预测i和E实际i分别表示预测的供热量和实际供热量;n表示数据量,负值表示不节能,正值表示节能。
3) 节能率η。
节能率反映相对的节能效果,正值表示被诊断数据不节能,负值表示被诊断数据节能。
以某医院锅炉二次换热供热系统为研究案例,如图 3所示。从能量流动角度讲,能量是由锅炉热水经过两次换热传递给末端,第一次换热是一次供热端与二次供热端经过换热板换热,介质都是水,二次换热是二次供热端热水与末端风机盘管中的空气换热,风机盘管再把热量传递给空间。因此,决定能量传递大小的因素是一次供热端的热水流量和二次供热端热水流量,一次供热端供回水温差以及二次供热端供回水温差。从节能控制角度,可以直接控制的变量只有一次供热端和二次供热端的热水流量,而在本文中,只有二次供热端有变频泵根据室内温度、末端温度、供回水温度这3个方面控制热水流量,因此,这些相关变量都应考虑到。表 2所示是系统参数、3个区域的采暖面积、采暖热源、末端、锅炉型号以及数据采集的变量和数据量等信息,诊断数据是2015-12-15到2016-03-15,每2 h为步长的数据,被诊断数据是2016-02-17至2016-02-22,每0.5 h为步长的数据,在这段时间内,二次供热端关闭变频节能控制措施。经过滤波诊断数据和被诊断数据量分别为1 100和194个。
如图 4为采集变量之间的相关性热点图。其中,瞬时热量与室外温度的相关性R为-0.272 3,因此,属于第2种情况,应采用K-means算法进行聚类,由于案例中对诊断数据并没有要求很高的节能特性,根据模型以R是否小于-0.5作为诊断数据的选择标准,从图 4(b)也可以看出,室外温度与瞬时热量的相关性为-0.093 52,节能性较低。
图 5为诊断数据经过K-means算法聚类后,聚类数据集中室外温度与瞬时热量的相关性及数据量,数据集3相关性R值达到了-0.539 2,数据量达到了412,满足诊断数据的要求,可以作为诊断数据对被诊断数据进行诊断。
模型选取输入变量应为能耗的影响因子,相应的响应变量应为供热量值与节能控制中的被控制变量热水流量。神经网络回归模型的拓扑结构如图 6所示,采用3层神经网络,输入层有10个神经元,表示10个输入变量,隐含层有25个神经元,其激活函数为sigmoid函数,输出层有1个神经元,表示1个输出变量,输出函数为线性函数。人工神经网络常用的训练算法有误差反向传播法(BP)、共轭梯度法、牛顿法、L-M法,由于这些算法本质上是基于误差权重空间中误差沿空间场的梯度下降最快的原理,对误差权重空间的平滑性(训练样本的质量)敏感性较高而易陷入局部最优和欠拟合[38]。其次,能耗诊断的准确与否与神经网络模型的泛化性相关性较大,而贝叶斯正则化方法把误差和网络结构复杂度都作为训练的惩罚函数,因此,能有效提高神经网络的泛化性能[39],基于以上原因,采用贝叶斯正则化训练方法对神经网络进行训练,既保证模型的准确性,也保证模型的泛化性。同时,为了保证训练结果的有效性,训练集(train)、测试集(test)按7:3的比例,采用随机分割的方法[40]获得。表 3所示为4个诊断模型结构所选取的数据集及模型的拟合度R值,以供热量作为响应变量拟合度的R值高于以二次端热水流量为响应变量模型的R值。但是,总体R值都高于0.9,模型拟合度较高,具有较好的诊断可靠性。
图 7所示为模型D3和模型2对聚类后数据集1、数据集4和被诊断数据进行诊断的结果,可以发现,模型D3预测供热量与室外温度相关性系数分别达到了-0.308 7、-0.471 5和-0.203 0,累积误差MAP值分别为-149 498.67、-86 526、-4 052.27 kW,节能率为10.7%、17%和4%,都优于模型2;且从图中可以看出,模型2预测和实际供热量高于设计负荷线(图中X轴方向虚线)采样点比例更大,趋势更明显,而模型D3预测结果相对较好。图 7(b)所示为被诊断数据模型2预测值与实际值的相关性图,相关性高达0.95,这说明处于模型2变频节能控制状态下运行的能耗水平与非变频运行状态下较为相似,节能率指标η也只有1%左右。因此,变频节能控制并未达到应有的节能效果。同理,对数据集1和数据集4的诊断验证也可发现,总数据集预测结果与实际相近,与室外温度的相关性为-0.259 2和-0.1153,节能率指标只有0.4%和1.8%,诊断效果并不明显。对比发现,经过K-means筛选出来的数据节能诊断效果较好。
图 8所示为模型D3-flux和模型2-flux诊断的结果,从图 8(a)中可以看出,由于被诊断数据关闭了变频泵控制,因此,水流量波动较为平稳,随室外温度变化波动不大。模型2-flux预测热水流量虽然有一定的波动, 但是无论均值、方差以及累计误差都与实际热水流量相近,对比模型D3-flux和室外温度发现,当室外温度升高热负荷降低时,模型D3-flux预测热水流量也有明显下降,方差为17 320.67,波动性相对于模型2-flux较大,累计误差MAP为21 778.86 m3/h,η值为18.7%,被诊断数据不节能。图 8(b)所示为通过预测的二次热水流量和实际供回水温差计算出来的理论供热量,计算式为
式中:C为水的比热容;M为热水流量;ΔT为供回水温差,由于比热C是常量,为了方便起见,本文用MΔT作为替代。从图 7(b)中可以看出,模型D3-flux相关性系数R要优于模型2-flux,MAP指标达到了-66 380.237 m3·℃/h,节能率η为19.7%,高于模型2-flux的1.2%。对比诊断结果,被诊断数据不节能,模型D3-flux诊断效果要优于模型2。
4个模型本质上是对节能控制结果的有效性进行诊断。从能量守恒的角度,能量是通过热水两次换热进行传递的,除了满足末端的空间热负荷外,换热板损失和路途管道损失也是能耗主要的组成部分。从锅炉二次供热原理图可以看出,系统主要有两个回路,以第2个回路为例,由于有变频泵的存在,因此,节能控制的原理是基于热负荷进行流量调节,而在控制反馈的参变量只有室内外温度等气候因素和二次端的供回水温差,其中,环境条件只能反映实际的环境热负荷,但能量供给的多少是由一次端的供热量和换热板效率决定,前者是通过人工手动调节供水压力来控制,具有一定的盲目性和滞后性;而后者效率决定因素是换热板的结构和换热两侧的供回水温度。换热板结构是固定的,因此,换热两侧供回水温度就成了主要影响变量。图 9所示为一次端供水压力和换热板热量损失,一次换热板损失热量由式(4)计算[41-42]。
式中:K为传热系数;F为换热板接触面积;Δtm是对数。平均温差由式(5)计算。
式中:T1是二次端热水供水温度;T2是二次端热水回水温度;t1是一次端供水温度;t2是一次端回水温度,负值表示损失,由于F和C是常量,为了简单起见,用Δtm替代供热量进行分析。由图 9可以看出,当从2016-02-11开始人为降低一次平均供水压力,换热板热量损失也明显降低,因此,一次端供水压力合理调节也是提高换热板能效的有效方式。
二次供热端虽然是变频泵控制热水流量来达到节能的目的,但是,真正供给能量的是一次供热端,因此,二次供热端变频节能控制对能量供给只起缓冲作用,节能效果有限。从诊断结果可以发现,关闭变频泵和不关闭变频泵在能耗表现上没有太大差异,因此,对于系统本身节能应增加针对一次供热端的热水流量的节能调节措施。图 10为日累计热量值与室外温度的走势图,可以发现,无论室外温度如何变化,日供热量仍然保持一个平稳且高能耗的供热状态。关闭节能泵的5天(图中虚线所示),虽然能耗数值略微高于相似气温条件的能耗数值,但是,劣势并不明显,气温与关闭变频泵相近的几天(图中X轴方向实线和虚线之间的区域)平均相对节能率只有1.7%,也印证了分析结果。因此,从所有数据中筛选出节能数据对于诊断意义重大,这种模型对比也是对诊断数据和被诊断数据的一个交叉检验。
1) 经过筛选的数据能耗诊断效果要优于未经筛选的数据,经过数据集1、数据集4和被诊断数据检验结果与室外温度相关性R值达到了-0.308 7、-0.47 15和-0.203 0,累积误差MAP值也分别达到了-149 498.67、-86 526、-4 052.27 kW,节能率也达到了10.7%、17%和4%,都优于未经筛选数据建立的模型2。
2) 经案例研究发现,一次供热端供水压力人工调节的滞后性、盲目性是导致能耗高、能效低的主要原因。只针对二次供热端热水流量采取节能控制措施,而不对一次供热端采取相应的节能控制措施所达到的节能效果有限,经实际能耗数据验证,这个结论客观有效。
3) 这种数据建模诊断方式是基于输入、输出变量之间的物理响应关系,而不受数据时间特性的影响,因此,在实际应用中具有较好的泛化性和实用性,能有效对锅炉热水供热系统进行诊断。
4) 由于本文提出的模型是通过数据“学习”系统运行模式,因此,数据的质量、数量及其采集的难易程度也会影响模型的普适性。但随着云技术、大数据平台技术的发展,建立类似的系统运行标准数据库并基于更大数据量、更复杂学习模式(比如深度学习)能极大提升模型的泛化性和准确度。