摘要
为了讯速识别计量分区给水管网中的爆管,提出了一种新的预测–分类–校核的三阶段Infomer-Z-score算法。Infomer-Z-score算法解决了传统方法数据处理效率低、不正常低用水量不处理的问题。在预测阶段中使用深度学习Informer算法预测管网长时间用水压力数据,提高用水压力预测的准确性和数据处理的效率。在分类阶段使用多阈值的分类方法提高了对用水压力数据随时间变化的鲁棒性。Infomer-Z-score算法在爆管模拟检验中的真阳性率(TPR)为90.9%、假阳性率(FPR)为1.7%、检测准确率(DA)为99.5%。长时间序列的压力预测不仅能用于爆管识别,而且还能有效的进行管网中的压力控制使爆管风险降低。
城市供水管网为城市居民提供必需的生活用水,一旦发生爆管,将会影响居民的正常生活,浪费宝贵水资源的同时,还会造成微生物入侵管网、路面塌陷等问
爆管识别的数据驱动方法通常包括预测–分类两阶
早期用于预测阶段的方法主要是人工神经网络(artificial neural network, ANN)算法,Mounce
Google研究团队在2017年提出注意力机制(Attention)机制并运用于自身的Transformer模型来进行机器翻译任务,并且取得了很好的效
在应用数据驱动方法识别爆管时,通常采用流量数据,该方法虽然能够检测出超过正常用水量的异常事件,但却把全部低于正常用水量的流量都视为正常。如果使用管网压力数据来判断爆管,爆管会瞬间使管网出现低压状态而容易快速识别。此外,使用压力数据还可以在管网流量远远小于正常用水量(即管网出现压力过高时)进行警报,调节管网的压力使其恢复到正以减少爆管发生。
为此,笔者提出了一种压力数据驱动的爆管识别Informer-Zscore算法,该方法包括预测–分类–校准三阶段。将所提出的方法用于某管网的爆管识别,并其效果进行评价,以检验该方法的合理性。
RNN、LSTM和Transformer、Informer处理时间序列数据中本质上都采用编码器–解码器(Encoder-Decoder)的深度学习框架,即输入一段时间序列数据,输出一段时间序列数据,解决Sequence到Sequence的映射问题。其中编码器Encoder的作用是对输入时间序列数据进行编码,提取数据的特征并转换为一个向量(称为context)。解码器Decoder的作用是逐项解码context,生成输出序列中的元素。RNN与LSTM的问题在于编码和解码context的过程中随着时间推移顺序处理,遍历context的过程中遗忘早期的信息。Transformer同时计算所有特征间的注意力(Attention)并在编码和解码context的过程中只关注相似度高的部分,但Transformer的运算量太大,内存占用过多,无法预测长时间序列的数据。例如输入一个句子进行翻译,RNN与LSTM会从头到尾逐字逐句进行翻译,当句子太长时会忘记句子最开始的语境信息;Transformer会计算句子中所有词汇的两两关系,翻译过程中会重点考虑意思相近或语境相同的词,但当句子太长包含词汇太多时计算所有词间的关系太复杂、内存占用太多。
Informer算法在编码与解码的过程中使用ProbSparse Self-attention机制,仅仅只考虑注意力机制中贡献最大的部分,对比Transformer中的attention计算量更小,内存占用低,使得输出时间序列对输入的时间序列重要信息加以选择性地学习。综上所述,本文的预测阶段采用Zhou

图1 Informer模型的结构单
Fig. 1 Illustration of an Informer model uni
式(
, | (1) |
, | (2) |
, | (3) |
式中:P为位置编码(positional encoding)信息(即数据在长时间序列中的位置和排序信息),p为该数据在整个时间序列的绝对坐标,dmodel为映射特征的维度,Lx为输入的长度,S为输入序列的时间信息。
, | (4) |
。 | (5) |
, | (6) |
式中:为编码器Decoder的输入部分,为编码器Decoder输入中的已知部分,Ltoken为该部分长度,为编码器Decoder输入中的掩盖部分,Ly为掩盖部分长度。即Decoder输入一段时间序列,把后半部分使用0掩盖,整个模型的目的即为预测被遮盖的Decoder的部分。解码过程中同样通过ProbSparse Self-attention学习数据间的相关信息,计算过程与公式同
分类阶段中常用的方法是统计过程控制理论(statistical process control, SPC),SPC将统计理论运用在分类阶段,判断差异到底是由爆管引起非随机误差的还是系统自带的随机误差。McBean
当管网中发生爆管事故时,观测到的用水压力数据Xt会和预测用水压力数据相差很大,此时可以通过两者间的压力残差Rt对异常数据进行辨别。
。 | (7) |
由于残差始终随着时间不断进行波动,而且用水行为的周期性导致了残差也随着周期不断波动。基于这个特性,把残差按照时间段进行划分,因为传感器的数据采集间隔为5 min,每天的压力残差转换为288长度的列向量(00:00, 00:05, …, 23:55),一共有n天的数据,所以残差矩阵如下所示,尺寸为288×n:
。 |
通过分析每一行的残差,即获得特定时刻的残差阈值,即一天中有288个残差阈值的多阈值分类方法。根据管网的该压力特性,采用z标准分数(Z-score)方法,即使用z标准分数表示一个压力数据点与样本压力平均值的标准差:
。 | (8) |
式中,z值表示t时刻预测值rt与该特定时段残差样本均值的差异,根据规则如果标准分数z超过下面的正常阈值时,则识别非随机模式:
, | (9) |
式中,Z为z标准分数的经验阈值,一般可取值2.00、2.65、3.00、3.50以及更大的经验阈值。经验阈值过小将误报管网中的正常事件,取得太大将漏报管网中的小型爆管事件,综合上述条件和参考有关文献[
为了避免管网的波动性造成用水数据偶尔超过阈值导致事故的误报,分类阶段将残差连续两次超过阈值时才会触发报警,即本文中的爆管检测时间为10 min。
对于大多数的预测分类两阶段算法中,识别到异常值后的校正环节很少被讨论。Wang
, | (10) |
。 | (11) |
式中:表示没有发生事故的校正值=预测值+该次预测残差的二分之一。表示发生事故的校正值,等于预测值+该时刻残差的均值。校正值将视为本时刻的正常用水压力值输入到下一时刻的预测阶段模型中,通过滑动窗口输入的方式实现对管网异常用水压力数据的连续识别。
采用平均百分比误差(mean absolute percentage error,MAPE)来评估长时间序列预测阶段的准确性,使用真阳性率(true positive rate,TPR)、假阳性率(false positive rate,FPR)、检测准确率(detection accuracy,DA)来评价分类阶段对于事故的检测效果。
, | (12) |
, | (13) |
, | (14) |
。 | (15) |
式中:TP(true positive),表示事故发生并且被正确识别;FN(false negative),事故发生但未被检测到;TN(true negative),表示事故没发生系统也未检测到事故;FP(false positive),表示事故未发生但系统检测到事故。MAPE表示预测值与真实值之间的差异大小,TPR表示所有事故中被系统检测出来的比例,FPR表示误报事故的比例,DA表示所有条件下系统正确判断的比例。即MAPE、FPR越小,DA、TPR越大,该检测方法越有效。
基于ENPANET的水力计算包WNTR(water network tool for resilience
这里所采用的管网是Jung

图2 Apulian给水管网以及仪表布局
Fig.2 Apulian network layout with meter locations
使用WNTR水力计算包生成2021年1月1日至2021年4月12日共102 d的用水压力数据,其中2021年1月1日到4月10日(100 d)的用水压力数据无爆管发生,在4月11日和4月12日各合成11次爆管事故,总计22次爆管事故。采用设置压力传感器的节点1、9、15、21和22的模拟压力数据进行算法训练和事故分类。除了原始的顺序时间序列数据外,还通过提取原始时间序列中每个时间点的数据,形成每日不同时刻时间序列。管网中压力传感器每5 min记录一次压力数据,每次记录的压力数据作为一个样本(sample)。
例如每天有288个压力数据读数,把原始顺序时间序列转换为日间隔时间序列,,…,,其中p代表用水压力的测量值,下标为第几天的用水压力,上标为每天的不同时刻。顺序时间序列代表了用水压力数据的趋势性,日间隔时间序列表示用水压力数据的周期性。
预测阶段采用Informer分析以往压力长时间序列间的相关关系(输入多个样本),预测出未来长时间序列(输出多个样本)。为了对每个样本提取更多的压力预测信息,组合日间隔时间序列数据形成样本的3组特征,如
样本特征 | 输入的压力值时刻 |
---|---|
1)时刻的前7 d压力数据 | , ,,, , , |
2)t时刻的前7 d压力数据 | , , , , , , |
3)时刻的前7 d压力数据 | , , , ,, , |
每个压力数据样本一共有21个特征,样本的标签为该时刻t的用水压力值。Informer模型输入24 h的顺序时间序列(288个样本),预测接下来30 min的正常用水压力数据(6个样本)。长时间序列(288个样本)的输入考虑了用水行为的趋势性,每个样本中日间隔时间序列组合的特征表示用水行为的周期性。预测阶段Informer的参数如下所示:seq_len=288、label_len=12、pred_len=6、d_model=512、d_ff=2 048、activation='gelu'、enc_in=22、dec_in=22、c_out=1、e_layers=2、d_layers=1;batch_size=32、learning rate=0.000 1。
数据集分为训练集(前70天中20 160个样本)、验证集(70~90 d中5 760个样本)、测试集(90~100 d中2 880个样本),爆管应用阶段(101、102 d中576个样本)。模型在训练集上训练之后,在验证集上计算误差,通过调整参数直至模型在验证集上的误差取得最小值,训练好的模型在测试集上评估最终的预测能力。爆管应用阶段数据将在分类阶段用于与预测值进行对比验证爆管事件。
实验在2021年4月11日与4月12日间进行22次爆管事故的模拟,爆管事故兼顾爆管的大小和持续时间,当管网中任意传感器观测到连续的异常用水压力波动时发出警报,最早发出警报的传感器位置被认为最靠近事故的发生地点。22次爆管事故最后一次事故是在不正常用水的高压之后发生的爆管。爆管规模大小与规模如
事故发生位置(节点位置) | 发生日期 | 开始时间 | 结束时间 | 爆管泄漏流量与正常流量之比/% | 爆管时压力与正常用水压力之比/% | 检测结果 | 最早报警传感器节点位置 |
---|---|---|---|---|---|---|---|
14 | 2020-04-11 | 00:05:00 | 00:30:00 | 12.4 | 91.2 | TP | 15 |
15 | 2020-04-11 | 02:00:00 | 02:20:00 | 15.6 | 88.6 | TP | 15 |
16 | 2020-04-11 | 04:00:00 | 04:30:00 | 10.1 | 93.2 | TP | 15 |
8 | 2020-04-11 | 06:05:00 | 06:25:00 | 5.6 | 95.6 | TP | 22 |
7 | 2020-04-11 | 08:03:00 | 08:19:00 | 5.2 | 95.9 | TP | 15 |
6 | 2020-04-11 | 10:06:00 | 10:30:00 | 4.1 | 96.8 | TP | 15 |
20 | 2020-04-11 | 12:05:00 | 12:30:00 | 6.2 | 94.8 | TP | 15 |
17 | 2020-04-11 | 14:00:00 | 14:15:00 | 4.5 | 96.0 | TP | 21 |
5 | 2020-04-11 | 16:05:00 | 16:30:00 | 3.8 | 98.1 | TP | 1 |
22 | 2020-04-11 | 18:03:00 | 18:25:00 | 4.2 | 96.7 | TP | 22 |
21 | 2020-04-11 | 20:00:00 | 20:25:00 | 5.1 | 95.9 | TP | 21 |
10 | 2020-04-12 | 00:05:00 | 00:30:00 | 4.4 | 96.6 | TP | 9 |
19 | 2020-04-12 | 02:00:00 | 02:20:00 | 4.6 | 96.4 | TP | 1 |
3 | 2020-04-12 | 04:00:00 | 04:30:00 | 4.1 | 96.8 | TP | 9 |
2 | 2020-04-12 | 06:05:00 | 06:25:00 | 3.6 | 98.3 | TP | 1 |
4 | 2020-04-12 | 08:03:00 | 08:19:00 | 4.2 | 96.8 | TP | 9 |
11 | 2020-04-12 | 10:06:00 | 10:30:00 | 4.1 | 97.0 | TP | 9 |
12 | 2020-04-12 | 12:05:00 | 12:30:00 | 4.3 | 96.8 | TP | 9 |
13 | 2020-04-12 | 14:00:00 | 14:15:00 | 4.2 | 96.7 | TP | 22 |
1 | 2020-04-12 | 16:05:00 | 16:30:00 | 3.3 | 98.9 | TP | 1 |
5 | 2020-04-12 | 18:03:00 | 18:25:00 | 2.8 | 99.3 | FN | – |
6 | 2020-04-12 | 20:00:00 | 20:25:00 | 3.1 | 99.1 | FN | – |
在4月11日11次爆管事故中,爆管流量大于3.8%的事故系统全部能够识别,即便事故发生地点离传感器稍远,爆管发生后的压力信号仍然能被系统识别出来。在4月12日合成的11次小型爆管事故中,系统在识别用水高峰期的爆管事故时(18:03:00、20:00:00)出现问题,其中18:03:00发生的小型爆管事故被掩盖在用水高峰的压力波动中,20:00:00的爆管是发生在不正常用水导致的高压情况,该次高压发出警报,但未能检测出之后的爆管事件,实际中如果能迅速调整不正常低用水导致的高压,或许能避免该次事故的发生。4月12日位于节点1的压力传感器用水压力以及残差情况如图

图3 4月12日节点1压力图
Fig.3 Node 1 pressure chart on 12 April

图4 4月12日节点1残差图以及检测情况
Fig.4 Node 1 residual plots and testing on 12 April
总的来说,管网在2 d内模拟了22次爆管事故,一共检测出20起真实事故,另误报1次事故,该方法的TPR=90.9%、FPR=1.7%、DA=99.5%,对爆管事故的检测具有可靠性。
Informer预测是爆管检测算法的第一步,预测的效果直接影响爆管识别的准确度。为了检验Informer的预测效果,ANN以及LSTM算法也被用于预测阶段进行对比。LSTM与ANN的参数均使用Informer的调参策略并选择其最佳的预测结果进行对比。结果表明,Informer在长时间序列的预测优于LSTM,ANN。相同输入条件下,Informer的MAPE均值为0.8%,远远超过LSTM的4.8%以及ANN的10.2%。Informer独特的ProbSparse Self-attention机制使它对长时间序列数据的预测精度更佳,这为接下来的分类奠定了好的基础。
Z-score多阈值的分类能尽可能地使得异常的残差数据被识别,同时也避免因为个别时间点压力数据的随机波动导致事故误报。4月11日中节点15的多阈值残差图如

图5 4月11日节点15残差图以及检测情况
Fig.5 Node 15 residual map and detection on 11 April
使用该Z-score多阈值方法识别22次爆管事故,一共检测出20起爆管,另误报1次,该方法的TPR=90.9%、FPR=1.7%、DA=99.5%。当识别变为发现超过一次阈值即认为发生爆管时,误报事故变为5次,TPR=20%,表明该方法能够快速有效地识别管网中的不同程度的漏损并避免误报。
提出了一种长时间序列的数据驱动的爆管检测算法,并使用Apulian管网模型检验。结论如下:
1)模拟结果表明Informer-Z-score方法的预测阶段MAPE为0.8%,远远超过其他RNN、ANN算法。在分类阶段,该方法的TPR=90.9%、FPR=1.7%、DA=99.5%,多种结果表明该方法具有良好地爆管检测功能。
2)目前该方法能够及时识别管网模型中的爆管事故,并且长序列的用水数据预测能够为供水公司提供压力管理以及管网运行参考。如预测长时间序列的压力数据时,当观测实际管网压力过高时,可以及时进行管网的压力管理,预防爆管发生。
3)下一步将该算法应用于实际中的给水管网爆管识别,对该方法的实用性能做进一步的探究。
参考文献
Shortridge J E, Guikema S D. Public health and pipe breaks in water distribution systems: Analysis with Internet search volume as a proxy[J]. Water Research, 2014, 53: 26-34. [百度学术]
Chen J D, Boccelli D L. Forecasting hourly water demands with seasonal autoregressive models for real-time application[J]. Water Resources Research, 2018, 54(2): 879-894. [百度学术]
Wu Y P, Liu S M. A review of data-driven approaches for burst detection in water distribution systems[J]. Urban Water Journal, 2017, 14(9): 972-983. [百度学术]
Wang X T, Guo G C, Liu S M, et al. Burst detection in district metering areas using deep learning method[J]. Journal of Water Resources Planning and Management, 2020, 146(6): 04020031. [百度学术]
Mounce S R, Day A J, Wood A S, et al. A neural network approach to burst detection[J]. Water Science and Technology, 2002, 45(4/5): 237-246. [百度学术]
Romano M, Kapelan Z, Savić D A. Automated detection of pipe bursts and other events in water distribution systems[J]. Journal of Water Resources Planning and Management, 2014, 140(4): 457-467. [百度学术]
Aksela K, Aksela M, Vahala R. Leakage detection in a real distribution network using a SOM[J]. Urban Water Journal, 2009, 6(4): 279-289. [百度学术]
LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. [百度学术]
Guo G C, Liu S M, Wu Y P, et al. Short-term water demand forecast based on deep learning method[J]. Journal of Water Resources Planning and Management, 2018, 144(12): 04018076. [百度学术]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[EB/OL]. (2017-12-06)[2021-08-10]. https://arxiv.org/abs/1706.03762. [百度学术]
Zhou H Y, Zhang S H, Peng J Q, et al. Informer: beyond efficient transformer for long sequence time-series forecasting[EB/OL]. (2021-03-28)[2021-08-10]. https://arxiv.org/abs/2012.07436. [百度学术]
McBean E A. Failure mechanisms and monitoring methodologies pertinent for detection of exposure risks in water distribution networks[C]//Security of Water Supply Systems: from Source to Tap, 2006, 8:9-17. DOI:10.1007/1-4020-4564-6_2. [百度学术]
Palau C V, Arregui F J, Carlos M. Burst detection in water networks using principal component analysis[J]. Journal of Water Resources Planning and Management, 2012, 138(1): 47-54. [百度学术]
Vaghefi M, Mahmoodi K, Akbari M. A comparison among data mining algorithms for outlier detection using flow pattern experiments[J]. Scientia Iranica, 2018, 25(2): 590-605. [百度学术]
Klise K A, Bynum M, Moriarty D, et al. A software framework for assessing the resilience of drinking water systems to disasters with an example earthquake case study[J]. Environmental Modelling & Software, 2017, 95: 420-431. [百度学术]
Jung D, Kang D, Liu J, et al. Improving the rapidity of responses to pipe burst in water distribution systems: a comparison of statistical process control methods[J]. Journal of Hydroinformatics, 2015, 17(2): 307-328. [百度学术]