区域计算机联锁是在安全传输技术的条件下结合网络化,智能化,集成化技术而发展起来的信号控制系统[1]。它将整个控制区域视为一个车站,即将区间信号的控制纳入到车站联锁的控制范围,实现控制区域内信号设备集中操作,集中控制,从而达到减员增效,降低运营成本的目的。随着铁路技术的发展,区域计算机联锁必将成为今后铁路发展的主流。但也存在一系列的问题,如一旦主控站联锁设备故障将会造成整个控制区域瘫痪,影响范围较大,因此有必要对其可靠性进行研究。区域计算机联锁属于典型的动态冗余系统,国内对动态系统的研究大多采用动态故障树(DFT, dynamic fault tree)和Markov模型,如文献[2-3]采用DFT分析了计算机联锁系统的可靠性和安全性,但在确定最小割集以及构建结构函数等方面算法复杂、容易出错,而且Kwok[4]认为最小割集的求解是通过截断的近似方法得到的,从而不可避免地高估或低估所求概率;文献[5]利用DFT的近似算法分析了区域计算机联锁系统的安全性,并与Markov模型分析结果对比验证了其可行性,但该方法只适用于低失效率的系统分析,不具有普适性;文献[6-7]采用静态贝叶斯网络(BN, bayesian network)对系统进行可靠性分析时,忽略了动态冗余和可维修对系统可靠性的影响。
近年来发展起来的动态贝叶斯网络(DBN, dynamic bayesian network)技术为分析动态冗余系统的可靠性提出了一种新的方法。这种技术不仅延续了故障树的状态表示和推理方式,而且可以研究不定性和不完整性事件,它以概率推理为基础,并综合考虑动态冗余、共因故障以及可修复等问题,计算简便,特别适用于描述具有时间属性的动态系统。基于贝叶斯网络的双向推理特性,它能在不需要求解系统最小割集的情况下直接求出顶事件的发生概率,并能通过顶事件的发生概率逆向推导出基本事件的后验概率,从而能够找到系统的薄弱环节,为系统的维修维护提供依据。
通过对区域计算机联锁结构进行分析,探讨了其故障失效形式,并在此基础上构建了系统的DFT模型,结合DFT向DBN转换的规则,得到系统的DBN,从而利用DBN对区域联锁系统进行可靠性分析,并得出符合区域计算机联锁系统可靠性要求且又经济的联锁单元冗余数量。
1 区域计算机联锁系统 1.1 区域计算机联锁系统结构设计随着中国铁路的迅速发展,特别是高速铁路网的建设,由于客专性及高时速的特点,其联控方案一直是高速铁路信号控制系统的关键和重点,根据国外铁路信号控制系统的实践经验,采用区域计算机联锁系统更能充分满足客专的运营要求,这为区域联锁的发展提供了契机。按控制方式不同,可将区域联锁划分为集中控制和分散控制。前者要求只在主控站设置联锁设备,各从控站只设置执行设备,实现区域内信号设备集中操作、集中控制,可有效削减设备维护人员和减少设备的投资,但一旦主控站联锁设备故障将会影响整个区域内的行车作业,严重影响行车效率;后者是在主控站和从控站均设置联锁设备,实现区域内信号设备集中操作、分散控制,可有效克服前者的不足,当主控站联锁设备故障时可将控制权下放到各个车站,由各个车站的联锁设备控制本站区域行车作业,不会影响效率,但由于联锁设备的设置数量增多会显著增加投资成本,且不便于设备的维修维护。结合以上2种方案的优点,采取一种折中的方案,即在主控站设置联锁设备的基础上,在各从控站中选取其中一站(或更多)分别设置联锁设备,综合考虑系统的可靠性、维修性和经济性等因素,从而选择适宜的联锁设备冗余数量。结合现场实际情况,不失一般性,选取3个站作为一个控制区域。正常情况下,由主控站的联锁设备负责区域内的联锁逻辑运算,各从控站的联锁设备仅与主控站进行通信保持同步,当主控站的联锁设备故障时可由从控站的联锁设备接替其工作,控制权下放给相应的从控站,从而保证整个区域内的行车效率。
1.2 区域计算机联锁系统可靠性评价指标区域计算机联锁系统是实现区域内集中操作的设备,属于典型的安全苛求系统。作为可维修系统,通常用失效率λ,可靠度R,维修率μ,平均故障间隔时间MTBF,平均危险侧故障间隔时间MTBFAS,平均修复时间MTTR和可用度A等指标表征联锁系统的可靠性,其指标应能满足计算机联锁系统的功能需求[8],如表 1所示。假设联锁设备的寿命和维修均服从指数分布,则MTBF=1/λ,MTBFAS=1/λσ (λσ为危险侧失效率),MTTR=1/μ,A=μ/μ+λ,则不可用度为U=1-A。
静态贝叶斯网络(BN)作为一种有向无环图,在表达不确定知识和推理方面应用较为广泛。其中,有向弧表达了节点之间的连接关系,并通过条件概率表(CPT, conditional probability table)来表示各个节点之间的相关概率[9]。假设BN为A=(X1, X2, …, Xn),由链式法则可知其联合概率可以表示为
$ P(A) = P\left( {{X_1}, {X_2}, {X_n}} \right) = \prod\limits_{i = 1}^n P \left( {{X_i}|pa\left( {{X_i}} \right)} \right), $ | (1) |
式中:pa(Xi)是节点Xi的父节点。
在BN中加入时间因素,便构成了DBN,它是原网络在时间轴上的扩展,可以表示为(B0, B→),其中B0表示初始网络,B→表示带有时间片段的网络,片段间的有向边可以描述系统的动态失效问题,反映出系统的可靠度随时间的变化关系。时间片段可以无限扩展,只讨论具有2个时间片段的DBN,其相邻时间片段之间的条件概率表示如下
$ P\left( {{X_t}|{X_{t - 1}}} \right) = \prod\limits_{i = 1}^n P \left( {{X_{t, i}}|\mathit{pa}\left( {{X_{t, i}}} \right)} \right), $ | (2) |
式中:Xt, Xt-1分别为t, t-1时刻的节点变量,Xt, i为t时刻第i个节点。
2.2 DFT向DBN的转换结构分析DFT是分析动态复杂系统可靠性的有力工具,特别适用于对冗余管理,功能相关和有时序关系的系统故障分析,但存在最小割集求解时计算复杂而影响运算效率的问题,且基于DFT的底事件重要度分析困难。当前,DBN已成为解决DFT的主流方法。在构建系统故障模型DFT的基础上,根据DFT向DBN转换的规则[10-11],构建相应的DBN模型,从而分析系统的可靠度以及薄弱环节等其他内容。研究用到的静态逻辑门有与门和或门,动态逻辑门有优先与门,故只对这3种逻辑门进行转换分析。
2.2.1 与/或逻辑门的转换故障树中,通过与门/或门将有关的底事件连接起来,二者对应的DBN结构可以有相同的表示,但对应的CPT不同。由于在研究中只关注转移网络的输出Y而不考虑初始网络的输出,故其转换后的DBN简易模型如图 1所示。
根据DBN的原理需要确定相邻时间片之间的条件概率,假设相邻时间片的时间间隔为Δt,0和1分别表示节点代表的状态未发生和发生,各节点的寿命和维修均服从指数分布且假设为λ和μ,则各节点的条件概率:
对于与门对应的DBN模型,以A节点为例,其相邻时间片之间的状态转移关系为
$ \left\{ {\begin{array}{*{20}{l}} {P(A(t + \Delta t) = 0|A(t) = 0) = {e^{ - \lambda \Delta t}}, }\\ {P(A(t + \Delta t) = 1|A(t) = 0) = 1 - {e^{ - \lambda \Delta t}}, }\\ {P(A(t + \Delta t) = 0|A(t) = 1) = {e^{ - \mu \Delta t}}, }\\ {P(A(t + \Delta t) = 1|A(t) = 1) = 1 - {e^{ - \mu \Delta t}}, }\\ {P(Y = 1|A(t + \Delta t) = 1, B(t + \Delta t) = 1) = 1, }\\ {P(Y = 1|{\rm{ else }}) = 0, } \end{array}} \right. $ | (3) |
同理,对于或门对应的DBN模型,其节点A和B在相邻时间片上的状态转移概率分布同与门,节点Y的条件概率为
$ \left\{ {\begin{array}{*{20}{l}} {P(Y = 1|A(t + \Delta t) = 0, B(t + \Delta t) = 0) = 0, }\\ {P(Y = 1|{\rm{ else }}) = 1。} \end{array}} \right. $ | (4) |
优先与门是指底事件按照指定的优先级发生时输出才发生,转换示意图如图 2所示,由发生顺序可知,t+Δt时刻的B节点与t时刻的A节点和B节点都有关。其中A节点的条件概率分布同上,B节点和Y节点的条件概率分布如式(5)所示。
$ \left\{ {\begin{array}{*{20}{l}} {P(B(t + \Delta t) = 1|A(t) = 0, B(t) = 0) = 0, }\\ {P(B(t + \Delta t) = 1|A(t) = 1, B(t) = 0) = 1 - {e^{ - \lambda \Delta t}}, }\\ {P(B(t + \Delta t) = 1|B(t) = 1) = 1 - {e^{ - \mu \Delta t}}, }\\ {P(Y = 1|A(t + \Delta t) = 1, B(t + \Delta t) = 1) = 1。} \end{array}} \right. $ | (5) |
根据DFT向DBN转换的关系,采用微软开发的MSBNX软件构建系统的DBN模型,并利用其特有的双向推理特性,对系统进行可靠度预测和薄弱环节分析。
故障树顶事件发生概率的求解通常是采用模块化的思想,即动态子树常采用Markov过程求解,然而对于复杂系统,其底事件往往众多,因而会存在计算复杂和空间爆炸的问题;静态子树的求解通常利用最小割集,但最小割集的获得是一个NP困难问题。而利用DBN并借助公式(6)可以很容易地求得任意时刻顶事件的发生概率
$ P(t) = P\left( {Y = 1|E_0^1, E_0^2, E_0^n} \right), $ | (6) |
式中:E0i∈{0, 1}为0时刻根节点Ei所处的状态。
3 基于DBN的区域计算机联锁系统可靠性分析共因故障(CCF, common cause fault)是指系统由于相同原因导致2个或2个以上部件同时故障,进而使系统丧失规定功能。区域联锁系统是复杂系统,且对可靠性要求较高,因此在对该系统进行可靠性分析时,共因故障是不能忽视的因素。目前共因故障有多种建模形式,如α因子模型[12]、β因子模型[13]和基本参数模型[14]等。笔者选择β因子模型对系统进行共因故障分析,它将每个单元的故障分为共因故障(λc)和独立故障(λi)2种形式,计算公式如式(7)所示,对于硬件故障β一般取0.1%~10%[15]
$ \beta = \frac{{{\lambda ^c}}}{{{\lambda ^c} + {\lambda ^i}}}。$ | (7) |
目前计算机联锁设备常用的冗余制式有双机热备、三取二和二乘二取二。为便于分析,特给出以下定义:将联锁机经以上冗余制式构成的系统称为联锁单元,由一套或多套联锁单元构成联锁系统。
联锁系统是整个区域控制的核心,为保证系统的高可靠性,在每一联锁机内均安装有自诊断程序,实时地监测系统的安全运行,在此基础上将系统能够检测出的故障视为安全故障,未能检测出的故障视为危险故障。然后综合考虑系统可维修以及共因故障,在深刻理解联锁系统结构的基础上,从系统故障安全和危险输出的角度出发,将联锁单元故障分为共因可测故障(CCD, common cause detected)、共因不可测故障(CCU, common cause undetected)、一般可测故障(GDF, general detected fault)和一般不可测故障(GUF, general undetected fault),4种故障形式。
假定从控站联锁单元在未接入系统时不会发生单独故障。结合故障树的建立方法构建区域两联锁单元和三联锁单元的DFT模型,如图 3和图 4所示,其中模块0、1和2是两联锁单元和三联锁单元的共有部分。
以双机热备、三取二和二乘二取二3种冗余制式为例,分别分析区域计算机联锁系统的可靠性,其故障率计算参考文献[16]。根据上述DFT向DBN转换的规则,利用MSBNX软件将图 3和图 4所示的区域两联锁单元和三联锁单元动态故障树转换为相应的动态贝叶斯网络模型,如图 5和图 6所示。
假设单个联锁机的故障率相同,且均为λ0=1×10-5/h,故障检测因子为c=0.99,平均修复时间取8 h,则维修率为μ0=0.125/h。切换开关的失效率为λ1=1×10-3/h,两联锁单元的共因故障因子取β1=10%,三联锁单元的共因故障因子取β2=7.5%。综合考虑共因故障和可维修,取Δt=1 h,根据式(6)并利用MSBNX软件可以求出3种冗余制式中两联锁单元和三联锁单元的故障率(图 5和图 6分别为三取二冗余制式中两联锁单元和三联锁单元故障率的求解过程)。为更加直观地比较不同冗余制式、不等数量的联锁单元构成的系统可靠度的变化趋势,利用Matlab得出了3种冗余制式的系统可靠度随时间变化的对比图,如图 7~图 9所示。
由图 7~9可知,当系统运行10 000 h时,3种冗余制式中单套联锁单元的可靠度均明显低于两联锁单元和三联锁单元,且三联锁单元较两联锁单元的可靠度增加较少。相应的可靠度指标如表 2所示。对于单套联锁单元,系统的平均危险侧故障间隔时间MTBFAS < 1011h,系统的安全性能有待改进,一旦联锁系统故障将会造成整个控制区域瘫痪;两联锁单元和三联锁单元均满足系统可靠度指标要求且属于同一个数量级,由此可知三联锁单元对系统可靠度的提高贡献较小,且会增加投资成本造成不必要的浪费。
可用性作为系统性能的重要指标,综合考虑了系统的故障率和维修率。在分析系统的可用度时,笔者创造性地以系统各状态的可用度为依据,根据DBN的推理特性,并结合可用度的计算公式可求得系统的可用度,如表 2所示。由计算结果可知,3种系统均满足表 1中指标需求,就可用性而言,不论何种制式的冗余,两联锁单元的可用度均明显高于单套联锁单元,且两联锁单元和三联锁单元的可用度基本相等。
通过以上研究分析,并综合考虑可靠度、可用度和经济性等因素,可知两联锁单元是实现区域联锁系统的较佳方式。
3.4 区域计算机联锁系统的薄弱环节分析由于篇幅有限,以二乘二取二冗余制式的两联锁单元为例,综合考虑共因故障和可维修等因素对系统进行薄弱环节(状态)分析。通过DBN的诊断推理,即假定顶事件发生的条件下,可得到各故障状态发生的概率,计算结果如表 3所示。由此可知,系统共因可测故障(E1)发生的概率最大,其次为共因不可测故障(E6),表 4给出了3种冗余制式中两联锁单元考虑CCF和未考虑CCF时的系统故障率对比。由表 4可知,CCF会极大地影响系统故障率的计算结果,若忽略CCF,计算结果偏于乐观,失去可信性。因此,在日常的维修、维护中要重点加强对系统共因故障的防护。
时间复杂度作为将算法执行时间简化为一个数量级的量度,是衡量算法优劣的重要指标之一。为便于比较提出的基于DBN的系统可靠性分析方法的有效性,以BN和文献[2]提出的基于DFT的系统可靠性分析为例,分别对二乘二取二冗余制式的两联锁单元进行分析,当系统运行10 000 h时计算结果如表 5所示。其中m表示事件总数,P表示底事件个数。
由表 5可知,BN和DFT所求可靠度指标较DBN均偏低,这是因为利用BN求解系统可靠度时未考虑可维修因素;而利用DFT则忽略了系统的共因故障和可维修,二者在求解系统可靠度时进行了一定程度的抵消,因而所求结果较BN偏高,存在一定的偶然性,且计算较为复杂(NP困难,即多项式复杂程度的非确定性问题);而DBN可综合考虑系统的共因故障和可维修,且计算较为简便,非常适合于对具有动态属性的系统可靠性分析。
4 结论通过分析区域计算机联锁系统的结构与功能,结合集中控制与分散控制的优点,采取了一种新的联锁方案,即在主控站和其中之一的从控站均设置联锁设备,并通过仿真验证了该方案的可行性。综合考虑共因故障和可维修对系统可靠性的影响,通过利用DBN对该设计系统的可靠性进行了分析,得出以下结论主要有:1)综合考虑系统的可靠度、可用度和经济性等因素,得出两联锁单元是实现区域联锁系统的较佳方式;2)利用DBN的诊断推理对区域计算机两联锁单元进行分析,得出共因故障是系统故障的主要原因,应重点加强对系统共因故障的防护;3)基于DBN的系统可靠性分析在计算准确度和时间复杂度方面较BN和DFT方法均有明显优势,为分析动态冗余系统的可靠性提供了一种新的思路。
[1] |
陈璐, 杨雪峰, 张正光. MCIS模块化区域计算机联锁控制系统的设计与实现[J]. 铁道标准设计, 2012(11): 107-110. CHEN Lu, YANG Xuefeng, ZHANG Zhengguang. Design and implementation of MCIS modularized regional computer interlocking control system[J]. Railway Standard Design, 2012(11): 107-110. (in Chinese) |
[2] |
冯雪, 王喜富. 基于动态故障树的计算机联锁系统可靠性及性能分析研究[J]. 铁道学报, 2011, 33(12): 78-82. FENG Xue, WANG Xifu. Analysis on reliability and performance of computer-based interlocking system with the dynamic fault tree method[J]. Journal of the China Railway Society, 2011, 33(12): 78-82. (in Chinese) DOI:10.3969/j.issn.1001-8360.2011.12.013 |
[3] |
张文瀛.铁路车站远程集中控制系统可靠性及安全性研究[D].北京: 北京交通大学, 2013. ZHANG Wenying. Reliability and safety analysis of remote centralized control system in railway stations[D]. Beijing: Beijing Jiaotong University, 2013.(in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-10004-1013278271.htm |
[4] |
Kwok Y K, Ahmad I. Efficient scheduling of arbitrary task graphs to multiprocessors using a parallel genetic algorithm[J]. Journal of Parallel and Distributed Computing, 1997, 47(1): 58-77. |
[5] |
苏宏升, 文俊. 区域计算机联锁系统安全性分析的动态故障树模型与方法研究[J]. 铁道学报, 2015, 37(3): 46-53. SU Hongsheng, WEN Jun. Research on modeling of dynamic fault tree in regional computer interlocking system safety analysis[J]. Journal of the China Railway Society, 2015, 37(3): 46-53. (in Chinese) DOI:10.3969/j.issn.1001-8360.2015.03.008 |
[6] |
古莹奎, 沈延军, 张全新, 等. 基于贝叶斯网络的多状态共因失效系统可靠性分析[J]. 机械设计与研究, 2018, 34(2): 1-4, 9. GU Yingkui, SHEN Yanjun, ZHANG Quanxin, et al. Multi-state common cause failure system reliability analysis based on Bayesian network[J]. Machine Design & Research, 2018, 34(2): 1-4, 9. (in Chinese) |
[7] |
王宇, 师蔚. 基于故障树-贝叶斯网络的受电弓系统可靠性评估[J]. 测控技术, 2017, 36(9): 131-134. WANG Yu, SHI Wei. Reliability evaluation of pantograph system based on fault tree-Bayesian network[J]. Measurement & Control Technology, 2017, 36(9): 131-134. (in Chinese) DOI:10.3969/j.issn.1000-8829.2017.09.031 |
[8] |
中国铁路通信信号总公司.计算机联锁技术条件TB/T 3027-2002[S/OL].北京: 中华人名共和国铁道部, 2002[2018-09-25].https://www.renrendoc.com/p-20771780.html China Railway Communication Signal Corporation. Computer interlocking technical conditions TB/T 3027-2002[S/OL]. Beijing: Ministry of Railways of the People's Republic of China, 2002[2018-09-25]. https://www.renrendoc.com/p-20771780.html (in Chinese) |
[9] |
周忠宝, 马超群, 周经伦, 等. 基于动态贝叶斯网络的动态故障树分析[J]. 系统工程理论与实践, 2008, 28(2): 35-42. ZHOU Zhongbao, MA Chaoqun, ZHOU Jinglun, et al. Dynamic fault tree analysis based on dynamic Bayesian networks[J]. Systems Engineering-Theory & Practice, 2008, 28(2): 35-42. (in Chinese) DOI:10.3321/j.issn:1000-6788.2008.02.005 |
[10] |
房丙午, 黄志球, 李勇, 等. 基于贝叶斯网络的复杂系统动态故障树定量分析方法[J]. 电子学报, 2016, 44(5): 1234-1239. FANG Bingwu, HUANG Zhiqiu, LI Yong, et al. Quantitative analysis method of dynamic fault tree of complex system using Bayesian network[J]. Acta Electronica Sinica, 2016, 44(5): 1234-1239. (in Chinese) DOI:10.3969/j.issn.0372-2112.2016.05.032 |
[11] |
李志强, 徐廷学, 顾钧元, 等. 基于动态贝叶斯网络的某控制单元可靠性分析[J]. 航空兵器, 2017(5): 83-88. LI Zhiqiang, XU Tingxue, GU Junyuan, et al. Reliability analysis of a control unit based on dynamic Bayesian network[J]. Aero Weaponry, 2017(5): 83-88. (in Chinese) |
[12] |
Zheng X Y, Yamaguchi A, Takata T. α-decomposition for estimating parameters in common cause failure modeling based on causal inference[J]. Reliability Engineering & System Safety, 2013, 116: 20-27. |
[13] |
Dusko K, Marko C. A new method for explicit modelling of single failure event within different common cause failure groups[J]. Reliability Engineering & System Safety, 2012, 103(3): 84-93. |
[14] |
Kang D I, Hwang M J, Han S H, et al. Approximate formulas for treating asymmetrical common cause failure events[J]. Nuclear Engineering and Design, 2009, 239(2): 346-352. |
[15] |
Borcsok J, Schaefer S, Ugljesa E. Estimation and evaluation of common cause failures[C/OL]. Second International Conference on Systems (ICONS'07), New York, USA: IEEE, 2007: (2007-05-07)[2018-09-28].https://ieeexplore.ieee.org/document/4196343
|
[16] |
杨晶.基于动态故障树的地铁综合监控系统可靠性分析方法[D].成都: 西南交通大学, 2009. YANG Jing. Study on subway main control system reliability evaluation method based on DFTA[D]. Chengdu: Southwest Jiaotong University, 2009. (in Chinese) http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CMFD&filename=2009217946.nh |