DCS故障分析及技术措施--控制网



DCS故障分析及技术措施
企业:控制网 日期:2011-02-25
领域:DCS 点击数:1263

    (浙江浙能镇海发电有限责任公司,浙江 宁波 315208) 崔振武,丁永君
                               
    崔振武(1967-)男,浙江宁波人,技师,从事热工自动化工作。

    摘要:本文对镇海电厂分散控制系统(简称DCS)运行中发生的DCS软、硬件故障进行了归类分析,交流了这些故障的处理方法。为减少因控制系统故障引起的机组跳闸次数,本文从提高热工自动化系统的可靠性着手,提出了一些防范措施,供同行参考。

    关键词:DCS;故障;分析;技术措施

    Abstract: The paper analyzes in detail the failures which have occurred in the DCS of Zhenhai Power Plant, which mainly includes the primary controller and module failures, server failures, network failures of software control and other factors, and present the treatment options to the failures. For reliability of the DCS, we also give some technical measures to prevent similar accidents.

    Key words: DCS; fault; analysis; technical measures

    1 概述

    镇海电厂#3~#6 215MW机组从1998年开始进行自动化改造,选用国产的DCS系统,2007年起各台机组陆续进行升级改造,目前已完成三台机组的升级工作。镇海电厂DCS的网络结构由上到下分为监控网络、系统网络和控制网络三个层次,如图1所示。其中监控网络中的工程师站、操作员站、高级计算站等和系统网络中的现场控制站通过系统服务器实现互连;控制网络由Prof iBus-DP构成,实现现场控制站与过程I/O单元的通讯。该系统可由多组服务器组成,由此可将系统划分为多个域。镇海电厂215MW机组的DCS均划分为两个域,即主机域和辅机域。每个域由独立的服务器、系统网络和多个现场控制站组成,域内的数据单独组态和管理,完成相对独立的采集和控制功能;两个域共享监控网络和工程师站,操作员站等则通过域名登录到不同的域进行操作。
                        
                                        图1  镇电DCS网络结构图
    镇海电厂DCS系统在升级改造前故障率相对较高,经过对历年来故障统计的分析,主要故障有主控制器故障、I/O模件故障、服务器故障、控制网络故障和其它因素等引起,以2006年度为例,#3~#6机组共发生DCS相关故障39起,其中主控制器故障13起,模件故障8起,占故障总数的53.8%,因此控制系统故障是热工系统故障的主要因素,其分类统计情况,如图2所示。
                         
                                   图2  控制系统故障的分类统计情况
    2 DCS故障现象及其分析

    根据上述DCS系统所发生的主要故障发生类型,下面对镇海电厂近年来应用DCS过程中比较典型的软、硬件故障进行分析。

    2.1 主控制器故障

    主控制器故障在镇海电厂DCS故障中占有较大比例,而且引起主控制器故障的原因也各不相同,部分故障在单纯复位或重新启动后能够恢复正常,部分故障则对机组运行产生了严重影响。

    (1)异常控制器不能自动切换

    2009年8月31日,现场检查时发现#5机#11I/O站和#26I/O站主控器故障,均为A主控故障灯闪亮,双机冗余通讯灯不亮,B主控备用。从工程师站上查看,主控制器显示A主控为主,B主控备用,状态显示正常;查阅DCS历史记录,无相关故障记录;相关I/O站内各参数采集、控制设备动作均正常。经分析,认为主控制器当前仍正常运行,但双机冗余的同步性存在问题,如果这时发生主控切换将会出现较大扰动。而在这之前异常控制器不能冗余切换故障已发生过多次,如#3炉DCS系统曾发生一次风压自动调节偏差大于360Pa时,运行人员手动干预操作送风机勺管调节执行机构无效,急忙至就地进行手操。热工通过工程师站,检查对应的#12I/O站,发现A主控离线,B主控备用,在I/O站上查看A主控系统灯1和系统灯2均不亮,故障灯未亮,表明该主控已失去与系统网的数据交流,但主控未实现冗余切换。另#3炉#23I/O站也曾发生过A主控故障离线,故障灯与双机冗余数据交换灯均不亮,主控制器未自动切换。这些故障案例表明,MACS系统主控制器冗余切换功能不完善,某种故障状态下该功能失效。

    (2)散热风扇故障导致主控制器故障

    主控制器内的散热风扇如果故障,将使主控制器故障率大大增加。自2005年以来,镇海电厂统计的因主控制器内散热风扇异常导致的主控制器故障共计13次(这类故障的主控制器内散热风扇均有一个或几个运转不正常或完全不运转,一般在更换散热风扇后仍能恢复正常运行)。

    (3)电子室环境对主控制器的影响

    电子室内的温、湿度对主控制器有一定影响,特别对于需要强制散热的主控制器影响更大。温、湿度过高不一定使主控制器立即发生故障,但长期处于这种环境下必定会使主控制器故障率增高,而且从我们的统计来看,湿度的影响比温度的影响更大。
根据2005年以来的统计,每年3~6月份的主控制器故障次数约占到全年总数的1/3到一半多,这段时期正值南方湿热的雨季,中央空调往往会补充大量的新风,电子室内湿度会有所增大。这种情况下发生的主控制器异常,一般均通过复位或重新启动后可以恢复,只有个别需要更换新的主控制器。

    2.2 模件故障

    与主控制器故障相比,模件故障相对容易解决,一般通过模件复位和更换模件就能恢复正常。但有些故障由于受其它因素影响,比较特别。

    (1)外部干扰引起I/O模件离线

    2007年1月,#5机组按计划转入小修。停机过程中,运行人员投微油点火装置助燃,不久发生用于微油燃烧器壁温测量的热电偶测量模件故障,微油燃烧器壁温显示无效。热工人员对模件复位后恢复正常。之后在小修和开机过程中多次发生该模件故障,均能够通过复位得以解决,期间也更换过模件,但故障依旧。机组复役后该模件运行稳定,直至3月4日再次发生该模件故障。经现场检查,接入该模件的二支热电偶元件安装位置与微油点火枪距离过近,当微油点火枪点火时高能电磁干扰通过电缆串入模件中,造成模件离线,并在试验后得到确认。在调整热电偶与点火枪的安装位置后,此故障排除。

    (2)单一通道的故障

    模件故障有硬性和软性二种,需通过更换模件来解决的我们称之为硬性故障,而通过对模件进行复位可以解决的故障,我们称之为软故障,这种故障也有可能只反映在其中的某一个通道上,可以通过实际测量来判定。如2007年1月15日,#5机化补水调节阀不能开启,无论DCS中给出的指令是多少,现场测量电流值始终为4mA。之后对该模件进行复位后控制恢复正常。另有一次#4炉定排疏水电动门开启且无法关闭。现场检查对应的开关量输出模件,第一通道输出为“1”(对应该电动门的开指令),而DCS中查看该通道的状态为“0”,更换模件无效,对主控制器进行下装后控制恢复正常。

    2.3 服务器故障

    镇海电厂DCS的监控网络和系统网络通过服务器实现互连,因此服务器故障将使处在上层监控网络操作员站失去对下层系统网络中的运行参数和控制设备的监视和控制,给机组的安全稳定运行造成严重的影响。2007年6月11日,#6机主机域主服务器故障,服务器未能自动切换,所有操作站上参数失效,控制失灵,运行人员依靠DEH和后备仪表维持机组运行。热工人员在手动切换到B服务器后DCS恢复运行,但从系统状态图中查看A服务器连接系统网的下层网络仍然处于故障状态,本地网络没有连接,重新启动服务器后网络连接恢复。之后#6机又多次发生同类故障,检查服务器主机及网卡均未发现异常,也更换过服务器,但至今原因不明。目前采取定期切换、重启服务器的方法,有一定效果。

    2.4 控制网络故障

    一般来说,DCS网络故障多发生在网络设备如交换机、光端机的故障,往往在更换硬件后故障现象能得到解决。2007年1月29日,#3机一台交换机故障导致监控网B网离线;之前#3机一台交换机死机,导致系统网A网离线; #5机一台光端机故障,导致#30站远程I/O站离线;这些故障均在复位或更换网络设备后恢复正常。

    由于DCS的控制网络连接主控制器和过程I/O模件,控制网络故障对系统的影响范围较大,往往是一段链路中的多个模件同时离线,其原因具有多样性:

    (1)网线连接配件故障

    2007年2月5日,#3机组正常运行,#20I/O站内多个参数显示无效,控制设备操作失灵。现场检查,#20I/O站A主控运行,B主控备用,A列模件运行正常,B列、C列模件均离线。在做好必要的安全措施后切换主控制器,则B列、C列模件大部分恢复运行,个别仍有间歇性离线,而A列模件则都出现间歇性离线,间隔时间在几秒到几分钟不等。查明的原因是B主控控制网的DP线插头故障(DP插头内部配有终端电阻,是否使用可选择),导致链路中断或阻抗不匹配,更换DP插头后恢复正常。之后类似故障#3机还发生过两次,均在更换DP头后得以恢复,于是在机组检修期间,我们对所有同类型的DP插头进行了更换。

    (2)DP总线“虚接”

    镇海电厂DCS远程I/O站的控制网络采用底座串接的方式扩展I/O模块,这种连接方式灵活度高,便于分散连接,但同时存在DP通信的故障点多,通信总线的特性阻抗不稳定等缺点。
2006年4月,#4机组发电机温度测量远程柜自第二个模块以下全部离线,在按压或触碰这几个模件后则能够恢复,之后多次发生类似故障,基本以同样方式解决。经分析,这类故障原因是因为垂直安装的模块底座受机械振动引起触点松动和现场环境不佳如湿热等将引起触点氧化,会造成DP总线的“虚接”,特性阻抗不匹配。这类故障在安装于现场的远程I/O柜发生较多,而安装于电子室内的I/O站则基本未发生。#4机发电机温度柜在机组检修时更换了所有底座并重新安装后,这类情况有了较大好转。

    (3)故障模件对DP总线的影响

    一段DP总线上几个模件的通讯接口故障时,可能会引起一段DP链路上的所有模块离线。如#4机给泵温度远程I/O柜内曾发生多个模件频繁离线,离线间隔时间短则几秒钟,长则几分钟甚至更长,DP总线无虚接现象。采取下装主控、更换模件等手段均无效。在插拔模件的过程中,当拔到某一个模件则DP链路恢复正常,再插回则又有模件开始离线,因此判断是模件故障引起整个一段DP链路上模件离线。通过逐一排除的方法共查到有一块模件故障,事后拆开模件肉眼能看到有电容元件不同程度爆裂的迹象。

    模件故障影响一段DP总线上模件离线的故障点较难判断,离线的不一定是故障模件,故障模件也不一定会离线,但没有好的测试手段,只能用逐一排除法来进行故障点的判断,在机组运行时有一定的难度和风险。但这种总线故障在只有一个模件故障时不会出现,而且模件内的故障点能用肉眼观察到,因此机组检修时可以对模件拆开检查,能起到很好的预防效果。

    2.5 其它因素引起的故障

    (1)GPS时钟对DCS的影响

    镇海电厂DCS的系统时钟是由服务器通过与GPS电子钟通讯进行校时的。2006年9月17日,#4机组正常运行时发生DCS操作员站均离线退出运行,主机域和辅机域两个冗余服务器中的主服务器均离线退出运行,工程师站离线退出运行,主机域和辅机域的冗余服务器自动切换成功。正在现场的热工人员立即启动工程师站,运行人员通过工程师站维持机组运行。经现场分析,由于GPS电子钟故障,DCS系统时钟被错误地校成了2178年,而因此造成操作员站离线则应是系统程序的bug。在恢复系统时钟后,逐一启动操作员站和服务器,DCS恢复正常运行。

    (2)控制系统逻辑不完善

    控制逻辑组态的不完善,很难通过正常的试验发现,正常运行中也不会有问题,但在某种特定条件下会影响到机组安全稳定运行,甚至联锁保护误动。如#5机组215MW满负荷运行,甲给水泵运行,乙给水泵备用时,甲泵前置泵流量超限报警(超量程上限800t/h),随后甲泵再循环调节阀自动开启,给泵出口压力低报警,汽包水位低至-120mm。经检查设主给水最大设计流量为680t/h,前置泵流量变送器量程设置为0~800t/h。DCS组态中,前置泵流量的判断使用“幅值报警”模块来实现,该模块低报警、低低报警值均设置为200,高报警、高高报警值则均设置为800,当前置泵流量前置泵流量小于200t/h(给水泵小流量保护)或超过800t/h时,均联锁开启给泵再循环调节阀。这种组态没有考虑极端情况,后改为“比较器”模块,只发出单一判断信号。

    (3)维护措施不当

    不适当地使用超级权限,可能会导致控制器逻辑运算错误。如#3机组曾因RB逻辑不完善,热工技术人员使用超级用户权限在线修改定时器类型时,定时器输出变位而触发机组RB保护动作。实际上超级用户权限是DCS厂家限制使用的权限,有其不确定性,在安全措施不完善的情况下极易引发事故,因此其使用要非常慎重。

    3 提高DCS可靠性的技术措施

    随着DCS在火电厂中的广泛应用,其在机组安全稳定运行中所占据的主导地位愈加突出。由于DCS设备软硬件的可靠性、控制逻辑的完善和合理性、热工人员维护和检修水平等诸多因素的影响,使机组误跳闸事件仍时有发生。因此进行有效的技术管理和正确的检修维护,保持火电机组DCS的稳定、可靠运行也就日渐成为热工人员日常管理、维护的重点。为此笔者结合上述案例分析,从提高控制系统可靠性着手,提出一些防范措施供检修维护中参考:

    (1)对DCS设备和检修维护实行全过程管理,尽早发现缺陷并及时处理。完善DCS自诊断和故障报警功能,对DCS运行状况的实时监控不仅要监视主控制器的状态,还要监视主控制器网络的状态。

    (2)制定合理的定期维护制度,详细规定检查维护的内容、方法和周期,并对检查结果进行分析,采取针对性的预防措施。镇海电厂自从试行这项制度以来,有效地控制了DCS故障的发生。

    (3)制订DCS应急预案和典型故障处理方案,防止因维护不当引起的DCS故障。

    (4)选用品质较好的备品配件,如主控制器的散热风扇、DP插头等,对于易损部件实行定期更换。

    (5)对电子室的环境温度进行远程监测,接入DCS显示,实时掌握电子室环境温度的变化。使用中央空调的电子室还应注意湿度的控制,如有必要应增装独立的空调或除湿装置。

    (6)检修时对模件电路板外观进行检查,能起到很好的预防效果。

    (7)深入了解DCS软件性能,采取合理的组态方法防止极端工况下的误动;禁止使用“超级用户”等不规范的手段进行软件修改。

    其他作者:丁永君(1968-),男,浙江宁波人,高级工程师,从事热工自动化工作。

    参考文献:

    [1] 孙长生. 浙江省火电厂2007年热控系统考核故障原因分析及技术措施[J].北京: 中国电力, 2008, 5.

    [2] MACSTM组态手册[M].

    摘自《自动化博览》2010年第八期  

  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: