关键词:NETWORK-6000;DCS;故障;分析处理
周强(1969—) 男,浙江杭州人,工程师,从事热控自动化技术工作。现为钱清发电厂设备部热工主管,浙江省电力学会热工专业委员会委员。
钱清发电厂1号、2号机组分别于1999年和2002年投产,其中1号机组2001年进行了自动化改造,装机容量125MW+135MW。2台机组分散控制系统均选用英国EUROTHERM公司的NETWORK-6000,实现DAS(数据采集系统)、模拟量控制系统(MCS)、协调控制协调(CCS)、顺序控制协调(SCS)、炉膛安全监控系统(FSSS)和汽机跳闸保护系统(ETS)功能。考虑到现场设备比较分散,采用DCS+FCS控制方式。DCS采用C/S结构,整个系统由分散处理单元、I/O网络和I/O模件、系统网络、人机接口、控制网络组成。 DCS控制系统运行至今,总体情况较好。但在使用过程中也遇到了一些问题,随着控制系统使用时间的增加,部分电子设备开始老化性能衰退,控制器、网络、操作员站出现故障,对机组安全运行造成影响,及时正确处理这些故障至关重要。 1 故障现象和处理方法
1.1 控制器
NETWORK-6000控制器有3种类型:T103、T303、T940,它们应用场合不一样,见表1。
表1 控制器类型

控制器故障主要有2种现象:
(1)其中一个控制器退出同步,操作员站CRT上报警,显示“XX控制器退出同步”;
(2)冗余控制器均退出同步,则不仅CRT报警,而且该控制器对应的I/O点均显示“??”,运行人员不能了解设备运行状态和操作设备。
处理方法:手动按一下“primary”绿灯亮的主控T103的“force-synch”键或T940的“sync”键,强制另一个控制器同步运行。如果主从两个控制器均退出同步,不能手动同步时,则需对控制器进行下载,组态下载在工程师站上操作。控制器恢复正常后,报警会自动消失。
从长时间运行情况来看,T103和T303工作比较可靠,很少出问题,而T940的故障率就比较高。T940有多个版本,我们在使用中发现V3.4版本的稳定性明显要比V2.1、V3.1等版本要好,EUROTHERM公司新推出的T940X控制器综合性能、稳定性又有了很大提高。所以我们陆续升级了全厂T940的版本至V3.4,公用系统2对控制器采用T940X V4.6,完成升级后,T940控制器故障率大幅下降。
1.2 控制网络
主机DCS网络主要有两层:ALIN控制网和Ethernet系统网络,均为冗余配置。ALIN网用于连接DCS各个控制器和服务器,Ethernet网连接操作员站和服务器。两层网络功能不同,其中ALIN网很重要,ALIN网络的硬件设备是MODHUB交换机,它连接T103、T303、T940控制器和服务器,目的是将各个控制器与服务器内部的PCALIN卡进行数据传输,并通过服务器接受操作员站的指令。每台机组由2台48口和2台24口MODHUB交换机组成, 48口MODHUB主要连接锅炉侧和ETS(1#机组)、给泵等控制器,24口主要连接汽机侧(1#机组包括循泵等公用系统)控制器。
MODHUB交换机由机架和EXP-TPS模块组成。每个EXP-TPS有4个网络端口,可连接4个控制器。正常工作时,MODHUB机架右侧有4个指示灯,“Recon”灯不亮,其它3个指示灯常亮,同时连接控制器的EXP-TPS端口对应指示灯会常亮(工程师站的2块网卡连接至EXP-TPS端口的指示灯,在工程师站不工作时,指示灯不亮)。ALIN网由于其自身的特殊性,当某个网络模块端口发生故障时,不能完全隔离故障点,会影响整个ALIN网的数据传输,造成操作员站CRT部分显示数据为“??”,“网络故障”报警,影响运行人员对设备的监视和操作。我们在CRT画面上制作了ALIN网络诊断图,通过日常巡检来了解ALIN网络的工作情况,如图1所示。
从图中可以看到连接控制器的ALIN网络端口都有编号,正常情况下“MyRecon”应该是0,如果看到诊断图上某个端口“MyRecon”有大于0的数字或数字在不断增大,此时“Recon”列数字也不断增大,说明网络有故障。再观察MODHUB交换机EXP-TPS模块哪个端口指示灯在闪烁,闪烁表示该端口网络不稳定,不断重构网络通讯,不停地向网络发送大量数据包,造成网络负荷率大幅上升,影响其它控制器数据的正常传输。据此可判断是EXP-TPS网络模块故障引起,找到故障模块后马上更换,更换前应确认故障模块是安装在主控MODHUB交换机还是后备MODHUB交换机,如果是主控交换机则将故障模块对应的控制器切换至后备,然后更换。更换完成后,观察系统是否恢复正常,如果正常,将切换过的控制器恢复原来状态。如果网络不正常,一时又找不到故障点,CRT上数据出现大面积的“?”,应立即将主控与后备MODHUB交换机之间的一根连接线拔下,这样就不会影响连接至交换机上所有控制器的数据传输,只有少量T303数据不能传输,避免故障扩大,然后再查找故障点。
ALIN网络故障主要是EXP-TPS模块损坏引起,故障一般都有先兆,可以在网络诊断图上查看数字变化了解网络状况。如果网络故障不及时处理,会造成冗余控制器切换,严重时甚至造成冗余控制器均退出同步,后果很严重。所以平时要重视对网络诊断图、MODHUB交换机工作状况的检查,发现网络有不稳定现象及时处理。
Ethernet网络随着技术的不断发展,硬件设备可靠性大大提高,所以以太网出问题概率很小。2#机组曾遇到过2台DCS操作员站画面经常在操作过程中突然退出,重新安装应用软件仍无效,查找网上其它邻近计算机也时有时无,判断是其中一台以太网交换机不稳定,更换后系统恢复正常。以太网交换机具有端口故障隔离功能,所以端口故障不会影响整个网络。

图1 ALIN网络诊断图
结合现场实际情况,采用了现场总线技术,T940控制器与现场FCS机柜用光缆连接,通讯协议为Profibus-DP。出现通讯故障的主要原因是RJ45网络接头松动、接触不好,光纤跳线断裂,处理时根据CRT上报警提示,找到2500机架或光电转换器,重新制作RJ45网络接头、更换光纤跳线即可解决。
1.3 工控机
工控机是人机交互的一个重要设备,由于工控机长期连续运行,随着时间的推移,工控机发生故障的频率逐渐增加。工控机故障的表现主要是死机、无法启动、网络不通等现象。处理方法从软硬件两方面着手。
(1)对于死机、无法启动等现象,首先重启工控机,一般即可恢复正常。如果不能重启,检查硬盘是否完好,确认硬盘正常,说明是某些软件文件被破坏,需重新安装操作系统和应用软件。如果是硬盘损坏,则更换硬盘,重装软件。从使用情况看,硬盘的故障率最高。更换硬盘、重装软件比较花费时间,所以可以用RAID 1作为工控机的存储方式,当硬盘损坏时,更换新硬盘,RAID卡会自动将备份数据导入新硬盘,维护很方便。缺点是费用高,首次安装调试比较复杂。我们将重要设备改为这种存储方式,如DCS服务器,这样历史数据存储、调用速度和安全性得到很大提高。
(2)网络不通。重点检查网络设置和网卡。用“ipconfig”命令检查网络设置,如果网络设置正确,再检查网络接插件是否接触良好,用“ping”命令检查与邻居计算机的连接情况,如果不通,是网卡损坏,更换网卡。
(3)工控机不断重启,应该检查CPU散热风扇和底座。一般是散热风扇停运或风扇底座破裂,造成散热面与CPU之间有间隙,影响散热使CPU温度过高,引起工控机工作不稳定不断重启。找到故障点更换即可。
工控机的故障现象多种多样,根据缺陷统计分析,主要原因是散热不好、硬盘损坏引起,所以一定要定期更换工控机滤网,做好数据备份和备品备件工作。
2 故障处理注意事项
控制器不能手动同步时,可以将对应的24V电源插头拔下,断电数分钟后再上电,一般控制器能够恢复同步。如果手动和断电都不能使控制器恢复,则需对该控制器组态进行下载,可恢复同步。下载前,一定到对该控制器组态进行存盘,保存当前数据,然后再下载,避免运行设备误动。
如果控制器损坏,在换上新控制器前,需检查新控制器内存是否有文件,如有则清空所有文件,避免控制器内部残留的文件,与拷入后的组态文件发生冲突,造成控制器工作不正常。
ALIN网故障更换网络模块前,如果更换是主控MODHUB交换机模块,应将操作员站网络指向切换至后备服务器,手动切换控制器后,断开2台交换机连接线,再更换模块。这样做的目的是处理网络故障时,尽量减少更换网络模块对整个DCS网络的影响,确保运行人员仍能监视和操作设备。
平时要做好工控机数据备份工作,用ghost软件将C盘备份,拷贝刻录成光盘。当工控机硬盘故障时,换上新硬盘,再用ghost软件恢复光盘备份,可以节省大量时间,做到快速有效恢复系统。
3 建议
DCS控制器主要有3种,其中T940控制器稳定性相对较差,从解体T940来看,内部采用散热风扇,并在风扇上安装了不锈钢滤网。长时间使用会有大量灰尘堆积在滤网上,堵塞了滤网孔,造成散热不好,控制器温度升高,这也是T940控制器工作不稳定的一个重要因素。所以定期清理不锈钢滤网很重要,方法很简单,用一把1寸左右的毛刷对控制器顶部和底部的滤网进行清扫后,用手触摸控制器表面,可以明显感觉到温度下降,是非常行之有效的维护方法。
随着网络技术的不断发展,工业以太网交换机已经广泛应用于各种场合,它采用全双工通信,保证了网络带宽的最大利用率和最好的实时性能,还具有较高的抗干扰能力,硬件设备密封性好,坚固、抗震动。而我们现在DCS以太网交换机使用的还是商用级,它采用的CSMA/CD介质访问控制方式,其本质上是非实时的,交换机内部采用多个风扇散热,存在网络数据量大有瓶颈现象、可靠性不高等问题。所以DCS以太网交换机改用工业级,将极大提高整个系统实时性和可靠性,特别是新建机组,可以要求DCS厂家直接配置工业级以太网交换机。
4 结束语
针对DCS发生的故障,我们热工技术人员要沉着冷静,善于总结分析、胆大心细,在最短时间内排除故障,将故障危害降到最低程度。 |