一种设备故障根源的排查方法

根本原因分析技术(root cause analysis,RCA)就是上个世纪末国际维修保障领域经常使用的一种用于缩减装备维修范围的有效工具。


一、RCA的基本概念


IOWA州立大学质量管理学院认为,很多公司在设备发生故障后,都能够很快修复,但难以发现故障的根本原因,所以此故障会再次发生。根本原因分析技术是一个发现和消除这些原因的过程,只有当这个根本原因被发现和消除后,这个问题才能够被彻底解决。


美国能源部1992年发布的《根本原因分析指南》(DOE—NE—STD—1004—92)中,把根本原因定义为:指一种原因,当这种原因被纠正以后,将会防止此类事故或者类似事故的再次发生。根本原因并不是仅仅导致这次事件发生的原因,而是在一个更为广阔的范围内对可能发生的其他事故还存在着影响的原因。根本原因最基本的特征应该是从逻辑上能够被识别并能够被纠正。可能会有一系列的原因都能够被识别,从一个导致另一个,但是这一系列的原因应该能够被追溯到最基本的,并且能够被识别和纠正的原因。


在我国大亚湾核电站的建设和运行过程中,由美国PⅡ (performance improved international)公司提供了RCA方法,该公司把RCA定义为:通过一整套系统化、逻辑化、客观化和规范化的分析方法,找出设备故障的机理和根本原因。并通过制定合理的纠正措施彻底消除这些根本原因,从而恢复设备功能,防止同样或类似故障重复发生的一种解决设备故障问题的分析技术。


二、RCA的实施过程


尽管不同机构在RCA定义的表述上有所区别,但其核心内容却大致相同。这些机构所推荐的RCA实施过程也存在着一些差别。这里以美国能源部5003 Order 5000.3A《事故报告和操作信息的处理》为基本依据来说明 RCA的实施过程。


1. DOE Order 5000.3A中规定的根本原因分析步骤


(1)数据收集。在事故发生以后,应立即开展根本原因分析的数据收集,以防丢失。在不危及安全性或者灾后重建的情况下,数据甚至应该在事故发生时就开始收集。被收集的信息包括事故发生以前及发生过程中和发生以后的情况、所涉及的人员(包括所采取的措施)、环境因素以及其他一些同事故发生有关的因素。


(2)事故原因评估。事故原因评估一般分为三个步骤:首先是识别存在的问题,判定这些问题的重要性;其次,围绕存在的问题识别事故原因(状态或措施),然后对其进行分析,列出符合标准要求的各种原因因素,并给出推荐的纠正措施;最后,按照给定的表格样式,把分析过程和结果输入RCA的计算机系统。


事故原因评估的结果可以区分为直接原因、起作用的原因和根本原因。这些原因形成一个导致事故发生的原因链。原因评估的过程就是按照这个原因链一步步追溯,直到找到导致事故发生的根本原因为止。找到根本原因是评估阶段的停止点。


例如,在一次核泄漏的事故中,根本的原因可能是管理手段有缺陷。这个根本原因可能导致设备维护人员在预防性维修时使用不正确的密封材料或者遗漏掉一些部件,导致核原料的泄漏。在这个例子里,按照表1的原因分类方法,管理手段的不足就是导致事故发生的根本原因,人员错误则是导致事故发生的直接原因。


(3)矫正措施。识别出事故根本原因后,需要针对原因链中的每一个原因采取适当的矫正措施,以降低同一个事故再发生的概率,并且改善其安全性和可靠性。在设计纠正措施时,还需要考虑一系列相关问题。如该措施的有效性、可行性、实施风险性、隐性风险是否被清楚地描述、如何安排纠正措施的实施顺序、实施该措施是否需要进行培训、需要哪些资源等。以保证这些矫正措施可行、有效且能够持续改进和发展。


(4)通知。把根本原因分析过程和推出的矫正措施输入计算机中的事故报告和处理系统,是通知阶段的一部分工作内容。同时,还包括对分析结果、纠正措施以及在事故中涉及的管理问题和人员等问题的讨论和解释。最后,还应该考虑到把此次根本原因分析过程的有关结论通知给一些类似设备或关联设备的人员,以使RCA在更大范围内发挥作用。


(5)后续行动。后续行动主要用于判断所确定的纠正措施在解决此类问题方面是否有效。首先,这些矫正行为应该被跟踪,以确保被正确实施;其次,对这些纠正措施应该有一个周期性评审,以确保这些矫正措施确实达到了预期的效果。对近期发生的类似事故应该仔细分析,以搞清为什么这些措施没有达到预期的效果。当分析系统发生变化时,必须对变更部分重新进行RCA。最后,应该利用计算机所保存的事故分析记录不断进行评审和总结,以使RCA达到更好的效果。


2. PⅡ公司的RCA分析流程


除了DOE—NE—STD—1004—92所描述的RCA过程外,大亚湾核电站采用的是PⅡ公司RCA技术,其分析过程简单描述如图1所示。可以看出,PⅡ公司的RCA流程和DOE Order 5000.3A中规定的RCA步骤基本内容大致相同,只不过5000.3A中的数据收集阶段含了PⅡ公司分析流程中的设备故障描述以及影响范围的确定和数据收集两个步骤。PⅡ公司的分析流程中突出了一种根本原因判定的方法,即故障模式分析和评定,并希望以此方法来重构故障情节作为判定根本原因的依据。在5000.3A中,则是推荐了包括FMEA在内的数种方法来分析根本原因。如因果分析法、屏障分析法、管理疏忽和风险树分析以及人素分析等方法。


设备故障


3. RCA分析方法和事故原因分类


在事故原因评估过程中,除了典型的FMEA以外,还包括以下分析方法。


(1)因果关系法。用图形法表示出围绕着导致事故发生的一系列任务及行为措施的时间顺序,明确这些任务之间的因果关系。此方法有利于形成原因评估时所需要的原因链。


(2)替代分析法。在对问题界定不明晰时,可以使用替代分析方法,寻找究竟是哪些因素导致了事故的发生。


(3)屏障分析法。屏障分析法也是一个系统的过程,能够用于识别可防止事故发生的那些物理的、行政管理的和程序过程中的屏障或者控制措施。


(4)管理疏忽和风险树分析法。主要用于识别屏障、控制措施的具体屏障、保障功能及管理功能的不充分之处。它能够识别导致事故的因素及允许这些因素存在的管理原因。


(5)人素分析法。主要用于识别影响任务性能的因素,焦点在于可操作性、工作环境和管理因素。人机界面的研究可以改善或者提高针对训练标准的优先权。


无论采用哪种分析方法,导致事故发生的原因必须归纳为一系列得到认可的原因分类。DOE Or-der 5000.3A中,事故原因共分为七大类,见表1。


表1 DOE 5000.3A指令中的事故原因分类列表

RCA


三、RCA的应用实例


2002年1月12日,大亚湾核电站1号机组并网升功率过程中,由于汽轮机旁路系统(GCT)121排放阀的定位器反馈连杆突然断损,导致反应堆紧急停堆。


事故发生后,电站的RCA小组立刻按照预定的程序对该事故进行了RCA分析。发现根本原因在于121排放阀的二个固定螺栓均未装锁紧垫片,长期振动环境造成螺栓脱落,致使阀门开启时横杆折断。为此,RCA分析小组提出了更改锁紧垫片设计和定时检查螺栓紧固情况等措施,并把分析结果和措施应用于电站系统中所有类似阀门。


PⅡ公司先后在大亚湾核电站和岭澳核电站应用推广了RCA技术,帮助他们逐步建立了电站RCA管理体系。几年来RCA小组共完成了30多起电站重大事件的根本原因分析,高效准确地找出了导致事故发生的根本原因,制定了相应的纠正措施,有效地避免了事故的重发。


实践证明,在高科技密集、重要设备密集、风险密集的工程单位,应用和推广RCA分析技术和方法,并建立一套较完善的由上至下的RCA分析管理体系十分必要。

微EAM致力于工业企业信息化、数字化、智能化转型,驱动企业降本增效,推出工业互联网云平台及工业APP。