根本原因分析技術(root cause analysis,RCA)就是上個世紀末國際維修保障領域經常使用的一種用于縮減裝備維修范圍的有效工具。
一、RCA的基本概念
IOWA州立大學質量管理學院認為,很多公司在設備發生故障后,都能夠很快修復,但難以發現故障的根本原因,所以此故障會再次發生。根本原因分析技術是一個發現和消除這些原因的過程,只有當這個根本原因被發現和消除后,這個問題才能夠被徹底解決。
美國能源部1992年發布的《根本原因分析指南》(DOE—NE—STD—1004—92)中,把根本原因定義為:指一種原因,當這種原因被糾正以后,將會防止此類事故或者類似事故的再次發生。根本原因并不是僅僅導致這次事件發生的原因,而是在一個更為廣闊的范圍內對可能發生的其他事故還存在著影響的原因。根本原因最基本的特征應該是從邏輯上能夠被識別并能夠被糾正。可能會有一系列的原因都能夠被識別,從一個導致另一個,但是這一系列的原因應該能夠被追溯到最基本的,并且能夠被識別和糾正的原因。
在我國大亞灣核電站的建設和運行過程中,由美國PⅡ (performance improved international)公司提供了RCA方法,該公司把RCA定義為:通過一整套系統化、邏輯化、客觀化和規范化的分析方法,找出設備故障的機理和根本原因。并通過制定合理的糾正措施徹底消除這些根本原因,從而恢復設備功能,防止同樣或類似故障重復發生的一種解決設備故障問題的分析技術。
二、RCA的實施過程
盡管不同機構在RCA定義的表述上有所區別,但其核心內容卻大致相同。這些機構所推薦的RCA實施過程也存在著一些差別。這里以美國能源部5003 Order 5000.3A《事故報告和操作信息的處理》為基本依據來說明 RCA的實施過程。
1. DOE Order 5000.3A中規定的根本原因分析步驟
(1)數據收集。在事故發生以后,應立即開展根本原因分析的數據收集,以防丟失。在不危及安全性或者災后重建的情況下,數據甚至應該在事故發生時就開始收集。被收集的信息包括事故發生以前及發生過程中和發生以后的情況、所涉及的人員(包括所采取的措施)、環境因素以及其他一些同事故發生有關的因素。
(2)事故原因評估。事故原因評估一般分為三個步驟:首先是識別存在的問題,判定這些問題的重要性;其次,圍繞存在的問題識別事故原因(狀態或措施),然后對其進行分析,列出符合標準要求的各種原因因素,并給出推薦的糾正措施;最后,按照給定的表格樣式,把分析過程和結果輸入RCA的計算機系統。
事故原因評估的結果可以區分為直接原因、起作用的原因和根本原因。這些原因形成一個導致事故發生的原因鏈。原因評估的過程就是按照這個原因鏈一步步追溯,直到找到導致事故發生的根本原因為止。找到根本原因是評估階段的停止點。
例如,在一次核泄漏的事故中,根本的原因可能是管理手段有缺陷。這個根本原因可能導致設備維護人員在預防性維修時使用不正確的密封材料或者遺漏掉一些部件,導致核原料的泄漏。在這個例子里,按照表1的原因分類方法,管理手段的不足就是導致事故發生的根本原因,人員錯誤則是導致事故發生的直接原因。
(3)矯正措施。識別出事故根本原因后,需要針對原因鏈中的每一個原因采取適當的矯正措施,以降低同一個事故再發生的概率,并且改善其安全性和可靠性。在設計糾正措施時,還需要考慮一系列相關問題。如該措施的有效性、可行性、實施風險性、隱性風險是否被清楚地描述、如何安排糾正措施的實施順序、實施該措施是否需要進行培訓、需要哪些資源等。以保證這些矯正措施可行、有效且能夠持續改進和發展。
(4)通知。把根本原因分析過程和推出的矯正措施輸入計算機中的事故報告和處理系統,是通知階段的一部分工作內容。同時,還包括對分析結果、糾正措施以及在事故中涉及的管理問題和人員等問題的討論和解釋。最后,還應該考慮到把此次根本原因分析過程的有關結論通知給一些類似設備或關聯設備的人員,以使RCA在更大范圍內發揮作用。
(5)后續行動。后續行動主要用于判斷所確定的糾正措施在解決此類問題方面是否有效。首先,這些矯正行為應該被跟蹤,以確保被正確實施;其次,對這些糾正措施應該有一個周期性評審,以確保這些矯正措施確實達到了預期的效果。對近期發生的類似事故應該仔細分析,以搞清為什么這些措施沒有達到預期的效果。當分析系統發生變化時,必須對變更部分重新進行RCA。最后,應該利用計算機所保存的事故分析記錄不斷進行評審和總結,以使RCA達到更好的效果。
2. PⅡ公司的RCA分析流程
除了DOE—NE—STD—1004—92所描述的RCA過程外,大亞灣核電站采用的是PⅡ公司RCA技術,其分析過程簡單描述如圖1所示。可以看出,PⅡ公司的RCA流程和DOE Order 5000.3A中規定的RCA步驟基本內容大致相同,只不過5000.3A中的數據收集階段含了PⅡ公司分析流程中的設備故障描述以及影響范圍的確定和數據收集兩個步驟。PⅡ公司的分析流程中突出了一種根本原因判定的方法,即故障模式分析和評定,并希望以此方法來重構故障情節作為判定根本原因的依據。在5000.3A中,則是推薦了包括FMEA在內的數種方法來分析根本原因。如因果分析法、屏障分析法、管理疏忽和風險樹分析以及人素分析等方法。
3. RCA分析方法和事故原因分類
在事故原因評估過程中,除了典型的FMEA以外,還包括以下分析方法。
(1)因果關系法。用圖形法表示出圍繞著導致事故發生的一系列任務及行為措施的時間順序,明確這些任務之間的因果關系。此方法有利于形成原因評估時所需要的原因鏈。
(2)替代分析法。在對問題界定不明晰時,可以使用替代分析方法,尋找究竟是哪些因素導致了事故的發生。
(3)屏障分析法。屏障分析法也是一個系統的過程,能夠用于識別可防止事故發生的那些物理的、行政管理的和程序過程中的屏障或者控制措施。
(4)管理疏忽和風險樹分析法。主要用于識別屏障、控制措施的具體屏障、保障功能及管理功能的不充分之處。它能夠識別導致事故的因素及允許這些因素存在的管理原因。
(5)人素分析法。主要用于識別影響任務性能的因素,焦點在于可操作性、工作環境和管理因素。人機界面的研究可以改善或者提高針對訓練標準的優先權。
無論采用哪種分析方法,導致事故發生的原因必須歸納為一系列得到認可的原因分類。DOE Or-der 5000.3A中,事故原因共分為七大類,見表1。
表1 DOE 5000.3A指令中的事故原因分類列表
三、RCA的應用實例
2002年1月12日,大亞灣核電站1號機組并網升功率過程中,由于汽輪機旁路系統(GCT)121排放閥的定位器反饋連桿突然斷損,導致反應堆緊急停堆。
事故發生后,電站的RCA小組立刻按照預定的程序對該事故進行了RCA分析。發現根本原因在于121排放閥的二個固定螺栓均未裝鎖緊墊片,長期振動環境造成螺栓脫落,致使閥門開啟時橫桿折斷。為此,RCA分析小組提出了更改鎖緊墊片設計和定時檢查螺栓緊固情況等措施,并把分析結果和措施應用于電站系統中所有類似閥門。
PⅡ公司先后在大亞灣核電站和嶺澳核電站應用推廣了RCA技術,幫助他們逐步建立了電站RCA管理體系。幾年來RCA小組共完成了30多起電站重大事件的根本原因分析,高效準確地找出了導致事故發生的根本原因,制定了相應的糾正措施,有效地避免了事故的重發。
實踐證明,在高科技密集、重要設備密集、風險密集的工程單位,應用和推廣RCA分析技術和方法,并建立一套較完善的由上至下的RCA分析管理體系十分必要。