from:
http://bbs.cechinamag.com/ 高可靠性是過程控制系統(tǒng)的第一要求。冗余技術(shù)是計(jì)算機(jī)系統(tǒng)可靠性設(shè)計(jì)中常采用的一種技術(shù),是提高計(jì)算機(jī)系統(tǒng)可靠性的最有效方法之一。為了達(dá)到高可靠性和低失效率相統(tǒng)一的目的,我們通常會在控制系統(tǒng)的設(shè)計(jì)和應(yīng)用中采用冗余技術(shù)。合理的冗余設(shè)計(jì)將大大提高系統(tǒng)的可靠性,但是同時也增加了系統(tǒng)的復(fù)雜度和設(shè)計(jì)的難度,應(yīng)用冗余配置的系統(tǒng)還增加了用戶投資。因此,如何合理而有效的進(jìn)行控制系統(tǒng)冗余設(shè)計(jì),是值得研究的課題。
1:冗余技術(shù)
冗余技術(shù)概要:冗余技術(shù)就是增加多余的設(shè)備,以保證系統(tǒng)更加可靠、安全地工作。冗余的分類方法多種多樣,按照在系統(tǒng)中所處的位置,冗余可分為元件級、部件級和系統(tǒng)級;按照冗余的程度可分為1:1冗余、1:2冗余、1:n冗余等多種。在當(dāng)前元器件可靠性不斷提高的情況下,和其它形式的冗余方式相比,1:1的部件級熱冗余是一種有效而又相對簡單、配置靈活的冗余技術(shù)實(shí)現(xiàn)方式,如I/O卡件冗余、電源冗余、主控制器冗余等。因此,目前國內(nèi)外主流的過程控制系統(tǒng)中大多采用了這種方式。當(dāng)然,在某些局部設(shè)計(jì)中也有采用元件級或多種冗余方式組合的成功范例。
控制系統(tǒng)冗余設(shè)計(jì)的目的:系統(tǒng)運(yùn)行不受局部故障的影響,而且故障部件的維護(hù)對整個系統(tǒng)的功能實(shí)現(xiàn)沒有影響,并可以實(shí)現(xiàn)在線維護(hù),使故障部件得到及時的修復(fù)。冗余設(shè)計(jì)會增加系統(tǒng)設(shè)計(jì)的難度,冗余配置會增加用戶系統(tǒng)的投資,但這種投資換來了系統(tǒng)的可靠性,它提高了整個用戶系統(tǒng)的平均無故障時間(MTBF),縮短了平均故障修復(fù)時間(MTTR),因此,應(yīng)用在重要場合的控制系統(tǒng),冗余是非常必要的。
二個部件組成的并聯(lián)系統(tǒng)(互為冗余)與單部件相比,平均無故障時間是原來的1.5倍。系統(tǒng)的可用性指標(biāo)可以用兩個參數(shù)進(jìn)行簡單的描述,一個是平均無故障時間(MTBF),另一個是平均修復(fù)時間(MTBR)。系統(tǒng)的可用性可用下式表示:
系統(tǒng)可用性=MTBF/(MTBF+MTBR)
當(dāng)可用性達(dá)到99.999%時,系統(tǒng)每年停止服務(wù)的時間只有6分鐘。
2:控制系統(tǒng)冗余的關(guān)鍵技術(shù)
冗余是一種高級的可靠性設(shè)計(jì)技術(shù), 1:1熱冗余也就是所謂的雙重化,是其中一種有效的冗余方式,但它并不是兩個部件簡單的并聯(lián)運(yùn)行,而是需要硬件、軟件、通訊等協(xié)同工作來實(shí)現(xiàn)。將互為冗余的兩個部件構(gòu)成一個有機(jī)的整體,通常包括以下多個技術(shù)要點(diǎn):
1)信息同步技術(shù)
它是工作、備用部件之間實(shí)現(xiàn)無擾動(Bumpless)切換技術(shù)的前提,只有按控制實(shí)時性要求進(jìn)行高速有效的信息同步,保證工作、備用部件步調(diào)一致地工作,才能實(shí)現(xiàn)冗余部件之間的無擾動切換。
在熱備用工作方式下,其中一塊處于工作狀態(tài)(工作卡),實(shí)現(xiàn)系統(tǒng)的數(shù)據(jù)采集、運(yùn)算、控制輸出、網(wǎng)絡(luò)通訊等功能;而另一塊處于備用狀態(tài)(備用卡),它實(shí)時跟蹤工作卡的內(nèi)部控制狀態(tài)(即狀態(tài)同步)。工作/備用卡件之間的正/負(fù)邏輯是互斥的,即一個為工作卡,另一個必定是備用卡;而且它們之間有冗余控制電路(又稱工作/備用控制電路)和信息通訊電路,以協(xié)調(diào)兩塊卡件同時而且有序地運(yùn)行,保證對外輸入輸出特性的同一性,即對于用戶使用而言,可以認(rèn)為只有一個部件。一般在設(shè)計(jì)中,工作、備用部件之間通過高速的冗余通訊通道(串行或并行)實(shí)現(xiàn)運(yùn)行狀態(tài)互檢和控制狀態(tài)的同步(如組態(tài)信息、輸出閥位、控制參數(shù)等)。
2)故障檢測技術(shù)
為了保證系統(tǒng)在出現(xiàn)故障時及時將冗余部分投入工作,必須有高精確的在線故障檢測技術(shù),實(shí)現(xiàn)故障發(fā)現(xiàn)、故障定位、故障隔離和故障報警。故障檢測包括電源、微處理器、數(shù)據(jù)通訊鏈路、數(shù)據(jù)總線及I/O狀態(tài)等。其中故障診斷包括故障自診斷和故障互檢(工作、備用卡件之間的相互檢查)
3) 故障仲裁技術(shù)和切換技術(shù)
精確及時地發(fā)現(xiàn)故障后,還需要及時確定故障的部位、分析故障的嚴(yán)重性,依賴前文提到的冗余控制電路,對工作、備用故障狀態(tài)進(jìn)行分析、比較和仲裁,以判定是否需要進(jìn)行工作/備用之間的狀態(tài)切換?刂茩(quán)切換到冗余備用部件還必須保證快速、安全、無擾動。當(dāng)處于工作狀態(tài)的部件出現(xiàn)故障(斷電、復(fù)位、軟件故障、硬件故障等)或者工作部件的故障較備用部件嚴(yán)重時,備用部件必須快速地?zé)o擾動地接替工作部件的所有控制任務(wù),對現(xiàn)場控制不造成任何影響。同時要求切換時間應(yīng)為毫秒級,甚至是微秒級,這樣就不會因?yàn)樵摬考墓收隙斐赏獠靠刂茖ο蟮氖Э鼗驒z測信息失效等等。另外,還需要盡快通過網(wǎng)絡(luò)通訊或就地LED顯示進(jìn)行報警,通知用戶出現(xiàn)故障的部件和故障情況,以便進(jìn)行及時維護(hù)。
4)熱插拔技術(shù)
為了保證容錯系統(tǒng)具有高可靠性,必須盡量減少系統(tǒng)的平均修復(fù)時間MTBR。要做到這一點(diǎn),在設(shè)計(jì)上應(yīng)努力提高單元的獨(dú)立性、可修復(fù)性、故障可維護(hù)性。實(shí)現(xiàn)故障部件的在線維護(hù)和更換也是冗余技術(shù)的重要組成部分,它是實(shí)現(xiàn)控制系統(tǒng)故障部件快速修復(fù)技術(shù)的關(guān)鍵。部件的熱插拔功能可以在不中斷系統(tǒng)正?刂乒δ艿那闆r下增加或更換組件,使系統(tǒng)平穩(wěn)地運(yùn)行。
5)故障隔離技術(shù)
冗余設(shè)計(jì)時,必須考慮工作、備用部件之間的故障應(yīng)該做到盡可能互不影響或影響的概率相當(dāng)。0.01%),即可認(rèn)為故障是隔離的。這樣可以保證:處于備用狀態(tài)的部件發(fā)生故障時,不會影響冗余工作部件或其他關(guān)聯(lián)部件的正常運(yùn)行,保證冗余的有效性。
3:冗余技術(shù)在控制系統(tǒng)中的應(yīng)用實(shí)現(xiàn)分析
通過控制系統(tǒng)冗余原理與方法的具體分析可以看到,系統(tǒng)的可用性在很大程度上取決于那些MTBF值較低而能對系統(tǒng)正常運(yùn)行造成重大影響的部件,如主控制卡、網(wǎng)絡(luò)、電源、通訊轉(zhuǎn)發(fā)卡等。在系統(tǒng)設(shè)計(jì)中對關(guān)鍵部件進(jìn)行冗余設(shè)計(jì),可以大大提高系統(tǒng)的可用性。
下面以SUPCON JX-300X 為例分析冗余的實(shí)現(xiàn)方式。
SUPCON JX-300X 型集散控制系統(tǒng)[1]的各個部件的冗余,實(shí)現(xiàn)了從電源、主控制器、過程控制網(wǎng)絡(luò),直至I/O卡件的冗余。
JX-300X型DCS采用全智能化、全數(shù)字化設(shè)計(jì),在此基礎(chǔ)上成功地實(shí)現(xiàn)了卡件的熱插拔、故障診斷、信息同步等前文提到的各項(xiàng)技術(shù)。該系統(tǒng)采用典型控制系統(tǒng)三層模型,每個層次內(nèi)均可冗余配置,而層次之間采用全冗余連接。即整個系統(tǒng)內(nèi)以冗余過程控制網(wǎng)絡(luò)(SCnet)和冗余現(xiàn)場I/O總線(SBUS)為高可靠的連接通道,系統(tǒng)內(nèi)各個部件的運(yùn)行和部件之間點(diǎn)對點(diǎn)連接都可冗余。
根據(jù)控制系統(tǒng)內(nèi)各個部件功能定位的不同,采用了具體方式有所差別,具體策略為:
1)主控制卡的冗余
主控制卡是整個系統(tǒng)的核心控制單元,完成系統(tǒng)的控制任務(wù)。而冗余技術(shù)各個設(shè)計(jì)要點(diǎn)在此得到充分應(yīng)用;槿哂嗟膬蓧K主控制卡軟件、硬件完全一致,它們執(zhí)行同樣的系統(tǒng)軟件和應(yīng)用程序,在工作/備用冗余邏輯電路的控制下,其中一個運(yùn)行在工作狀態(tài)(工作卡),另外一個運(yùn)行在備用狀態(tài)(備用卡),如圖2所示。工作卡和備用卡之間具有公共的冗余邏輯控制電路和專用的高速對等冗余通訊通道,同時也可以通過I/O總線和過程控制網(wǎng)絡(luò)進(jìn)行信息交互或故障診測;槿哂嗟闹骺刂瓶ǘ寄茉L問I/O和過程控制網(wǎng)絡(luò),備用模式下的主控制卡執(zhí)行診斷程序,監(jiān)視工作卡的狀態(tài),通過周期查詢工作卡件中的數(shù)據(jù)存儲器,接受工作卡發(fā)送的實(shí)時控制運(yùn)行信息。備用處理器可隨時保存最新的控制數(shù)據(jù),以保證工作/備用的無擾動切換,但工作模式下的主控制卡起著控制、輸出、實(shí)時過程信息發(fā)布,等決定性的作用(具有發(fā)言權(quán))。冗余技術(shù)的關(guān)鍵在于實(shí)現(xiàn)信息同步,而信息同步的最終目的是為了實(shí)現(xiàn)冗余部件之間無擾動切換。我們把信息同步的方法分為“自然同步”和“強(qiáng)制同步”。
互為冗余的兩個主控制卡作為一個整體與外界交換信息(網(wǎng)絡(luò)通訊、I/O通訊 ),共享進(jìn)入這個整體的輸入信息,這就是冗余部件的同一性(也可以稱為單一性)。對外輸出信息時工作卡掌握主動權(quán),代表這個整體發(fā)言,即冗余的協(xié)同性。通俗地講,兩個互為冗余的部件,對于用戶使用和外部控制對象而言,可被視為一個整體。
為了保證互為冗余的兩個卡件具有平等獲取外部信息(I/O通訊、網(wǎng)絡(luò)通訊)的權(quán)利,冗余部件具有同樣的通訊接口,保證卡件內(nèi)輸入信息的一致。冗余的兩塊卡件有各自的通訊通路,只要保證相同的輸入信息在兩個通信通路上同時進(jìn)行傳輸,兩塊卡件就可以獲得相同的信息。這種憑借外部設(shè)備實(shí)現(xiàn)輸入信息的同步稱為“自然同步”!白匀煌健卑l(fā)生在冗余系統(tǒng)和外部設(shè)備之間。工作卡掌握主動權(quán),代表整體發(fā)言,并通過冗余通信將各種狀態(tài)信息傳送給備用卡,達(dá)到控制任務(wù)的同步,這就是“強(qiáng)制同步”。“強(qiáng)制同步”通過冗余通信使備用卡內(nèi)部控制狀態(tài)與工作卡保持一致,它發(fā)生在互為冗余的卡件之間。根據(jù)變量特性的不同,具體采用的同步方式也各不相同.
2) 電源系統(tǒng)冗余。
電源是整個控制系統(tǒng)得以正常工作的動力源泉,一旦電源單元發(fā)生故障,往往會使整個控制系統(tǒng)的工作中斷,造成嚴(yán)重后果。要使控制系統(tǒng)能夠安全、可靠、長期、穩(wěn)定地運(yùn)行,首先穩(wěn)定的供電必須得到保證。JX-300X型DCS采用可熱插拔的冗余電源,正常工作時,兩臺電源各輸出一半功率,從而使每一臺電源都工作在輕負(fù)載狀態(tài),有利于電源穩(wěn)定工作。當(dāng)其中一臺發(fā)生故障,短時由另一臺接替其工作,并報警。設(shè)計(jì)為可熱插拔的冗余電源,這樣系統(tǒng)維護(hù)時可以在不影響系統(tǒng)正常運(yùn)行的情況下更換故障的電源。
3) 網(wǎng)絡(luò)系統(tǒng)冗余。
采用冗余網(wǎng)卡和冗余網(wǎng)絡(luò)接口。正常工作時,冗余的兩條數(shù)據(jù)高速通路同時并行運(yùn)行,自動分?jǐn)偩W(wǎng)絡(luò)流量,并考慮了負(fù)載均衡的冗余設(shè)計(jì),使系統(tǒng)網(wǎng)絡(luò)通信帶寬提高。當(dāng)其中一路故障(網(wǎng)卡損壞或出現(xiàn)線路故障)時,另一路自動地承擔(dān)全部通信負(fù)載,保證通信的正常進(jìn)行。
4)冷卻系統(tǒng)冗余。
利用控制柜內(nèi)可自動切換的冗余風(fēng)扇,對風(fēng)扇和機(jī)柜內(nèi)溫度進(jìn)行實(shí)時監(jiān)測,發(fā)現(xiàn)工作風(fēng)扇故障或柜內(nèi)溫度過高時都會自動報警,并自動啟動備用風(fēng)扇。
5) 信息冗余。
除了硬件部件的冗余,JX-300X型DCS還采用了信息冗余技術(shù),這也是提高系統(tǒng)可靠性的一個重要手段。信息冗余技術(shù)是指在通信過程中或存放組態(tài)信息(重要信息)時,利用增加的多余信息位提供檢錯甚至糾錯的能力。該系統(tǒng)中SBUS總線通訊和SCnet控制網(wǎng)絡(luò)都采用循環(huán)冗余碼校驗(yàn)(CRC)方法。而重要組態(tài)信息(如系統(tǒng)配置)在主控制卡內(nèi)的存放采用1:1冗余存放,使重要信息具備故障(出錯)自我恢復(fù)能力,保證系統(tǒng)運(yùn)行過程中重要信息的安全性。
通過對以上關(guān)鍵部件的冗余設(shè)計(jì),可以保證系統(tǒng)具有很高的可用性。