網路服務 伺服器 備援備份 有效重啟 演練 website server backup disaster recovery BCP Cloudmax 曾家愛 Vicki

對照這 5 點,您的伺服器與網路服務備援及災難復原演練真的有效嗎? – 後疫情時代之 BCP 企業持續營運計劃策略思維 Part 6

本篇要以「伺服器」及「網路服務」作為標的物來說明。伺服器 (Server) 簡稱主機,在這裡指的是企業的 ERP、電子郵件、研發 Lab、資料庫等內部系統及對外提供的服務平台如網站所使用的主機;而網路服務 (Internet Service) 則是涵蓋企業在使用的公司商務郵件系統、VPN、公司網址、資訊安全防護系統、資料備份備援系統等需要備援之網路服務。而這些服務需要的備援 (backup) 及災難復原演練 (Disaster Recovery Exercise),必須透過以下幾點來確保在遇到自然災害或人為災害時是有效的。(關於「資料」的備援備份與重啟演練可參考:四個重點讓您做到有效的資料備份備援與重啟演練 – 後疫情時代之 BCP 企業持續營運計劃策略思維 Part 5) 

先說災難復原演練這件事情,大家常常用 DRP(Disaster Recovery Plan) 災難復原計畫這個詞,但我們傾向習慣用 DRE(Disaster Recovery Exercise) 災難復原演練。因為,萬事備足卻沒有經過測試跟演練的淬煉,等同於空講。沒有用實際可能發生的情況去模擬多種腳本測試備援啟動的有效性,演練從遇到問題、到備援啟動、到恢復正常的整個過程,很可能只是單純的備援罷了。備援無法啟動,屆時企業營運只能中斷,許多企業也曾經嚐過這樣的苦頭,因此我們認為…

災難復原的演練相對是更加重要且不可或缺的一個步驟。

伺服器及網路服務的有效備援 

這點相對簡單,因為我們在另外一篇已經有詳述過資料的備份備援,而伺服器與網路服務,需要重視的項目有: 

  1. 盤點需要異地備援的項目有哪些?(通常是相對風險性及價值高的項目)
  2. 是否有 N+1(一份以上)的備援點?
  3. 異地備援選擇的地點是否適合?(通常考慮電路海纜品質與政治經濟因素來選地點)
  4. 備援機制要做 Active/Standby 或 Active/Active?(可以想像備援伺服器平常需要扮演的角色,是隨行秘書還是在辦公室 standby 的一般秘書)
  5. 備援點可以接受的 RTO 與 RPO?(詳細可參考資料備份備援文章的「滿足有效重啟演練的心法」段落)  

這些項目左右著技術部署架構及連線的複雜度與花費。 

伺服器及網路服務的災難復原演練 

說到災難復原演練,它本身屬於一個過程,當下會直接聯想到 RTO 與 RPO;演練是一個以備援機制為基礎主體,進而設定企業可能遇到的各種自然災害或人為災害腳本,最後進行實際的模擬演練,演練完進行檢討及改善,然後再度演練。列點來看,演練的過程有: 

  1. 設定本次演練的目標與範圍 ;(通常目標指的是 RTO – 從遇到問題至恢復正常可接受的耗時)
  2. 依此目標及範圍訂定各種可能發生的情境腳本 ;
  3. 發布演練 SOP 及演練時間予相關之部門組織或團隊人員 ;(這裡有另一種分別,若要更加逼近真實情況的演練,則是平日做好備援機制及 SOP 宣導,在不預告的情況下進行演練)
  4. 實際執行並如實紀錄演練過程 ;
  5. 演練完畢必須列點檢討改善後,擇期再次演練。

以上我們只是將伺服器及網路服務的備援及災難復原演練整理出一個 guideline,並強調說明演練是首重之重;但實際上,除了本篇以及我們提過的「資料」備援演練以外,真正的 BCP 是連企業內部組織、人員職掌、團隊上班區域等都需要備援與演練,各個產業如何制定備援層級與機制、如何訂定範圍、遇到問題會受到影響的部分與程度以及個別反應能力的需求,都有個別差異。

因此,備援及演練都不該只有內部自己做,專業的部分須委託專業,如人為災害大部分是遭受駭客入侵,第三方專業團隊就有 DEVCORE 在做紅隊演練,而其他如資料庫、企業內部系統、伺服器、網站、網路服務等,都應找外部第三方專業團隊來協助規劃備援、制定腳本及演練,才能更客觀的面對企業本身的缺乏與漏洞,並獲取專業的改善建議。 

歡迎轉載!請見:轉載原則。 

Photo by Markus Spiske on Unsplash

發表迴響