當我們將服務陸續從傳統的 IDC 機房移到雲平台後,雲平台的穩定性與後續的營運持續管理規劃變成了一個新的議題
這兩天接連發生大型雲服務提供商出現中斷的情況,首先是 AWS 中國北京區域,從 6/2 凌晨 2:00 開始出現 API 錯誤與 EC2 主機開啟失敗的問題,問題持續 11 個小時,緊接著 6/3 出現 Google 大當機,時間持續約三個小時,影響了基礎網路與 Google Cloud、 G Suite與 YouTube 還有使用 Google Cloud 的 Snapchat 及 Shopify 等網路服務。
我們回頭來看 2018 年的雲服務中斷情況,以下依照時間順序列出,也可以看到大大小小不同的中斷事件。(資料取得來源為极客邦科技 InfoQ 於 2018 年底發表之 2018 年十大云宕机事故盘点:主流无一幸免!一文,參照連結:https://www.infoq.cn/article/4pSNXHT4PuI4T*L8g1Sk)
發生時間 | 雲平台 | 影響情況 |
2018/1/8 | Google Cloud | 當機 93 分鐘 |
2018/3/2 | AWS | 中斷時間數小時 |
2018/5/31 | AWS | 當機 30 分鐘左右 |
2018/6/17-2018/6/18 | Azure | 服務中斷 5 小時以上 |
2018/6/27 | 阿里雲 | 當機 30 分鐘,恢復服務穩定花費 1 小時左右 |
2018/7/20 | 騰訊雲雲硬碟 | 資料永久損毀 |
2018/7/24 | 騰訊雲 | 當機時間不明,恢復服務穩定花費 30-40分鐘左右 |
Prime Day | AWS | 故障持續近 6 小時 |
2018/9/4 | Azure | 影響時間超過 24 小時 |
2018/11/9 | Google Kubernetes (GKE) | 影響時間近 19 小時 |
從上列歷史經驗來看,無論服務提供商有多大,要靠單一服務就達成 100% 的可用性仍是有相當高難度的,因此我們需要做的除了慎選一個服務品質良好的供應商外,替您規劃與設計的廠商能否給予您良好的營運持續管理規劃 (BCP, Business Continuity Planning),並能同時使用多家雲平台,或者是使用雲平台搭配 IDC 機房的備援設定,也是未來評選的重要方向。
選擇可提供多元雲端平台服務及有能力建立 BCP 機制的供應商,可讓企業達到較完整的降低營運管理風險及成本、提高效率
Cloudmax 匯智持續營運計畫(BCP, Business Continuity Planning)對策:
首先,根據不同雲平台的特性,使用最適當的平台技術,有效降低成本與提高效率。
第二,使用不同的平台搭配增加可用性。再可靠的雲服務供應商還是會有中斷的可能,首先針對公司所需要的各種服務做出整理,並且列出可以接受的服務中斷時間,接著針對這些需求,設計服務中斷時的移轉與備援方案,根據障礙發生時的時間與狀況,可以立即進行相對應的備援啟動計畫或移轉計畫。
第三,定時演練移轉計畫與改善。再好的計畫沒有妥善的演練,很容易會淪為形式,真的出現障礙時,很有可能因為備份或同步資料不完整,導致整個計畫失敗。
根據 IDC 的預測表明:“預計到 2020 年,90% 以上的企業將使用多個雲服務和平台。”
著名的研究機構 451 Research 的調查也顯示:“ IT 的未來是多雲和混合雲,69% 的受訪企業表示,計劃在 2019 年採用各種類型的多雲環境。”
建議企業主在選擇雲平台的廠商時,根據以下 2 點做評選參考:
- 是否能夠幫客戶同時處理本地 IDC 機房與多雲平台管理
- 不只在設計階段提供你完善的建議,也可以實際幫你進行測試、維運與系統管理,讓公司的系統可以更加穩定。
圖片來源:bsdrouin / pixabay