cloud service provider

面對雲服務提供商的大規模中斷,您如何選擇?

當我們將服務陸續從傳統的 IDC 機房移到雲平台後,雲平台的穩定性與後續的營運持續管理規劃變成了一個新的議題

這兩天接連發生大型雲服務提供商出現中斷的情況,首先是 AWS 中國北京區域,從 6/2 凌晨 2:00 開始出現 API 錯誤與 EC2 主機開啟失敗的問題,問題持續 11 個小時,緊接著 6/3 出現 Google 大當機,時間持續約三個小時,影響了基礎網路與 Google Cloud、 G Suite與 YouTube 還有使用 Google Cloud 的 Snapchat 及 Shopify 等網路服務。

我們回頭來看 2018 年的雲服務中斷情況,以下依照時間順序列出,也可以看到大大小小不同的中斷事件。(資料取得來源為极客邦科技 InfoQ 於 2018 年底發表之 2018 年十大云宕机事故盘点:主流无一幸免!一文,參照連結:https://www.infoq.cn/article/4pSNXHT4PuI4T*L8g1Sk

發生時間 雲平台 影響情況
2018/1/8 Google Cloud 當機 93 分鐘
2018/3/2 AWS 中斷時間數小時
2018/5/31 AWS 當機 30 分鐘左右
2018/6/17-2018/6/18 Azure 服務中斷 5 小時以上
2018/6/27 阿里雲 當機 30 分鐘,恢復服務穩定花費 1 小時左右
2018/7/20 騰訊雲雲硬碟 資料永久損毀
2018/7/24 騰訊雲 當機時間不明,恢復服務穩定花費 30-40分鐘左右
Prime Day AWS 故障持續近 6 小時
2018/9/4 Azure 影響時間超過 24 小時
2018/11/9 Google Kubernetes (GKE) 影響時間近 19 小時

 

從上列歷史經驗來看,無論服務提供商有多大,要靠單一服務就達成 100% 的可用性仍是有相當高難度的,因此我們需要做的除了慎選一個服務品質良好的供應商外,替您規劃與設計的廠商能否給予您良好的營運持續管理規劃 (BCP, Business Continuity Planning),並能同時使用多家雲平台,或者是使用雲平台搭配 IDC 機房的備援設定,也是未來評選的重要方向。

 

選擇可提供多元雲端平台服務及有能力建立 BCP 機制的供應商,可讓企業達到較完整的降低營運管理風險及成本、提高效率

 

Cloudmax 匯智持續營運計畫(BCP, Business Continuity Planning)對策:

首先,根據不同雲平台的特性,使用最適當的平台技術,有效降低成本與提高效率。

第二,使用不同的平台搭配增加可用性。再可靠的雲服務供應商還是會有中斷的可能,首先針對公司所需要的各種服務做出整理,並且列出可以接受的服務中斷時間,接著針對這些需求,設計服務中斷時的移轉與備援方案,根據障礙發生時的時間與狀況,可以立即進行相對應的備援啟動計畫或移轉計畫。

第三,定時演練移轉計畫與改善。再好的計畫沒有妥善的演練,很容易會淪為形式,真的出現障礙時,很有可能因為備份或同步資料不完整,導致整個計畫失敗。

 

根據 IDC 的預測表明:“預計到 2020 年,90% 以上的企業將使用多個雲服務和平台。”

著名的研究機構 451 Research 的調查也顯示:“ IT 的未來是多雲和混合雲,69% 的受訪企業表示,計劃在 2019 年採用各種類型的多雲環境。”

 

建議企業主在選擇雲平台的廠商時,根據以下 2 點做評選參考:
  1. 是否能夠幫客戶同時處理本地 IDC 機房與多雲平台管理
  2. 不只在設計階段提供你完善的建議,也可以實際幫你進行測試、維運與系統管理,讓公司的系統可以更加穩定。

 

圖片來源:bsdrouin  / pixabay