面對雲服務提供商的大規模中斷，您如何選擇？

當我們將服務陸續從傳統的 IDC 機房移到雲平台後，雲平台的穩定性與後續的營運持續管理規劃變成了一個新的議題

這兩天接連發生大型雲服務提供商出現中斷的情況，首先是 AWS 中國北京區域，從 6/2 凌晨 2:00 開始出現 API 錯誤與 EC2 主機開啟失敗的問題，問題持續 11 個小時，緊接著 6/3 出現 Google 大當機，時間持續約三個小時，影響了基礎網路與 Google Cloud、 G Suite與 YouTube 還有使用 Google Cloud 的 Snapchat 及 Shopify 等網路服務。

我們回頭來看 2018 年的雲服務中斷情況，以下依照時間順序列出，也可以看到大大小小不同的中斷事件。（資料取得來源為极客邦科技 InfoQ 於 2018 年底發表之 2018 年十大云宕机事故盘点：主流无一幸免！一文，參照連結：https://www.infoq.cn/article/4pSNXHT4PuI4T*L8g1Sk）

發生時間	雲平台	影響情況
2018/1/8	Google Cloud	當機 93 分鐘
2018/3/2	AWS	中斷時間數小時
2018/5/31	AWS	當機 30 分鐘左右
2018/6/17-2018/6/18	Azure	服務中斷 5 小時以上
2018/6/27	阿里雲	當機 30 分鐘，恢復服務穩定花費 1 小時左右
2018/7/20	騰訊雲雲硬碟	資料永久損毀
2018/7/24	騰訊雲	當機時間不明，恢復服務穩定花費 30-40分鐘左右
Prime Day	AWS	故障持續近 6 小時
2018/9/4	Azure	影響時間超過 24 小時
2018/11/9	Google Kubernetes (GKE)	影響時間近 19 小時

從上列歷史經驗來看，無論服務提供商有多大，要靠單一服務就達成 100% 的可用性仍是有相當高難度的，因此我們需要做的除了慎選一個服務品質良好的供應商外，替您規劃與設計的廠商能否給予您良好的營運持續管理規劃 (BCP, Business Continuity Planning)，並能同時使用多家雲平台，或者是使用雲平台搭配 IDC 機房的備援設定，也是未來評選的重要方向。

選擇可提供多元雲端平台服務及有能力建立 BCP 機制的供應商，可讓企業達到較完整的降低營運管理風險及成本、提高效率

Cloudmax 匯智持續營運計畫（BCP, Business Continuity Planning）對策：

首先，根據不同雲平台的特性，使用最適當的平台技術，有效降低成本與提高效率。

第二，使用不同的平台搭配增加可用性。再可靠的雲服務供應商還是會有中斷的可能，首先針對公司所需要的各種服務做出整理，並且列出可以接受的服務中斷時間，接著針對這些需求，設計服務中斷時的移轉與備援方案，根據障礙發生時的時間與狀況，可以立即進行相對應的備援啟動計畫或移轉計畫。

第三，定時演練移轉計畫與改善。再好的計畫沒有妥善的演練，很容易會淪為形式，真的出現障礙時，很有可能因為備份或同步資料不完整，導致整個計畫失敗。

根據 IDC 的預測表明：“預計到 2020 年，90% 以上的企業將使用多個雲服務和平台。”

著名的研究機構 451 Research 的調查也顯示：“ IT 的未來是多雲和混合雲，69% 的受訪企業表示，計劃在 2019 年採用各種類型的多雲環境。”

建議企業主在選擇雲平台的廠商時，根據以下 2 點做評選參考：

是否能夠幫客戶同時處理本地 IDC 機房與多雲平台管理
不只在設計階段提供你完善的建議，也可以實際幫你進行測試、維運與系統管理，讓公司的系統可以更加穩定。

圖片來源：bsdrouin / pixabay

Cloudmax 匯智持續營運計畫（BCP, Business Continuity Planning）對策：

建議企業主在選擇雲平台的廠商時，根據以下 2 點做評選參考：

分享此文：

.tw 系列網域