2025 年 10 月 20 日,AWS 發生嚴重的全球性中斷事故,起因為 US-EAST-1(北維吉尼亞區域)內部 DNS 解析系統異常,連動超過 100 項核心服務發生錯誤。此事件對雲端應用穩定性與業務持續運營造成重大警示。本文將聚焦此事件的受影響服務範圍與實際復原案例,幫助企業理解故障影響面與 RTO 實務標竿。
主要受影響 AWS 服務分類
| 服務類別 | 服務 | 影響描述 |
|---|---|---|
| 資料儲存服務 | DynamoDB、S3、EFS | DNS 解析異常導致 API 呼叫失敗,訪問逾時或異常錯誤。 |
| 計算服務 | EC2、Lambda、ECS | 無法與資料儲存與身份驗證服務溝通,導致功能中斷。 |
| 控制平面服務 | IAM、CloudFormation、CloudWatch | 身份授權錯誤率飆升,無法正常調用資源與監控。 |
| 網路服務 | Route 53、API Gateway、CloudFront | DNS 查詢與流量路由異常,產生多重 502/504 錯誤。 |
| 通訊與協作 | Connect、WorkMail、Chime | 語音與郵件服務嚴重延遲,部分使用者無法連線。 |
受影響企業與平台案例
- 金融業:Coinbase、Robinhood、Lloyds Bank,平均下線與登入異常時間約 1 至 2 小時。
- 電商與物流:Shopify、Etsy、DoorDash 訂單系統停擺超過 3 小時。
- 遊戲與娛樂:Fortnite、Roblox、Disney+ 等用戶斷線問題持續 2 到 4 小時。
- 社交通訊平台:Snapchat、Discord、Slack 等多平台出現服務不可用。
- AI 及 SaaS:OpenAI、Mailchimp 及 Notion 亦受影響中斷。
此事件在全球層面波及數以千萬計用戶,強調雲端服務單點失效帶來的廣泛影響。
復原時間 (RTO) 實際觀察
| 服務分層 | 典型復原時間 (RTO) | 備註 |
| 核心 DNS 子系統(Route 53、DynamoDB API) | 約 160 分鐘 | AWS 官方於 10:11 GMT 恢復正常解析。 |
| 應用層平台(Roblox、Shopify、Fortnite) | 2 至 6 小時 | 受快取與排隊機制影響,恢復時間較長。 |
| 語音郵件服務(AWS Connect、WorkMail) | 約 8 小時 | 需長時間重建連線與同步資料。 |
| 整體服務綠燈時間 | 約 8 小時 | AWS Health Dashboard 完全綠燈時間點。 |
Cloudmax 建議:企業應如何設定 RTO 指標
- 控制平面服務:建議 RTO < 30 分鐘,確保身份驗證與資源控管快速回復。
- 應用層服務:設定 RTO < 60 分鐘,透過多區域部署與自動故障轉移縮短停機時間。
- 資料儲存與同步層:確保 RTO < 15 分鐘,RPO (Recovery Point Objective) < 5 秒,維持資料完整性。
企業應持續模擬不同層級故障演練,藉此調整並優化災難復原策略,避免因單點失效造成長時間停擺。
此次 AWS DNS 故障事件再次提醒企業,構築多層次、跨區域、甚至多雲的容錯架構,才是未來雲端高可用的真實保障。Cloudmax 期待與企業攜手建構更加韌性與智能的雲端服務平台。
延伸閱讀
歡迎轉載!請見:轉載原則。
Image by Suresh anchan from Pixabay
