《AI 整理版|AWS 全球大當機完整解密:DynamoDB DNS 競態引爆連鎖故障、官方根因與賠償機制全解析》
以下整理上週(以台北時間,落在 2025/10/20–10/21)AWS 全球性大規模事件的官方根因、時序、影響範圍、後續改進與賠償機制。所有敘述均以 AWS 官方文件為主,並輔以權威媒體技術脈絡補充。你要決策、要追 SLA、要做事後改善,照這份做。
結論
- 根因(Root Cause):DynamoDB 於 us-east-1 的自動化 DNS 管理系統存在潛在競態條件(race condition),導致將 regional endpoint(dynamodb.us-east-1.amazonaws.com) 的 DNS 記錄誤更新為空集合,且自動修復失效,需人工介入修正;接著 EC2 的 DropletWorkflow Manager(DWFM) 與網路狀態傳播 backlog 引發新開機/網路配置的連鎖復原延遲;NLB 健康檢查在網路狀態未完全傳播時誤判,觸發 AZ failover 造成連線錯誤攀升。
- 範圍:起於 DynamoDB,但波及 EC2 / Lambda / EKS / ECS / Fargate / NLB / Connect / Redshift 等多項服務於 us-east-1;全球大量第三方服務連鎖受影響。
- 官方時序(PDT→台北時間):事件自 10/19 23:48 PDT(10/20 14:48 TST) 起,分三波衝擊,AWS 宣告 10/20 15:01 PDT(10/21 06:01 TST) 全部服務恢復正常。詳細見下方時序表。
- 後續改進:全面停用 DynamoDB DNS Planner/Enactor 自動化並修補競態、對 NLB 加上容量移除速度控制(velocity control)、EC2 增加 DWFM 復原大規模測試與以佇列深度為基準的節流機制。
- 賠償(SLA Service Credit):依各服務 SLA 申請服務抵用金(Service Credit),非自動發放,需在事件後第二個帳單週期結束前透過 Support Case 以「SLA Credit Request」提出。範例如 DynamoDB SLA、EC2/Compute SLA 與各服務的 Credit Request 條款。
一、Root Cause(技術根因拆解)
- DynamoDB:DNS 管理競態 → 空白 DNS 記錄 → 端點無法解析
- 內部 DNS Planner 產生計畫、DNS Enactor 多 AZ 冪等套用至 Route 53。因一個 Enactor 長時間重試延遲,另一個較新的計畫先套用且觸發舊計畫清理;延遲的 Enactor 之後把舊計畫套回 regional endpoint,而清理程序又把該舊計畫刪掉,導致所有 IP 記錄被移除且狀態不一致,自動修復停滯,需人工介入。
- EC2:DWFM / Network Manager 復原連鎖
- 事件期間 DWFM 與 droplets 的 lease 檢查依賴 DynamoDB,先被拖垮;DynamoDB 復原後 lease 大量重建、工作佇列壅塞,DWFM 進入壅塞崩潰(congestive collapse),需節流+選擇性重啟才能清併列。接著 Network Manager 處理積壓的網路狀態傳播,造成新起機器可開但無法立即通網。
- NLB:健康檢查與 DNS AZ failover 的交互放大
- 健康檢查在網路狀態尚未完整傳播時誤判,導致節點被移出/又加回,放大負載與錯誤;AWS 一度停用自動健康檢查 failover 以回復容量。
上述技術解釋以 AWS Post-Event Summary(PES) 為準;外電報導(Guardian/Reuters/Wired 等)與第三方監測(ThousandEyes)之描述與 AWS 官方內容一致或相符。
二、官方時序(轉換為台北時間,UTC+8;括號內為 PDT)
來源:AWS About Amazon 官方更新與 PES。
- 10/20 14:48(10/19 23:48 PDT):DynamoDB regional endpoint DNS 異常開始,API 錯誤上升(第一波)。
- 10/20 17:25–17:40(10/20 02:25–02:40 PDT):AWS 修復 DNS 記錄;隨各地 DNS 快取過期,DynamoDB 恢復。
- 10/20 20:30–10/21 05:09(10/20 05:30–14:09 PDT):NLB 健康檢查誤判引發連線錯誤;09:36 PDT 停用自動 failover、14:09 PDT 恢復。
- 10/20 20:01–10/21 04:50(10/20 05:01–13:50 PDT):EC2 新開機與 API 逐步恢復,DWFM/Network Manager 清 backlog。13:50 PDT(10/21 04:50 TST) EC2 全恢復。
- 10/21 06:01(10/20 15:01 PDT):AWS 對外宣告所有服務恢復正常。
期間 IAM Console、Support Console、Redshift、Lambda、ECS/EKS/Fargate、Connect 皆有不同時段/型態的 API 錯誤與延遲,詳見 PES 細節分段。
三、影響與證據
- 多服務於 us-east-1 大範圍受影響,含 EC2/Lambda/EKS/ECS/Fargate/NLB/Connect/Redshift/IAM Console/Support 等;第三方大規模中斷(通訊、金流、遊戲、媒體等)。
- AWS Health Dashboard / About Amazon:官方對外狀態與統一時序;PES:完整技術剖析。
- 外部監測與媒體旁證(ThousandEyes / Wired / Guardian / Reuters):記錄全球影響與技術脈絡。
四、AWS 後續改進(官方承諾)
- DynamoDB:全球停用 DNS Planner/Enactor 自動化,修補競態並加防護,再評估重啟。
- NLB:加入 velocity control,限制單一負載平衡器在 AZ failover 時可移除的容量,以避免抽走過量健康容量。
- EC2:新增 DWFM 大規模復原測試套件;節流機制改為以佇列深度為準,高負載時自保服務穩定。
- 跨服務:檢討跨服務復原路徑以縮短下次 TTR。
五、賠償與申請實務(SLA Service Credits)
要點:不是自動賠付;你要主動提。標準流程如下(各服務 SLA 條款相近):
- 確認受影響服務與區域(例如:DynamoDB、EC2,區域 us-east-1),計算該月度可用性是否落入 SLA 賠付檔次。
- 提出申請:在 事件後第二個帳單週期結束前,到 AWS Support Center 建立 Support Case,主旨含 “SLA Credit Request”,附上受影響期間、資源、帳單證明與監測證據。
- 抵用金形式:Service Credit 會抵扣未來帳單(部份服務載明可視情況退刷同月信用卡),非現金退款。
參考:DynamoDB SLA、EC2/Compute SLA 與 Credit Request 條款(多服務條款結構相似)。
六、你現在該做的(行動清單|魔鬼教練版)
- SLA 索償
- 彙整你在 10/20 14:48–10/21 06:01(TST) 的錯誤率、失敗交易、不可用時段;逐一比對 DynamoDB / EC2 / 其他受影響服務 的月可用性與 SLA 門檻,本週內送出 Support Case。
- 架構補強(依官方改進方向對齊與超前部署)
- DNS 依賴降風險:對控制平面依賴(e.g., 資料表/隊列/金鑰管理)建立跨區域 endpoint fallback 與 更短 TTL / 獨立解析策略。
- 啟動分區容錯:關鍵業務至少雙區域(active/active),避免 us-east-1 單點;Global Tables 與讀寫路由切換演練常態化。
- NLB 容量與健康檢查:避免健康檢查信號耦合於延遲網路傳播;對AZ failover 做壓力測與節流曲線。
- EC2 啟動路徑:將冷啟容器/VM 的依賴降至最少;必要時改用可在異區預熱的機制、或以 Lambda/ECS/Fargate 輔助短期擴容。
- 運維演練:把這次時序寫進故障劇本(runbook),每月演練一次:DNS 端點解析失效 → 控制面不可達 → 容量節流 → 逐步恢復 的全鏈路演習。
- 外部技術脈絡可佐證你的設計說帖(ThousandEyes / Wired / Guardian)。
七、權威來源(官方文件|可供稽核附檔)
- AWS Post-Event Summary(PES):Summary of the Amazon DynamoDB Service Disruption in the Northern Virginia (US-EAST-1) Region(根因、時序、影響、後續改進的權威版)。
- About Amazon 官方公告(同日更新):Update – AWS services operating normally(整體時序對外版,含 PES 連結)。
- AWS Health Dashboard(事件歷史):可回溯各服務的官方時間線與公告。
- SLA 與賠償條款:
- DynamoDB SLA(可用性門檻與信用額度計算)。
- Amazon Compute/EC2 SLA(Region/Instance 級別承諾與 Credit)。
- Credit Request 規範(提出申請期限與格式要求)。
- 其他服務(如 S3、Connect)之 SLA 條款與 Credit 機制可類推查核。
- 外部權威脈絡(非官方,作為影響面旁證):ThousandEyes、Wired、Guardian、Reuters。