AWS 公開服務故障原因,員工除錯時輸入錯誤指令

作者 | 發布日期 2017 年 03 月 07 日 8:05 | 分類 網路 , 雲端 follow us in feedly

日前 AWS 服務故障,影響眾多網站。AWS 公開了故障原因,表示員工在除錯時輸入錯誤指令,移除了較正常數目為多的伺服器,進而影響 S3 兩個子系統的運作。



兩個 S3 子系統需重新啟動

AWS 北維吉尼亞州的數據中心(US-EAST-1)日前發生故障,影響眾多網站,現在公開更多細節。他們表示,S3 團隊日前發現支付系統的運作較慢,於是輸入指令,打算移除 S3 子系統中用於處理支付的少量伺服器,但其中一個指令有誤,導致更多的伺服器也被移除。

該些伺服器是用作支援另外兩個 S3 子系統的運作。一個是索引子系統 (Index subsystem),用於管理 S3 物件的元資料(metadata)和地方資料,需要處理所有 GET、LIST、PUT 和 DELETE 請求;另一個是存放子系統(Placement subsystem) ,負責管理新儲存的分布,需要索引子系統方可正常運作,當要處理 PUT 請求時便會用到。

由於為數不少的容量(capacity)被移除,子系統需要重新啟動,過程中 S3 無法處理服務請求。因此其他依賴 S3 運作的儲存服務,如 S3 控制台、Amazon EC2 建立新執行個體(instance)、Amazon EBS 和 Amazon Lambda 都無法運作。

AWS 稱,由於兩個子系統已經多年未有完全重新啟動,加上 S3 近年迅速發展,重新啟動和檢查數據的時間較預期中久。

他們又指,之前的工具把容量移除得太快,現在他們已改良工具,減慢移除速度,並確保子系統不會有過少的容量,避免相同事件發生。他們也就事件致歉,將汲取教訓提升可靠度。

(本文由 Unwire Pro 授權轉載;首圖來源:AWS

延伸閱讀:

關鍵字: , ,

發表迴響