「騰訊雲」因自身錯誤導致客戶網站所有資料遺失還沒有備份,僅願賠償 13 萬人民幣

作者 | 發布日期 2018 年 08 月 10 日 7:30 | 分類 中國觀察 , 網路 , 軟體、系統 follow us in feedly

中國第二大雲端廠商「騰訊雲」最近遭客戶「前沿數控」指控,表示他們在騰訊雲端伺服器存放的網站所有資料,全部被騰訊雲「搞丟」,而且騰訊連備份都沒有,等於公司所有心血及客戶資料全部毀於一旦,而騰訊表示他們會負責,賠償「13 萬人民幣」。



「前沿數控」是一間 2014 年成立的行銷公司,服務對象鎖定數位控制、模具與機械產業。像這種行銷公司最重要的就是累積的粉絲數量及客戶資料,他們目前已有 40 萬粉絲,也從過去原本只在微信公眾號的經營轉型到建立網站。且因流量持續成長,而在去年開始使用騰訊雲端服務,將所有資料搬到騰訊雲。

他們表示,騰訊雲宣稱公司的雲端虛擬機器(CVM)有 99.9999999% 可靠性,資料遺失機率微乎其微,且雲端硬碟還會有 3 個資料備份,簡直就是萬無一失。但是今年 7 月中,他們突然發現無法登入網站伺服器,且所有功能都無法使用。經過聯繫,騰訊表示部分雲端硬碟出現故障,正在搶修。不過搶修完畢後,「前沿數控」發現資料已損毀,再也無法使用。

根據「前沿數控」表示,自從事情發生後,平台已全部停止營運,過去的活躍用戶在這種情況下也逐漸流失,客戶對平台的信任度降至冰點,廣告商也要求他們退款賠償,公司融資計畫也被中止,公司陷入了生存危機。與騰訊討論賠償問題過了 14 天後,騰訊的答覆是 132,900 人民幣的補償金額。

騰訊表示,全額退還前沿數控從去年 12 月到今年 7 月消費的 3,569 人民幣,再加上 132,900 人民幣的現金或雲端資源。

資料救不回來是誰的責任?

據中國媒體的了解,「前沿數控」跟騰訊申請的服務為單部 CVM,只有系統硬碟沒有資料硬碟。如果拿我們比較熟悉的 PC 來解釋,就是他們只有一顆 C 槽,沒有 D 槽。

有裝過電腦的人都聽過「重要的資料不要放在 C 槽」這句話,意思就是資料與系統不要放在同一槽。這樣當系統出錯時,資料還可以救回來。而「前沿數控」就是把資料與系統放在同一顆雲端。

另外,資料備份有所謂的「三二一原則」。簡單的說明就是,要備份資料應該依循以下的原則,才能確保資料萬無一失:

  • 至少備份 3 份
  • 使用兩種不同形式
  • 其中一份備份要存放異地

以「前沿數控」的例子來說,至少該在本地電腦要同步備份一份資料,才能確保萬無一失。而他們也沒有做到這點。

不過,「前沿數控」向中國媒體表示:「騰訊雲宣稱這是十億份之一的概率,你想一個道理,人家的安全概率是這麼高了,還有 3 個備份,那還有什麼風險?3 個備份都出問題了,那再來幾個備份又(怎麼)能保證安全?」

後續處理:獅子大開口?

根據「前沿數控」表示,由於公司等於全部停止營運,因此認為騰訊必須賠償 1,101.6 萬人民幣,騰訊雲在事發後 14 天,提出的 13 萬人民幣的方案他們完全不能接受。

不過,騰訊也向媒體表示,對方的要求遠遠高出騰訊雲能提供的方案。對方甚至提出希望「獲得騰訊投資」、「騰訊官方引流」等補償方式,但騰訊表示,公司很難滿足這些要求。

不過,也有其他雲端業者質疑,騰訊的說法還是有問題,因為一個合格的雲端業者幫客戶做好備份是最基本的,騰訊還號稱有 3 個備份,而雲端硬碟出錯導致備份全都出錯,而且是 3 個備份都出錯,這實在是很難想像的事情。甚至懷疑騰訊雲端到底有沒有幫客戶備份?

而針對此事,騰訊也在 8 日發表了公開信說明,以下為騰訊全文。

騰訊發表公開信說明的真相

近日,騰訊雲客戶北京清博數控科技有限公司所屬「前沿數控」平台一塊操作系統雲盤發生故障,導致該客戶的文件系統數據損壞,我們對客戶業務所受影響表示誠摯歉意。同時,我們也對此次故障過程進行了深入的技術檢視。

檢視發現,該故障緣起於因磁碟預設錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不符合規範的操作,導致雲端的三副本安全機制失效,並最終導致客戶數據完整性受損。

痛定思痛,騰訊雲希望在盡力幫助客戶解決本次問題的同時,也通過相關機制的優化避免類似情況的再度發生。

故障過程檢視

當天上午 11:57,我們的運維人員收到倉庫 Ⅰ 空間使用率過高告警,準備發起搬遷擴容;在 14:05 時,運維人員從倉庫 Ⅰ 選擇了一批雲盤搬遷至新倉庫 Ⅱ,為了加速搬遷,手動關閉了遷移過程中的數據校驗;在 20:27 搬遷完成之後,運維人員將客戶的雲盤訪問切至倉庫 Ⅱ,同時為了釋放空間,對倉庫 Ⅰ 的源數據發起了回收操作;到 20:30 監控發現倉庫 Ⅱ 部分雲盤出現 IO

故障原因檢視

本次事故起源自因磁碟預設錯誤導致的單副本數據錯誤,再由於數據遷移過程中的不規範操作,導致異常數據擴散至三副本,進而導致客戶數據完整性受損。

數據搬遷過程中的違規操作主要如下兩點:

  • 第一是正常數據搬遷流程默認開啟數據校驗,開啟之後可以有效發現並規避源端數據異常,保障搬遷數據正確性,但是運維人員為了加速完成搬遷任務,違規關閉了數據校驗。
  • 第二是正常數據搬遷完成之後,源倉庫數據應保留 24 小時,用於搬遷異常情況下的數據恢復,但是運維人員為了盡快降低倉庫使用率,違規對源倉庫進行了數據回收。

因這些錯誤操作的連續影響,導致該客戶數據完整性受損,給客戶的正常業務運行造成影響,騰訊雲對此再次表示最誠懇的歉意。

改進措施

經過技術復盤,騰訊雲技術團隊深入到每個環節,通過責任到人與流程閉環的雙管齊下,相應做出如下的加強和改進措施:

  • 首先,我們將全面審視所有的數據流程,涉及數據安全的流程自動化閉環,進一步提升我們常規運維自動化和流程化,降低人工干預。同時把全流程的數據安全校驗作為系統的常開功能,不允許被關閉。
  • 其次,針對物理硬盤靜默數據錯誤,在當前用戶訪問路徑數據校驗自癒的基礎上,我們優化現有巡檢機制,通過優先巡檢主副本數據塊、跳過近期用戶訪問過的正確數據塊等方法,加速發現該類錯誤,進行數據修復。

進一步建議

騰訊雲自 2016 年 3 月以來一直在提供免費的快照功能,可以對重要數據進行定期備份。同時出於對客戶數據隱私性和安全性的考慮,客戶可以自由選擇開啟或者不開啟這一免費功能。騰訊雲在這裡也呼籲客戶開啟這一功能,進一步提升自身數據的安全性。

未來,本著對客戶數據最大的敬畏,騰訊雲將繼續探索更科學的機制,避免類似事件再次發生。

(本文由 T客邦 授權轉載)