简要描述
LiCloud客户可在2021年07月15日之前提交工单申请全额退款或者官方24小时内重建VPS并免费延长2个月,此前因云服务器Ceph存储池故障导致宕机超30小时。
事件经过
2021年07月07日21:30左右,站长通过监控发现自己持有的LiCloud的VPS中的其中一台CPU占用率高达100%,另外一台直接掉线;站长尝试SSH连接以及在后台尝试软硬重启最后重装无果之后,直接对VPS所在的两个IP段进行了监控,发现整个网段除开网关外的IP全部不通,由此确认是宿主机出现了故障。于23:30分提交了工单,截至本文发布时(07月09日07:30),并未收到回复(补充编辑:在VPS重建完成后,站长才收到了工单回复)。
2021年07月09日06:50,LiCloud在官方频道发布补偿方案!
2021年07月10日08:00,官方将所有客户的VPS重建完成。稍晚些时站长将持有的两台VPS经过重新部署之后已上线。
2021年07月10日08:19,官方回复了站长之前提交的工单,工单回复内容包括故障原因及补偿方案。
2021年07月10日08:30,官方给客户群发邮件,内容包括故障原因及补偿方案。
2021年07月10日23:50,官方群发邮件,内容包括VPS重建完成时间并对未及时公告故障信息以及后期稳定性作出解释。
2021年07月11日12:04,站长又提交工单,因当日凌晨通过监控发现CPU占用率又是100%,SSH无法连接,后台重启失联。
2021年07月11日19:20,官方在频道公告Ceph存储池故障信息。
2021年07月12日19:00,官方在官网公告补充进度信息,可能在周三(14日)将Ceph存储池替换为SSD RAID 10并恢复VPS。
2021年07月13日06:00,官方在官网公告补充进度信息,Ceph故障修复,未来将继续使用Ceph,所有VPS重装之后启动。
公告全文
引用LiCloud官方频道内容(2021年07月09日06:50)。
這是一個非常壞的消息, 很抱歉, 用於雲伺服器的CEPH存儲池故障; 我司技術與支援友商技術人員2天努力, 已確認不可恢復, 這意味著您無法從雲司服務器獲取任何曾存儲的數據。
對此我們提供以下協商方案:
1: 您可提交服務單申請退款, 不論您几時購買, 我司將提供全額退款服務至本月15日. 2: 您的VM現起將於24小時內重建, 並免費延長續費週期2個月(如果沒有申請退款, 這將是默認方案).
再次非常抱歉此事故給您帶來的損失.
引用LiCloud官方频道内容(2021年07月10日23:27)。
2021.07.10 08:00 AM所有VM已完成重建, 您可登入客戶中心查看新的Root密碼.
我們收到有關本次事故的很多意見, 其中以下相對重要的我們向所有客戶通知:
*1. 故障沒有立即通知?
我們不確定結果, 所以未即時通知故障情況, 我們會在下次即時發出通知, 當然, 我們不期望有下次.
*2. 現在是否已經穩定?
是的, 我們在恢復之前做了很多壓力測試與可能的事故模擬, CEPH存儲集群工作的很好. 我們會在1-2個季度內部署一個新的CEPH存儲集群用於定期數據備份, 以保障發生任何意外時數據安全, 將您的損失降到最低.
引用LiCloud官方频道内容(2021年07月11日19:20)。
引用LiCloud官方频道内容(2021年07月13日18:42)。
使用CEPH遇到的問題遠比我們想象的多,連續2次遇到不可逆的故障時,我們在12日一度想放棄基於CEPH作為VM的存儲,更換為傳統的NVME RAID1或SSD RAID10。但這與我們成立的初衷相駁,我們希望新的技術、特性可以帶來更低的成本以降低VM的價格、提高穩定性為客戶帶來更好的體驗,而利潤目前並不是我們的首要考慮,我們有充足的資金來確保項目正常運行,從我們的價格可以發現我們幾乎沒有利潤。
第一次故障時我們無法通過日誌確定問題,之後聯絡了專業的技術公司支援,依然得到了不好的消息。確定不可逆後,我們決定刪除存儲重建。之後進行了一些測試,儘管依然出現短暫的錯誤,但它很快被CEPH自動修復,我們認為它達到了重建VM的要求。計劃在週一準備更換硬件來嘗試解決,但還沒到週一再次出現同樣的故障,嘗試修復無果不得不再次放棄數據修復,是的,這很讓人難堪,因為我們曾確定它不會出現嚴重的問題。
我們認為我們無法逃避該問題,克隆整個環境在實驗室確認了更換硬件也無法解決。在與技術公司深入調查後我們鎖定了一個問題,並確定這是一個升級bug。我們曾經通過集群管理工具升級CEPH,雖然顯示一切順利,且查詢沒有任何問題,但實際它並沒有完成,這是造成故障的實際原因,而它並不會在日誌顯示。
在做了一些調整後,我們已經真正解決了該問題,我們測試寫入了超過50TB的數據,幾乎是現在客戶存儲數量的50倍,以及創建了5000個VM,並在高負荷並發寫入的同時進行批量刪除,CEPH的狀態非常好!我們還嘗試停止多個OSD、部分MON、斷電一個節點或全部節點來模擬意外情況,CEPH在很短的時間自動完成了修復。
於是我們在13日07:00 AM重裝了所有VM開始恢復,是的,現在你不需要再擔心發生同樣事故,我們有非常好的經驗可以在很短的時間內修復很多的事故,同時我們會在1-2個季度內增加一個新的CEPH集群來存儲備份,會是每3天一次替換的冷備份,為您提供一個災難可退回的選項防止出現不可逆的存儲事故。
基於成本限製,我們無法在上次的賠償上做出更多,但我們依然提供全額的退款截止15日,您可以告訴我您的想法,給您帶來的損失非常抱歉。
站长吐槽
硬件故障导致VPS无法正常使用这一点不想去吐槽了,站长怎么着也算是资深小白了,遇到过网络故障、机房停电,也见识过机房失火、硬件损坏等一些突发状况;站长自从2016年开始做博客就养成了定期多重备份的习惯,对于站长来说,以上突发状况都不是事儿,只要商家根据SLA补偿就行了。主要的问题是在于LiCloud在发现故障出现的第一时间没有及时发布公告信息以及处理进度,只是在确认无法排除故障之后才给出一个补偿方案。
写在最后
使用VPS/云服务器的网友和站长们一定要养成常备份的好习惯,以及有随时可切换接手的备用方案。
我去,我就碰到这事,一直没公告这是大问题。我说云服务宕机是小概率事件,竟然被我碰到了。关键是官方啥公告也没有,8日早上发起工单,到傍晚都没回复。以为是流量用完了,还去花钱升级配置。最后万般无奈只能重装系统试试,发现竟然连重装镜像都选不了,安装成功后又报密码错,那时候基本实锤伺服器down掉。心寒。。。其实down掉不可怕,可怕的是服务不可用时,竟然没有任何响应和应急措施,也不知道发生什么事,白白浪费我一天时间。
@jediheroo 抱歉,这条评论直接进回收站了,没注意到。
硬件故障导致宕机确实是小概率事件,电子产品本身就存在不确定性,就连大厂也有丢数据的时候呢,只希望商家能够利用好自身技术提高稳定性,无限接近于100%可用性是最好的;另外,非常认同你的说法,不管是遇到什么故障,官方应该第一时间发公告。
@HostCSR 谢谢站长回复。另外,我早上10点(7月12日)检查了下服务,仍然没有恢复而且状态显示“未知”,并且即使想重装也会提示节点上的镜像不可用,已经在原来工单上回复了。还好我不是靠这个服务赚钱养家,不然估计都哭不出来。我收到的客服邮件上写,必须在收到邮件(周六上午)三天内回复是否申请退款(估计就是12日今天),但至今服务仍未恢复,对此我也只能无奈笑笑。
@jediheroo 我去,这评论怎么又进回收站了。
第一次修复之后,坚持了不到24小时就挂了,然后又修了两天。今天(13日)上午已经恢复,截至目前,连续监控10小时没有异常。
工单申请退款最后日期为15日。