滴滴崩了18小時，事故危機誰買單

文章編號：394 / 更新時間：2023-11-30 18:00:18 / 瀏覽：次

出品|51CTO技術棧（微信號：blog51cto）

“沒想到月底了，竟然因為這個原因沒了全勤……”

“滴滴崩了”成為昨夜今晨的熱詞。雖然滴滴于今日早間發博表示網約車服務已恢復，但是依舊有不少用戶反饋無法正常打車，只能選擇別的平臺或方式出行。

“技術人員因為出門打不到滴滴無法及時到達工作崗位導致修復延遲。”

雖然網友們已經開始玩起了黑色幽默，但不得不深思的是，如此大規模的宕機事故為何歷時一夜仍未恢復正常？

綜合各平臺用戶反饋看，此次滴滴App的崩潰是從昨日晚間10點多開始的。

有司機接受采訪時表示，在這次突發事件中，滴滴平臺在接單、定位、計費等各環節均出現了問題。有乘客表示，7公里路程花了將近270元。

圖片

更有司機提到，接了一單距離為8公里的訂單，收費顯示1540元。計費系統的混亂可見一斑。

經過一夜搶修，在早高峰來臨之際，滴滴發布微博表示“非常慚愧”，并更新了恢復情況。

滴滴稱“經技術團隊連夜修復，滴滴網約車等服務已恢復，用戶可下載滴滴App使用打車服務。騎車等服務還在陸續修復中，所有可開鎖或未關鎖的青桔車輛均可免費騎行，希望能為緩解早高峰壓力努力多做一點點。”??

圖片

遺憾的是，對于早間出行的上班族來說，這次系統故障的影響仍在持續。時至今天早上8點31分，依然有用戶反饋：好不容易打上了車，司機還是無法點擊確認“已接到乘客”，取消訂單也取消不了，客服也聯系不上。

在微博相關話題下，不少網友提到因滴滴崩潰影響了早上通勤。與此同時，除滴滴以外的多個出行平臺，如高德、T3，出現了爆單現象。

據滴滴出行此前公布的2023年第三季度財報顯示，單季度中國出行業務總交易額為725億元，日均單量達到3130萬單。如果將此次故障時長計算為12小時，估計將會讓滴滴損失過千萬的訂單量和超4億的交易額。

截至發稿，滴滴尚未對本次故障的具體原因作出說明。

這不是滴滴第一次出現類似的問題，但可能是滴滴恢復耗時最長、影響最廣的一次。

2022年9月22日，滴滴稱“由于機房網絡故障，導致滴滴部分服務受影響”。不到半天，經緊急修復后全面恢復。

2021年2月25日，由于“系統異常”，也出現了“部分訂單服務無法使用的情況”。

更早可追溯到2015年10月8日，“滴滴深圳部分服務器遭遇技術故障”，部分地區出現無法叫車的情況。

圖片

可以看到，以往滴滴出現技術故障，基本可以在較短時間內解決，影響范圍較小。相較之下，本次事件中，平臺功能幾乎全面癱瘓，僅網約車服務功能恢復時長近12小時。

鑒于滴滴尚未給出崩潰的根因，而目前披露的信息較少，所以出現了多方猜測。

有互聯網從業者在社交平臺爆料稱，是滴滴系統半夜被攻擊所致。“服務器沒有物理隔離，物理攻擊后臺服務全掛，dc都上不去。”

隸屬于不同板塊的業務之間本應有隔離，但從表象上看，打車、共享單車等業務全崩了，據此有人推測，問題可能出在更加底層的基礎設施。更有人指出，滴滴云可能就是此次系統崩盤的關鍵環節。??

2017年11月，滴滴公有云，伴著“為開發者而生”的口號低調上線。然而這個愿景最終落空，今年滴滴云官方宣布，由于產品線調整，自2023年3月31日起不再對外提供公有云服務。

雖然不知道具體問題在哪里，但是有一點是明確的：云服務的不穩定性對于使用服務的企業殺傷力是巨大的。

如果說去年阿里云香港節點的崩潰，讓大家認識到即便是技術巨頭，也無法保證云產品的穩定性，意識到單一云廠商會給企業帶來不小的風險，讓多云部署混合云部署的訴求再度上升。

那么今年11月12日阿里云產品的全線崩潰，則是讓全國用戶在對于日常高頻使用的近乎壟斷的App不再那么信任了。一點云服務上的配置不當，就會造成全國范圍內的應用故障，輕則數據丟失，重則業務受損，代價非常昂貴。

然而，彈性擴容、異地多活、災備這些故障防治措施預案，到底在故障發生時，能起到幾分效果，能否真正支撐起N個9的高可用數字？又一次引起了人們的質疑。

再好的預案沒演練過也只是預案。就像平時，很多公司都會聲稱我們的系統有備份能還原。實際上最后真的需要還原的時候發現，要么備份沒成功，要么備份成功了但是數據陳舊，要么找到數據采集設備出故障了，總之無法還原。演練的缺失，導致相關人員對于故障場景缺乏應用的理解和認識。

針對各種故障場景下服務的容錯能力、配置合理性、服務健壯性、監控告警實效性、定位與解決問題應急能力，也許只有在真實演練之后，這些名詞才能真正經得起現實的考驗，知道現有系統和線上服務的薄弱性。

“墨菲定律”告訴我們，永遠不要心存僥幸，怕什么往往就會來什么。

而除了技術層面，此次滴滴事件還折射出了更深層次的問題。據脈脈一名滴滴員工聲稱，不止外部的App，就連滴滴內部的辦公系統也癱瘓了。

圖片

這種自家系統故障當天不能修復的情況比較少見，不少聲音都認為是“降本增效”導致的。有經驗的技術人員在當下增速放緩的環境下，被企業砍掉，系統熵增的問題很難一時得到解決。

圖片

單純的技術問題往往只是表象。正如航空業所提出的，一個事故的發生，往往是一系列事故鏈條的最終結果。關于人、關于組織和流程的問題，我們或許更應該深思。

首先，要杜絕系統大范圍故障，需要企業真正的重視和投入。業內流行這樣一句話：面試造火箭，工作擰螺絲。面試篩選人才的時候問的問題都很高大上：如何保證系統的高可用，真到上崗干活的時候，往往由于許多原因并不會做出很多的設計和實現。??

圖片

“有些業務會為了一點點性能，堅決不接入這些設計，怎么勸都沒用。”

對于內部的安全放置、運維工作，不應該被視為負資產。今天系統的故障都是昨天買下的雷。

其次，企業對于應急響應機制需要高度重視，尤其在技術層面，不能應付了事。

針對可能出現的突發事件，要確保在發生問題時能夠迅速響應、有效處置。??

最后，做好事后分析，避免重蹈覆轍，兩次踏進同一條錯誤的河流。崩潰的直接原因是什么，為什么，當時是如何應對的，如何降低此類事件再發的可能性或影響，如何使我們在此類事件中的溝通更有效。

滴滴出行崩潰事件不僅僅是一家企業的問題，更反映了互聯網企業在快速發展中普遍面臨的挑戰。作為行業巨頭，滴滴在追求經濟效益的同時，應充分履行社會責任。如何保護用戶的數據安全？如何提供穩定可靠的服務？如何推動行業健康發展等等，都是亟待回答的問題。無論是阿里云還是滴滴，大范圍宕機后，都是牽一發而動全身。對于互聯網企業而言，只有不斷加強技術研發、優化服務體驗、履行社會責任，才能持續贏得用戶的信任和支持。

北京市海淀區中關村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號營業執照

我關注的話題
相關標簽：滴滴、效益、事故、

本文地址：http://www.schoolwires.net.cn/article-394.html

上一篇：在少樣本學習中，用SetFit進行文本分類...
下一篇：生成式AI與預測式AI的主要區別與實際應用...