出品|51CTO技術棧(微信號:blog51cto)
“沒想到月底了,竟然因為這個原因沒了全勤……”
“滴滴崩了”成為昨夜今晨的熱詞。雖然滴滴于今日早間發博表示網約車服務已恢復,但是依舊有不少用戶反饋無法正常打車,只能選擇別的平臺或方式出行。
“技術人員因為出門打不到滴滴無法及時到達工作崗位導致修復延遲。”
雖然網友們已經開始玩起了黑色幽默,但不得不深思的是,如此大規模的宕機事故為何歷時一夜仍未恢復正常?
綜合各平臺用戶反饋看,此次滴滴App的崩潰是從昨日晚間10點多開始的。
有司機接受采訪時表示,在這次突發事件中,滴滴平臺在接單、定位、計費等各環節均出現了問題。有乘客表示,7公里路程花了將近270元。
更有司機提到,接了一單距離為8公里的訂單,收費顯示1540元。計費系統的混亂可見一斑。
經過一夜搶修,在早高峰來臨之際,滴滴發布微博表示“非常慚愧”,并更新了恢復情況。
滴滴稱“經技術團隊連夜修復,滴滴網約車等服務已恢復,用戶可下載滴滴App使用打車服務。騎車等服務還在陸續修復中,所有可開鎖或未關鎖的青桔車輛均可免費騎行,希望能為緩解早高峰壓力努力多做一點點。”??
遺憾的是,對于早間出行的上班族來說,這次系統故障的影響仍在持續。時至今天早上8點31分,依然有用戶反饋:好不容易打上了車,司機還是無法點擊確認“已接到乘客”,取消訂單也取消不了,客服也聯系不上。
在微博相關話題下,不少網友提到因滴滴崩潰影響了早上通勤。與此同時,除滴滴以外的多個出行平臺,如高德、T3,出現了爆單現象。
據滴滴出行此前公布的2023年第三季度財報顯示,單季度中國出行業務總交易額為725億元,日均單量達到3130萬單。如果將此次故障時長計算為12小時,估計將會讓滴滴損失過千萬的訂單量和超4億的交易額。
截至發稿,滴滴尚未對本次故障的具體原因作出說明。
這不是滴滴第一次出現類似的問題,但可能是滴滴恢復耗時最長、影響最廣的一次。
2022年9月22日,滴滴稱“由于機房網絡故障,導致滴滴部分服務受影響”。不到半天,經緊急修復后全面恢復。
2021年2月25日,由于“系統異常”,也出現了“部分訂單服務無法使用的情況”。
更早可追溯到2015年10月8日,“滴滴深圳部分服務器遭遇技術故障”,部分地區出現無法叫車的情況。
可以看到,以往滴滴出現技術故障,基本可以在較短時間內解決,影響范圍較小。相較之下,本次事件中,平臺功能幾乎全面癱瘓,僅網約車服務功能恢復時長近12小時。
鑒于滴滴尚未給出崩潰的根因,而目前披露的信息較少,所以出現了多方猜測。
有互聯網從業者在社交平臺爆料稱,是滴滴系統半夜被攻擊所致。“服務器沒有物理隔離,物理攻擊后臺服務全掛,dc都上不去。”
隸屬于不同板塊的業務之間本應有隔離,但從表象上看,打車、共享單車等業務全崩了,據此有人推測,問題可能出在更加底層的基礎設施。更有人指出,滴滴云可能就是此次系統崩盤的關鍵環節。??
2017年11月,滴滴公有云,伴著“為開發者而生”的口號低調上線。然而這個愿景最終落空,今年滴滴云官方宣布,由于產品線調整,自2023年3月31日起不再對外提供公有云服務。
雖然不知道具體問題在哪里,但是有一點是明確的:云服務的不穩定性對于使用服務的企業殺傷力是巨大的。
如果說去年阿里云香港節點的崩潰,讓大家認識到即便是技術巨頭,也無法保證云產品的穩定性,意識到單一云廠商會給企業帶來不小的風險,讓多云部署混合云部署的訴求再度上升。
那么今年11月12日阿里云產品的全線崩潰,則是讓全國用戶在對于日常高頻使用的近乎壟斷的App不再那么信任了。一點云服務上的配置不當,就會造成全國范圍內的應用故障,輕則數據丟失,重則業務受損,代價非常昂貴。
然而,彈性擴容、異地多活、災備這些故障防治措施預案,到底在故障發生時,能起到幾分效果,能否真正支撐起N個9的高可用數字?又一次引起了人們的質疑。
再好的預案沒演練過也只是預案。就像平時,很多公司都會聲稱我們的系統有備份能還原。實際上最后真的需要還原的時候發現,要么備份沒成功,要么備份成功了但是數據陳舊,要么找到數據采集設備出故障了,總之無法還原。演練的缺失,導致相關人員對于故障場景缺乏應用的理解和認識。
針對各種故障場景下服務的容錯能力、配置合理性、服務健壯性、監控告警實效性、定位與解決問題應急能力,也許只有在真實演練之后,這些名詞才能真正經得起現實的考驗,知道現有系統和線上服務的薄弱性。
“墨菲定律”告訴我們,永遠不要心存僥幸,怕什么往往就會來什么。
而除了技術層面,此次滴滴事件還折射出了更深層次的問題。據脈脈一名滴滴員工聲稱,不止外部的App,就連滴滴內部的辦公系統也癱瘓了。
這種自家系統故障當天不能修復的情況比較少見,不少聲音都認為是“降本增效”導致的。有經驗的技術人員在當下增速放緩的環境下,被企業砍掉,系統熵增的問題很難一時得到解決。
單純的技術問題往往只是表象。正如航空業所提出的,一個事故的發生,往往是一系列事故鏈條的最終結果。關于人、關于組織和流程的問題,我們或許更應該深思。
首先,要杜絕系統大范圍故障,需要企業真正的重視和投入。業內流行這樣一句話:面試造火箭,工作擰螺絲。面試篩選人才的時候問的問題都很高大上:如何保證系統的高可用,真到上崗干活的時候,往往由于許多原因并不會做出很多的設計和實現。??
“有些業務會為了一點點性能,堅決不接入這些設計,怎么勸都沒用。”
對于內部的安全放置、運維工作,不應該被視為負資產。今天系統的故障都是昨天買下的雷。
其次,企業對于應急響應機制需要高度重視,尤其在技術層面,不能應付了事。
針對可能出現的突發事件,要確保在發生問題時能夠迅速響應、有效處置。??
最后,做好事后分析,避免重蹈覆轍,兩次踏進同一條錯誤的河流。崩潰的直接原因是什么,為什么,當時是如何應對的,如何降低此類事件再發的可能性或影響,如何使我們在此類事件中的溝通更有效。
滴滴出行崩潰事件不僅僅是一家企業的問題,更反映了互聯網企業在快速發展中普遍面臨的挑戰。作為行業巨頭,滴滴在追求經濟效益的同時,應充分履行社會責任。如何保護用戶的數據安全?如何提供穩定可靠的服務?如何推動行業健康發展等等,都是亟待回答的問題。無論是阿里云還是滴滴,大范圍宕機后,都是牽一發而動全身。對于互聯網企業而言,只有不斷加強技術研發、優化服務體驗、履行社會責任,才能持續贏得用戶的信任和支持。
北京市海淀區中關村南1條甲1號ECO中科愛克大廈6-7層
北京市公安局海淀分局備案編號:110108002980號營業執照
本文地址:http://www.schoolwires.net.cn/article-394.html