《google sre》這本書,說過這樣一句話:系統正常,只是該系統無數異常情況下的一種特例。故障是不可避免的,不管是再牛的系統、再知名的科技公司。
既然不可避免,我們要做的就是不斷提公升能力和優化流程,減少故障出現的概率。
今天公司線上系統出現了響應遲鈍的情況,白天偶現,到了晚上,出現雪崩效應。各個系統,都出現相應超時等情況。最終定位到有乙個太伺服器的cpu跑滿了。
其實監控系統已經出現報警提醒,但因未有一套規範流程。沒有第一時間觀察到。出現線上有問題,第一時間應該檢視監控系統是否有異常情況,再觀察業務系統本身,如果出現雪崩情況,需要進一步排查底層支援系統(如資料庫)。
所以說出現故障時,快速定位、快速修復,需要建立一套應該故障處理流程。建立相應的流程可以借鑑大廠的處理方式。然後一步步完善,逐漸建立自己的一套流程。
故障處理好後,逃不開的話題就是問責。我們公司比較奇怪,在定位到問題後,第一時間就開始問責了。
關於追責,《趙成的運維體系管理課》的觀點是:重點是不要打擊員工的積極性,一旦受到打擊,想要恢復是十分困難的。對於故障的時候處理,我的建議是:一定要區分好兩個概念,定責和處罰,定則不等於處罰。
定責,事情一定要有人承擔責任,並且負責後續改進措施落地。定責一般是故障覆盤之後確定的,通過這個過程找到根因,制定改進措施,最終判定責任方,會議和公開場合只體現責任團隊,故障系統上會記錄到具體責任人,但是這個欄位不公開。
這個過程,就乙個原則:對事不對人。
這裡首先問乙個問題,處罰的目的是什麼?其實說的直白一點,目的就是想讓責任人章機型,別再出紕漏,有效降低再犯錯誤的概率。
很多嚴重的故障都來自主觀意識薄弱、低階且重複的失誤,解決這個主觀意識上的問題,我們可以考慮設定高壓線。
高壓線就是避免因為無意識或意識薄弱導致的嚴重故障。這樣的問題要堅決杜絕,碰一次就要讓責任人疼一次,這樣,責任人敬畏意識和主觀意識提公升了,認為失誤才會減少,這樣的處罰才是有效果的。
當然,如果是其他型別的故障,就要區別對待,如:嘗試新的技術和方案、業務告訴發展等等。
處罰,是一種手段,而不是主要的目的。但是如果把處罰變成目的的話,就本末倒置了。
發生線上故障後問責是第一要務,確定責任人,進而進行改進,避免下次重複犯相應的錯誤。
但是不能把問責定義為處罰,如果問責只是為了處罰。那接下來的就不是改進了,下次一樣可能犯一樣的錯誤。很可能讓別人覺得,罰就罰吧,也已經習慣了。
得不償失,優秀的人員可能就會這樣流失。
發生線上事故這麼辦
值班人員快速查詢問題,定位不到的時候,立馬通知所有相關人員 嘗試恢復系統,最終要的不是修復bug,而是減少故障的影響範圍,並最快的修復問題 建議以使用者功能為索引的服務和資源的呼叫關係圖。為關係圖中的,各個業務定立關鍵指標和一套運維流程和工具,最好有運維系統監控系統 設定故障的等級和處理方式 故障演...
線上故障處理
於 2016 年 12 月 09 日 處理流程 故障後處理 前段時間在團隊內整理了乙份線上事故處理的流程,修改後在這裡分享。1.1 系統 業務報警 這個是獲取故障最常用的手段。一般的系統正常運營過程中都會有一定的指標監控。如 在系統層面某種報錯出現的次數,系統常規指標,如可用記憶體,jvm gc,連...
發生在宿舍的那點事
教父同學是本地人,可以說是寢室四個人裡面最喜歡學習的乙個,除此之外他最大的愛好大概就是打英雄聯盟了。奧利弗這個人很有故事,他也喜歡聽別人的故事,這也是他的愛好。賬單先生最不喜歡的就是動,對他而言,整個寢室最有價值的東西大概是床。小野貓不喜歡呆在寢室,他更喜歡去迪吧或者酒吧之類的地方,他管那叫做 生活...