那天突然有人問我:問題解決和事件解決的區別。
今天剛好出了點問題,在解決完後,我突然對這二者有了更深入的體會。
舉個例子:
如果由於網路中斷,導致服務不可用,那麼這就是乙個時間,我們可以編號為2017-09-13號事件,那針對這一次的事件,我們可能通過重啟裝置,排查具體埠對映,或者更換新裝置等方式解決,那麼,在這次的事件中,我們解決問題的過程,既可以成稱為是一次事件解決過程。
但是這裡我們將面臨兩個問題:
1.在迅速判斷出故障後,能否迅速修復問題?
2.整個故障恢復過程中耗費的時間對業務造成的損失?
--這就引出了乙個核心店:運維的核心是保障業務的可用性
這就引出下面的問題解決方案。
仍以上例說明:
在這次的事件解決中,我們先是通過觀察現場環境、並逐一的對硬體、鏈路連通性、系統、服務等進行排查,最後確認故障是由網路裝置受損導致了服務不可用,然後我們又開始花大量的時間用於判斷具體原因並修復該受損裝置,最終恢復服務的可用性;
但是,圍繞上面的乙個核心店,我們再來思考這兩個問題,就會發現,這樣的突然事件處理方式必然是不可取的。那為了避免以後再出現這種情況,我們該怎麼辦?
我們是不是可以部署一套新環境,做乙個高可用的方案呢?一旦故障發生,我們可以實現手動或者自動,但是保證最迅速的切換到備用環境,從而維持業務正常使用。當然,考慮到成本問題,很多公司並不願做大動作。那我們可不可退而求其次,挑選整個環境中的幾分關鍵或故障頻發環節做有限度的冗餘?本例中完全可以事先準備一台低端裝置,但是預先配置好環境,這樣,一旦出現未知故障,我們迅速的使用新裝置直接替換;而待時間充分時再去研究具體原因,如此又完全不影響業務可用性,豈不兩全?
以上就是我對問題解決與事件解決的一點思考,隨筆記錄以備日後回顧。
關於Xcode的問題解決
這次的問題是在安裝webpack是出現的,報錯如下 錯誤 gyp no xcode or clt version detected 關於xcode的問題這應該不是第一次遇到了,早在之前安裝odoo專案時就有這一問題,當時是到 系統偏好設定 裡面去更新了xcode。記憶中上次電腦彈出需要更新軟體,我是...
1px 問題解決與事件
1 利用位圖利用背景background repeat x bottom left url background size 100 1px 2使用svg方式div3 查詢.border media screen and webkit min device pixel ratio 2 media sc...
關於使用者控制項事件丟失問題解決
1.如何動態載入使用者控制項。經常會遇到這樣的問題,需要根據輸入的引數來決定是否或者是載入哪乙個ascx,也就是ms所說的用程式設計的方式載入使用者控制項。常用的做法是在aspx加乙個placeholder votecontrolph,private void loadvotecontrol 2.動...