fmea 方法,就是保證我們做到全面分析的乙個非常簡單但是非常有效的方法。
1、fmea 介紹
fmea(failure mode and effects analysis,故障模式與影響分析)又稱為失效模式與後果分析、失效模式與效應分析、故障模式與後果分析等,fmea 是一種在各行各業都有廣泛應用的可用性分析方法,通過對系統範圍內潛在的故障模式加以分析,並按照嚴重程度進行分類,以確定失效對於系統的最終影響。
fmea 方法
在架構設計領域,fmea 的具體分析方法是:
常見的 fmea 分析**包含下面部分
1、功能點
當前的 fmea 分析涉及的功能點,這裡的「功能點」指的是從使用者角度來看的,而不是從系統各個模組功能點劃分來看的。2、故障模式
故障模式指的是系統會出現什麼樣的故障,包括故障點和故障形式。需要特別注意的是,這裡的故障模式並不需要給出真正的故障原因,我們只需要假設出現某種故障現象即可。3、故障影響故障模式的描述要盡量精確,多使用量化描述,避免使用泛化的描述。如mysql響應時間達到3秒,而不是mysql 響應慢。
當發生故障模式中描述的故障時,功能點具體會受到什麼影響。常見的影響有:功能點偶爾不可用、功能點完全不可用、部分使用者功能點不可用、功能點響應緩慢、功能點出錯等。4、嚴重程度故障影響也需要盡量準確描述。
嚴重程度指站在業務的角度故障的影響程度,一般分為「致命 / 高 / 中 / 低 / 無」五個檔次。嚴重程度按照這個公式進行評估:嚴重程度 = 功能點重要程度 × 故障影響範圍 × 功能點受損程度。5、故障原因
「故障模式」中只描述了故障的現象,並沒有單獨列出故障原因。主要原因在於不管什麼故障原因,故障現象相同,對功能點的影響就相同。那為何這裡還要單獨將故障原因列出來呢?主要原因有這幾個:6、故障概率
這裡的概率就是指某個具體故障原因發生的概率。一般分為「高 / 中 / 低」三檔即可,具體評估的時候需要重點關注硬體/開源系統/自研系統/7、風險程度
風險程度就是綜合嚴重程度和故障概率來一起判斷某個故障的最終等級,風險程度 = 嚴重程度 × 故障概率。因此可能出現某個故障影響非常嚴重,但其概率很低,最終來看風險程度就低。8、已有措施
針對具體的故障原因,系統現在是否提供了某些措施來應對,包括:檢測告警、容錯、自恢復等。9、規避措施
規避措施指為了降低故障發生概率而做的一些事情,可以是技術手段,也可以是管理手段。10、解決措施
解決措施指為了能夠解決問題而做的一些事情,一般都是技術手段。11、後續規劃
綜合前面的分析,就可以看出哪些故障我們目前還缺乏對應的措施,哪些已有措施還不夠,針對這些不足的地方,再結合風險程度進行排序,給出後續的改進規劃。附:fmea分析表舉例
架構要素 高可用性
實現高可用架構的主要手段是資料和服務的冗餘備份及失效轉移。高可用的應用 應用層主要處理 應用的業務邏輯,因此也稱業務邏輯層,應用的乙個顯著特點是應用的無狀態。所謂無狀態的應用是指應用伺服器不儲存業務的上下文資訊,而僅根據每次請求提交的資料進行相應的業務邏輯處理,多個服務例項 伺服器 之間完全對等,請...
XenServer架構之高可用性概述
xenserver ha是一套全自動功能設計,規劃,安全地恢復出現問題的xenserve 主機上的虛擬機器的功能元件。啟用 ha 後,xenserver 將持續監視池中主機的執行狀況。如果當前 vm 主機發生故障,ha 機制會自動將受保護的 vm 移動到一台執行狀況良好的主機上。此外,如果發生故障的...
軟體體系架構 系統可用性
系統的可用性,即系統服務不中斷執行時間佔實際執行時間的比例。所以,可用性其實是乙個百分比,如99.9 根據iso 9241 11的定義,可用性是指在特定環境下,產品為特定使用者用於特定目的時所具有的 有效性 效率和主觀滿意度 我們通常會聽說乙個詞 高可用,其實指的就是高可用性。高可用指的就是系統服務...