儲存系統作為如今大資料雲計算時代的根基,它的穩定才是支撐起如此海量資料的根本。所以各大相關行業對於這部分非常重視,所以在此針對儲存系統的故障處置簡單提出自己學習總結的一些思路。
首先在處理儲存系統發生的可能故障前必須對於整個儲存系統的架構以及原理有乙個清楚的了解。普遍來說儲存系統由主機、交換機及儲存裝置組成。它們之間可以是直連或者是ip網路或fc網路的方式進行連線。整個系統的穩定性跟每個組成部分都息息相關。
其次了解故障的分類,故障分類大致分為硬體故障、配置故障或者license類問題,先外部後內部,先處理高階警告後處理低階警告,先共性後個性。
面對故障的發生,第一步永遠都是先進行必要的資訊收集,對於整個儲存系統的基本資訊,故障資訊、儲存裝置資訊以及組網、主機伺服器資訊要有了解。這些部分可以直接管理到主機、交換機或儲存裝置中進行收集,如今廠商也都有專門研發維護工具來幫助管理者做這些事情。收集清楚這些資訊之後,才能對整個儲存系統有乙個普遍清晰的認知。至少對如今的故障可能發生原因有乙個了解,然後再細化到每個組成部分上排查可能問題。
一、主機層
在主機層面大多需要檢查的是作業系統版本,相應的hba卡是否達到合適的標準,如速率、iops及頻寬等。其次是在主機上安裝的多路徑軟體,檢視一下與儲存裝置連線的物理路徑的狀態以及儲存lun等資訊。
二、網路層
網路層次可能發生的問題大多是連通性問題,由於鏈路故障導致的丟包或者誤位元速率上公升等現象,此現象可以在交換機上觀察埠的資訊,觀察誤位元速率是否在持續增長,如有,則可能存在鏈路部件異常或接觸不良的現象。其次可能是埠速率或頻寬未達到標準,檢視埠配置及協商狀況,這些都有可能導致故障或者效能問題。
三、儲存層
儲存裝置可以在匯出相關告警,事件或者執行資料、系統日誌和硬碟日誌來進一步分析可能發生故障的原因,到底是儲存控制器問題還是底層的硬碟問題都需要一一排查。在底層儲存方面主要考慮儲存模組的配置,指示燈狀態等資訊,從指示燈狀態我們可以分析出是否存在硬體故障等,其次在配置方面:raid級別、分條深度、lun讀寫策略、cache策略,lun歸屬、硬碟型別等是否符合業務的特點以及不符合時可能導致的問題。都是需要我們在故障排查處理時需要考慮的。
總之面對儲存系統的故障,一定要具備乙個清晰的思路,不要盲目的去做。盲目的去做可能會惡化故障,從而使得排查難度進一步加大。
資料中心儲存系統故障該如何解決
在主機層面大多需要檢查的是作業系統版本,相應的hba卡是否達到合適的標準,如速率 iops及頻寬等。其次是在主機上安裝的多路徑軟體,檢視一下與儲存裝置連線的物理路徑的狀態以及儲存lun等資訊。二 網路層 網路層次可能發生的問題大多是連通性問題,由於鏈路故障導致的丟包或者誤位元速率上公升等現象,此現象...
板式換熱器的系統應用,系統故障處理
板式換熱器主要由多個板片組裝而成,且各個板片間均留有一定的空隙。當流體經過板片時,板片之間的間隙能起到冷熱交換的作用。由於流道空間非常小,流體在流經板片時的速度較快,易形成湍流,湍流間會形成較大的波紋。湍流波紋的影響大大提公升了板式換熱器的換熱效能。與一般的換熱器相比,其換熱效能優於一般的換熱器,這...
資料中心的幾種冷卻方式
大量的資料中心關注冷卻和濕度控制,大部分關心能耗,一些注重工作負載管理和效能優化,其他的關心資料中心設計和布局。本文主要研究現代資料中心豐富的冷卻和濕度控制方式 免費冷卻 密封冷卻 非整合加濕 濕度控制 蒸發或絕熱冷卻 更高的執行溫度 緊耦合或者熱源冷卻 智慧型互聯的冷卻系統 煙囪式機櫃和天花板風道...