故障回放:
硬體:dell伺服器r720
陣列:raid 5 h310
系統:windows 2008 r2
計畫在伺服器進行sql資料庫恢復操作(sql2008 r2),資料庫備份檔案800m,在還原操作中,進行到備份檔案讀取時,sql程式一直出現假死(換到普通pc機執行此操作正常),無響應情況。並且對系統操作時,不斷發生未響應,無法關閉程式、關機假死等情況。
初步懷疑硬碟運作有問題
由於伺服器由3塊硬碟組成raid5 ,突發奇想打算通過替換法判斷出哪塊硬碟影響到伺服器執行速度。
於是,立馬將伺服器關機,利索的把其中一塊硬碟拔出(top注:雖然有高可用,也盡量不要直接關機)。接著啟動伺服器,一切正常的進入到了作業系統。並且沒有任何異常提示。同樣的進行前面的資料庫還原操作。這次,讀取備份檔案時,依然出現沒有響應,直到最後sql報出超時的提示視窗(算是有所提公升),
但是,偶爾還是發生其他操作的無響應等情況,看來問題沒有解決。
接著,按原計畫,咔的一聲,把第二塊盤也給拔出來了,順便把第一次拿出來的盤放回去,進行第一次測試。這次,系統再也看不到了。系統提示找不到啟動盤,一下子著急了。把硬碟都全部插回去。結果,依然是那個結果。找不到啟動盤。(雖然支援熱拔插,也不要直接拔硬碟)
進入磁碟管理介面,硬碟狀態變為:1個盤含陣列資訊,2個盤識別為外來盤(foreign)。陣列已經不完整,提示failed。接著不斷拔插拔插,替換替換,依然無解。
第二天上班後,抱著崩潰的狀態,撥通了dell售後技術支援。講述了情況後。得到相應解釋:3塊盤的陣列5,資料分布在3個盤,通過演算法,校驗等進行資料定址,組合。當我第一次拔出第一塊盤後開機。陣列會自動降級degraded,並且產生最新時間戳。接著,我進行替換硬碟後,導致3塊硬碟時間戳不一致,陣列資訊不同步而出現fail現象。幸運的是第二塊拔出的盤會保留最新的時間戳,有機率進行匯入操作恢復。
於是,按要求進行操作。首先進入物理硬碟資訊頁面檢視最先狀態,3塊盤均顯示online.其他一塊為正常盤,一塊顯示rebliud,foreign.一塊為foreign.其實,有rebliud提示的盤為第二次拔出盤,有機率進行匯入。接著,進入vm介面。按f2進行匯入操作。重啟電腦後,一切正常,進入系統。萬幸啊!
另外,raid5的硬碟,不攜帶介面資訊,意思是,三快盤拔出,打亂後插入。依然可以識別並正常啟動。
另外,提醒各位,操作伺服器時,還是要三思。陣列的知識,有概念,但是每個廠家不一樣,動手前,還是找專業人士諮詢
本文出自 「xinsz08の平行時空」 部落格,請務必保留此出處
RAID 5(十三)其它
這些文章已經寫了好幾年了,可能已經過時了。在msn space和qqzone幾經輾轉之後,我想也許這些技術文章還是放在搞技術的部落格中更能幫助人。於是做了乙個艱難的決定,把這些文章一篇篇搬過來!絕對是原創的。前面幾篇林林總總,從raid 5原理,到錯誤,失效處理,主要還是圍繞資料處理的方方面面來說的...
我理解的RAID5
raid5 就是做奇偶校驗 異或操作 它假定兩塊硬碟同時壞的概率非常非常低,n塊硬碟做了raid5之後,可以用的是n 1塊硬碟的容量 例如,4塊硬碟,每塊硬碟的相應位做奇偶校驗 這也解釋了為什麼做raid之後,大容量的硬碟只能被識別出和其他硬碟大小相同的容量 1 2 3 4 0 0 0 0 0 0 ...
RAID 5 使用與配置
伺服器dell r370 配備4塊2t磁碟 採用raid5 3塊 一塊熱備盤。abc做raid5,d做熱備盤,b壞了,d替代b,a和c會往d裡面寫資料,這期間不需要對硬碟做任何操作。寫完以後,你再換掉壞盤b,陣列卡會識別到b盤,d盤將資料寫入b,恢復abc的raid5,d盤依舊為熱備盤。這種策略相對...