死磕古董級伺服器
朋友接手了乙個公司,做電子商務的,原公司遺留下來3個伺服器,需要把裡面的資料拷貝出來,以便重新部署**業務。派了乙個兄弟過去處理,以為很快就能完成。哪知在那裡折騰了半天,連系統都進不去。**裡說:「找不到系統引導盤」。三個機器都試了,都不行,於是只好讓他先回來,等有時間自己去一趟,看能不能搞好。
幾天後,我到現場,看到三颱古董級的dell 2950,這玩意,我在05年的時候,用的最多。看著這堆舊貨,心裡就打鼓,沒信心能弄好。於是跟朋友說,這東西太舊,也不清楚硬體有沒有問題,只能盡力而為,搞不好不要怪罪。
書歸正傳,幹活開始…….
三颱機器是一模一樣的型號和配置。先拉一台接顯示器、鍵盤和電源。開機,不亮;看指示燈,沒顏色,估計是電源壞了。拔掉電源,從別的機器拿乙個過來頂上;開機,轟鳴了;判斷正確,確實是電源壞了。進入post自檢環節,螢幕輸出錯誤資訊,如下所示:
在這個地方就卡住不動了,再強制重啟幾次,照舊卡著。根據螢幕輸出提示可知,是記憶體容量、大小、速率等不匹配初步導致不能繼續引導。好吧,關機,拔電源,只留一根記憶體條;再插電,開機,故障排除。
接著再插一根記憶體,輸出資訊如下:
現在第乙個槽子和第五個槽子檢測到記憶體了。本來是挨著插的兩條記憶體,編號不是1、2而是1、5呢?手邊沒說明書,而且也不能上網。碰巧的是,我看到開啟的機蓋上有一些標識圖,心想這是不是記憶體槽子的編號?先按這個圖插記憶體,固然檢測顯示與期待的一致,有圖有真相:
稀里嘩啦把8根條子都插滿,開機,又卡住了,很可能這幾個伺服器的記憶體不是相容,拔出來一看,果然不僅品牌不同、模組型號等(一些條子標識是1rx8,而另一些是2rx8)也不同。再搬來一台伺服器開機,也是這樣的問題;檢視記憶體,也是這種情況。看來以前有人動過,把不同型號、不同頻率的記憶體插亂了。先找8根相同的記憶體,把最先處理的那個伺服器的記憶體插槽插滿。再加電開機,再也沒有記憶體相關的輸出提示了。
心中一陣狂喜,以為…..
自檢繼續進行,開始檢查磁碟,輸出如下:
沒找到硬碟,這意味著無法引導系統。斷電、拔硬碟、再插硬碟、開機,還是如此。進raid管理介面,能檢測到2個硬碟。檢查raid是否鬆動、線纜連線是否正常、raid的電池是否失效,結果post自檢還是沒識別到硬碟。再試著乾脆把raid卡電池拔了或者換另乙個伺服器的raid卡電池,問題依然沒解決。
坐下來尋思一下:既然raid控制器的管理程式能看到兩個物理磁碟,應該可以證明物理連線上不存在問題,硬碟本身也應該是好的,那麼可能的問題就是raid資訊丟失掉了。一般來說,raid資訊以元資料形式儲存在硬碟的最開始的幾個扇區內(是引導扇區還是超級塊,有待確定)。是不是自檢過程中,需要從raid控制器的儲存卡取得資訊?這款dell 2950的raid卡配有乙個鋰電池,像手機電池那麼大,可重複充電,用以保持控制卡的儲存器(像記憶體條)資訊不丟失。因為伺服器很久沒使用,raid卡的電池耗盡,raid儲存器裡的資訊自然也就丟失了。現在試試能不能重新把磁碟裡的raid資訊載入在raid控制器的儲存卡里,說不定就好了呢?
對raid控制器進行操控,唯一的方法是機器自檢過程中,按某些組合鍵進入raid管理介面,dell 2950是按ctrl + r ,如下圖所示:進入
進入管理介面以後,預設到虛擬磁碟管理(vd mgmt)項。
很明顯,可以看出raid資訊丟失了。根據螢幕底部的提示,按f2,然後方向鍵選定「foreign config」(外部配置),如圖所示:
再按f2調出子選單「import」輸入:
選定「import」後,降彈出確認視窗,選擇「yes」按鈕。當完成操作後,真的載入了磁碟裡的raid資訊到raid儲存器中,有圖為證:
退出raid控制器管理介面,然後重啟機器,開始自檢,這下硬碟(邏輯驅動器)識別出來了。
繼續往下,期待已久的系統引導介面開始出現。
到這一步了,還給我出亂子:檔案系統又損壞了。執行命令 fsck –y /dev/sda1 修復檔案系統,數分鐘後,修復完畢;再次執行fsck –n /dev/sda1 未發現錯誤。於是再次重啟系統,終於一切正常。
以同樣的方式,一併把剩餘的兩個伺服器也恢復為可用狀態。
2013/11/19
死磕古董伺服器
死磕古董級伺服器 sery 163.com 朋友接手了乙個公司,做電子商務的,原公司遺留下來3個伺服器,需要把裡面的資料拷貝出來,以便重新部署 業務。派了乙個兄弟過去處理,以為很快就能完成。哪知在那裡折騰了半天,連系統都進不去。裡說 找不到系統引導盤 三個機器都試了,都不行,於是只好讓他先回來,等有...
死磕古董伺服器
死磕古董級伺服器 sery 163.com 朋友接手了乙個公司,做電子商務的,原公司遺留下來3個伺服器,需要把裡面的資料拷貝出來,以便重新部署 業務。派了乙個兄弟過去處理,以為很快就能完成。哪知在那裡折騰了半天,連系統都進不去。裡說 找不到系統引導盤 三個機器都試了,都不行,於是只好讓他先回來,等有...
死磕古董伺服器
死磕古董級伺服器 sery 163.com 朋友接手了乙個公司,做電子商務的,原公司遺留下來3個伺服器,需要把裡面的資料拷貝出來,以便重新部署 業務。派了乙個兄弟過去處理,以為很快就能完成。哪知在那裡折騰了半天,連系統都進不去。裡說 找不到系統引導盤 三個機器都試了,都不行,於是只好讓他先回來,等有...