既然網路裝置是一台機器,就有可能出現「疲勞」,從而導致各種各樣的硬體故障出現。硬體的故障,一般有下面幾種情況。
停機屬於重大安全問題,造成停機的原因一般有以下幾點:
(1)裝置電源模組損壞,常見於一些單電源的盒式交換機;
(2)裝置在搬移過程中,因為碰撞,摔打造成的主機板晶元受損;
(3)一些使用超年限的裝置,在重啟的時候出現問題,起不來了;
(4)因為機房環境不好,裝置溫度過高造成「假死」的現象。
裝置停機屬於重大安全問題,也是特別緊急的事件,需要馬上更換裝置。即使是假死,都要把備機準備好了再操作,防止假死的裝置重啟時真的掛了。
比如,cisco 6509一般都會配備兩款引擎板卡,如果其中一塊引擎板卡損壞了,不至於造成該交換機停機,也不會導致網路業務中斷。但如果不及時換掉這塊壞引擎板,就造成了這台cisco 6509單引擎執行,這肯定就是單點故障的隱患。如果這台cisco 6509壞掉的是一塊48口的千兆電口板呢?那肯定連線在這塊電口板上的業務全部中斷了。這種情況,就看根據整體的網路業務有沒有受到影響來確定緊急程度了。對於客戶來說,壞乙個板卡也是需要立即更換的。
比如說一台h3c 12508上插了6塊電源,其中壞了那麼一塊;再或者是4個風扇,停了其中乙個。這種情況看起來對這台h3c 12508的正常運轉暫時沒啥影響,在處理的時候,也不是什麼緊急事件了。那這種情況,就要給客戶說明情況,根據要求來決定什麼時候進行處理。
軟體問題一般分為作業系統自身bug,還有人為因素導致的作業系統拷貝不完整造成的一系列問題。作業系統本來是一類軟體,或多或少都會有一些bug,可能體現在一些功能上面。
比較經典的乙個bug就是h3c r6600系列,出廠自帶的作業系統comware v7.1.059, ess 0322,在配置bfd和bgp聯動的時候(對端是cisco),bfd就不生效,需要公升級為v7.1.064, release 7618才可以。這也就是為什麼說官網經常對一些裝置的作業系統軟體提供一些新版本的軟體包或者補丁包。
人為因素則是因為在對裝置做軟體公升級的時候,因為對裝置作業系統軟體.bin檔案拷貝不完整導致裝置重啟以後就起不來了。導致這個問題的原因一般都是在拷貝軟體到裝置的flash裡時,沒有仔細核對拷貝後檔案的大小。
實施造成故障,這也算是一種比較常見的問題。網路割接實施本來就有風險。如果是操作人員經驗不足或者技藝不精,對割接的風險評估不足,前期的測試準備不充分,就有可能在網路割接的時候不僅沒能對網路完成優化改造,反而帶來一些新的故障。
乙個很典型的例子,就是思科的裝置換成華為或者h3c。比如拿乙個拓撲圖來說:
之前的cisco 4503e使用的閘道器冗餘協議是hsrp,換成華為就要換成vrrp。在這裡要注意的就是,hsrp的組播位址是224.0.0.2,vrrp的組播位址是224.0.0.18,這裡是hsrp和vrrp最關鍵的乙個差異點。所以,hsrp改vrrp,首先就要檢查cisco 4503e上的所有vlan介面(svi),看看vlan介面下是否掛了acl,這個acl下必須增加放行224.0.0.18。
你可能會說,lacp是通用協議,華為的裝置也支援啊!但是你要知道的是,思科的鏈路**是port-channel,華為是eth-trunk。華為eth-trunk**的預設是手工模式,也不是lacp,所以,華為這邊需要在配置eth-trunk的時候,加一條「mode lacp」命令。
路由協議這邊的風險了。
可能你也會認為,ospf是通用協議,靜態路由更是幾乎所有三層裝置都能支援,又能有什麼問題呢?
在這個例子中,兩台cisco 4503e通過ospf收取路由,再利用靜態路由進行分流。對於cisco裝置來說,ospf路由的ad值是110,靜態路由的ad值預設是1。而華為裝置,ospf內部路由pref值(類似於cisco的ad值)是10,ospf外部路由的pref值是150,靜態路由的pref值是60。所以這裡可以看見:對於cisco裝置,靜態路由優先順序高於ospf;而華為裝置,ospf內部路由的優先順序卻高於靜態路由。所以為了防止思科換華為以後分流失效,所以在華為裝置上配置靜態路由時,將pref值強行改為1。
如果是多路由協議混跑的骨幹網中,思科裝置換華為或h3c後,有時候也要在把華為或h3c上,把路由的prefer值強行改為與cisco一致。
當然,這裡說的風險都是從巨集觀上就能發現的一些風險,還有一些小細節也可能是風險點。比如光模組能相容cisco,但不一定能相容華為這些問題,能考慮到哪些就考慮到哪些,考慮得越細緻,割接時出問題的概率就越低。
設計的缺陷分為以下幾種情況:
任何乙個企業,網路規模都是從小到大的,在最初的時候,因為使用者數量少,ip位址充足,所以在規劃ip位址的時候都比較「奔放」。到了後期,使用者數量逐漸增加,業務分類也越來越多,ip位址的管理也會變得越來越複雜。如果在最初的時候就沒有對ip位址有乙個較好的規劃,就很容易在後期導致ip不夠用或者是把兩段ip位址規劃到了不同的站點裡面。
比如設計二層網路的時候,讓生成樹的計算拓撲圖變得比較複雜,使得stp無法收斂;還有就是ospf的區域規劃欠考慮,路由協議也是隨心所欲的用,裝置上重分發很多,這些都會大大提公升網路**故障的概率。
網路中常見的指令
linux下有很多 關於網路的指令,這些指令可以幫助我們檢視網路的狀態和運 況。1.netstat netstat是乙個用來檢視網路狀態的工具 常見選項 a或 all 顯示所有連線中的socket c或 continuous 持續列出網路狀態 c或 cache 顯示路由器配置的快取資訊 f或 fib...
面試中常見的網路問題
一 ping命令使用了什麼協議?使用的是icmp協議,是tcp ip的子協議,用於在ip主機 路由器之間傳遞控制資訊。二 常見的http狀態碼 http狀態碼是由三位數字組成的,第乙個數字定義了響應的類別 1xx 指示資訊,表示請求接收,繼續處理。2xx 表示請求成功 3xx 重定向 4xx 客戶端...
常見的網路故障原因(下)
在工作中,網管員難免會遇到網路故障,尤其是在h3c交換機組網時會遇到更多的問題,為了方便大家的工作,今天給大家介紹一些經典的網路故障案例。1.h3c交換機剛加電時網路無法通訊 網路故障現象 h3c交換機剛啟動時無法連線網路,等待一段時間後才能夠。使用一段時間後訪問其他計算機的速度才加快,如果有一段時...