window集群故障處理1

2021-10-24 02:51:27 字數 904 閱讀 4303

平台:window server2016上的集群,由一組域控與兩個集群節點組成。

故障:ip位址資源,集群位址被用占用,導致集群不可用。

如下圖:

群集ip位址資源「群集 ip 位址」無法聯機,因為已在網路上檢測到重複 ip 位址。請確保所有 ip 位址都是唯一的。

原因查詢:

通過檢視群集日誌發現,最初的報錯是群集見證失敗,如下:

檔案共享見證資源「檔案共享見證」仲裁檔案共享「***」失敗。請確保檔案共享「***」存在且群集可以訪問檔案共享。

由於本群集是通過檔案共享進行仲裁的,並且這個共享檔案是乙個dfs分布式檔案共享,因此從對應的dfs查詢原因。如下:

發現對應dfs目錄的命名空間伺服器只有一台,並且該dfs目錄進行了複製,對應兩個實際目錄,因此判斷由於命名空間伺服器少了一台,造成區域性時段的dfs命名空間資料夾不可訪問,最終導致群集促裁失敗,兩個群集節點各自認為是主節點,搶占群集ip,出現裂腦現像。

處理:在對應的dfs目錄中新增另一台命名空間伺服器,該伺服器就是對應的實際目錄所有伺服器,新增方法是在對應的dfs命名空間上右鍵新增命名空間伺服器按提示操作即可。

dfs是一種分布式檔案系統,一般會使用乙個命名空間資料夾的方式,去訪問在分布在不同伺服器上的檔案,因此這些伺服器都應該加入該dfs命名空間伺服器中。

複製組,用於同步同乙個dfs命名空間資料夾下的各個伺服器上的資料夾中的內容。

Kafka集群故障處理細節

leo 指的是每個副本最大的offset hw 指的是消費者能讀到的最大的offset,isr佇列中最小的leo。hw 上圖消費者最多能讀到12,因為假如說leader掛掉了,那麼消費者讀到的話,肯定是讀整個集群中offset最小的那個.這個offset最小就意味著所有機器的offset肯定大於等於...

Polly簡介 1 故障處理策略

安裝 可以通過nuget實現快速安裝 install package polly 基本用法 乙個簡單的示例如下 varpolicy policy handle 定義所處理的故障 retry 故障的處理方法 policy.execute dosomething 應用策略 從上面的例子中我們可以看出,使...

集群故障處理之處理思路以及健康狀態檢查(三十二)

總之,出現問題不要慌,先根據異常 故障症狀初步推敲問題的所在,然後結合相關命令 工具 日誌推敲出具體問題。其中,具體的日誌內容是關鍵,請務必獲得相關異常的詳細日誌進行診斷,而不是被表象所迷惑,或者根據表象問題 比如 x pod崩潰了 去猜 搜尋或者請教他人。總體上,思路如下圖所示 如果問題實在無法解...