Kublet PLEG不健康問題排障

環境：rancher管控的k8s集群。

現象：某個node頻繁出現「pleg is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s」錯誤，頻率在5-10分鐘就會出現一次。

排查：kubectl get pods --all-namespaces發現有乙個istio-ingressgateway-6bbdd58f8c-nlgnd一直處於terminating狀態，也就是說殺不死。

到node上docker logs --tail 100 kubelet也看到這個pod的狀態異常：

i0218 01:21:17.383650 10311 kubelet.go:1775] skipping pod synchronization - [pleg is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s]

...e0218 01:21:30.654433 10311 generic.go:271] pleg: pod istio-ingressgateway-6bbdd58f8c-nlgnd/istio-system failed reinspection: rpc error: code = deadlineexceeded desc = context deadline exceeded

用kubelet delete pod嘗試刪除，命令掛住。

用kubectl delete pod --force --grace-period=0，強制刪除pod。

再到node上檢查這個容器是否真的被停止，docker ps -a| grep ingressgateway-6bbdd58f8c-nlgnd，看到容器處於exited狀態。

觀察node狀態，問題依舊。

把pod關聯的deployment刪除，把乙隻處於terminating的pod用kubectl delete pod --force --grace-period=0的方式刪除。

重新部署deployment。

問題解決。

相關issue

Kublet PLEG不健康問題排障

Kublet PLEG不健康問題排障

Kublet PLEG不健康問題排障

不健康庫存的鑑別

相關推薦