環境:rancher管控的k8s集群。
現象:某個node頻繁出現「pleg is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s」錯誤,頻率在5-10分鐘就會出現一次。
排查:kubectl get pods --all-namespaces
發現有乙個istio-ingressgateway-6bbdd58f8c-nlgnd
一直處於terminating狀態,也就是說殺不死。
到node上docker logs --tail 100 kubelet
也看到這個pod的狀態異常:
i0218 01:21:17.383650 10311 kubelet.go:1775] skipping pod synchronization - [pleg is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s]
...e0218 01:21:30.654433 10311 generic.go:271] pleg: pod istio-ingressgateway-6bbdd58f8c-nlgnd/istio-system failed reinspection: rpc error: code = deadlineexceeded desc = context deadline exceeded
用kubelet delete pod
嘗試刪除,命令掛住。
用kubectl delete pod --force --grace-period=0
,強制刪除pod。
再到node上檢查這個容器是否真的被停止,docker ps -a| grep ingressgateway-6bbdd58f8c-nlgnd
,看到容器處於exited狀態。
觀察node狀態,問題依舊。
把pod關聯的deployment刪除,把乙隻處於terminating的pod用kubectl delete pod --force --grace-period=0
的方式刪除。
重新部署deployment。
問題解決。
相關issue
Kublet PLEG不健康問題排障
環境 rancher管控的k8s集群。現象 某個node頻繁出現 pleg is not healthy pleg was last seen active 3m46.752815514s ago threshold is 3m0s 錯誤,頻率在5 10分鐘就會出現一次。排查 kubectl get...
Kublet PLEG不健康問題排障
環境 rancher管控的k8s集群。現象 某個node頻繁出現 pleg is not healthy pleg was last seen active 3m46.752815514s ago threshold is 3m0s 錯誤,頻率在5 10分鐘就會出現一次。排查 kubectl get...
不健康庫存的鑑別
從上文可以看出,並不是除了當周要賣的,多餘的都是不健康的。多出的那些庫存裡面其中有一部分是為了滿足未來數週的正常銷售而選擇在當前保留的。所以overstock的庫存分為兩部分,一部分是健康的,另一部分是不健康的。當然,理想情況下,每週要賣多少,我就進多少貨,做到零冗餘,這樣不會有任何多餘的損耗。實際...