早上看cdh發現有乙個nodemanager掛掉
然後檢視對應的日誌。
發現在日誌裡面並沒有錯誤。,然然後發現伺服器的磁碟滿了,趕緊清理磁碟空間
清理磁碟的時候發現主要是/tmp目錄下面生成了很多
類似這種的日誌。
清理完空間之後 重啟nodemanager。發現還是啟不來
到這裡之後發現就停住了。。。。然後cdh頁面就掛了nodemanager還是起不來。
所以 find 一下
記憶體不足,
然後晚上九點過顯示磁碟空間不足,解決辦法
rm -fr /data/yarn/nm/usercache/*
刪除cache之後 重啟nodemanager正常
並且刪除
/var/lib/hadoop-yarn/yarn-nm-recovery/*
問題分析:由於這台機器上跑大任務,導致記憶體不足,記憶體不足 yarnnodemanager會一直報警寫到 /tmp目錄下,產生很多大檔案,進而導致磁碟不足,
刪除/tmp 下面的日誌之後 啟動node 但是一直起不來,yarn會去cache裡面 recovering任務,但是這些任務已經過時導致一直起不來,解決辦法就是刪除這些cache
詳細資訊可以參考
記一次除錯
這是我最近幾個月來遇到的最棘手的乙個問題 昨天花了4個小時找出第一層次的原因 這個糾結啊,本來和老婆說好準時下班回家吃飯的,結果被這個問題拖了老久。這是乙個gradle的plugin,用來resolve公司內部的dependency的,弄完了跑測試專案的,拋乙個npe,而且npe還不在自己的 裡面。...
記一次 EqualsAndHashCode的疑惑
lombok的使用真的是讓開發人員欲罷不能,乙個 data不管有多少屬性全部搞定,以後加字段也不用從新生成get和set方法。不過這裡還是有乙個小坑需要注意一下,舉個例子 public class equalsandhashcodetest data noargsconstructor access...
記一次除錯
這是我最近幾個月來遇到的最棘手的乙個問題 昨天花了4個小時找出第一層次的原因 這個糾結啊,本來和老婆說好準時下班回家吃飯的,結果被這個問題拖了老久。這是乙個gradle的plugin,用來resolve公司內部的dependency的,弄完了跑測試專案的,拋乙個npe,而且npe還不在自己的 裡面。...