提公升小規模HDP集群的作業並行度

2021-09-10 09:32:18 字數 739 閱讀 3671

對於團隊使用的一些小型的hadoop集群來說,由於資源有限,團隊成員又多,並行開發和測試又密集,很容易出現資源緊張,作業被pending無法執行的情況,最大化的配置集群作業的並行度是開發環境的集群所必須的。

預設情況,yarn作業的提交順序使用fifo策略,如果想要提公升作業的並行度,可以改為fair

一般情況下yarn queue的am資源分配比不太會成為問題,預設的20%也是乙個比較合理的值,出問題的情況是我們在前一篇文章:hive jdbc連線tez(am)容器長期不釋放問題的解決方法中提到的。

在我們前面的文章:hive jdbc連線tez(am)容器長期不釋放問題的解決方法已經介紹過這個問題了,從對作業並行度的影響角度上看,這一問題主要的影響因素是當多個tez的am容器不被釋放時,am占用的總資源會迅速達到上限,進而導致其他作業遲遲無法進入執行階段。

同樣是tez的問題,預設情況下,乙個yarn的queue只能允許有乙個session, 這也會降低多個使用者使用hive jdbc連線並行執行sql,具體的配置項是:hive.server2.tez.sessions.per.default.queue,它的預設值是1, 我們可根據集群資源適當調大。以hdp為例,配置方式為:

如何做小規模的外包

最近和乙個台灣朋友配合做台灣本地的軟體業務到大陸開發,積累的一些從無到有的經驗,寫在這裡 大家分享一下 1 彼此信任 我和我的朋友認識有將近1年,但從沒有見過面,雙方平時溝通是msn,email,最近skype用的多,很急的時候也打 很少 但就專案合作來說,雙方都很坦誠,有什麼說什麼,這樣,才能降低...

小規模爬取豆瓣所出現的問題

閒來無事想去爬爬豆瓣的動漫,然後定期爬取解決下劇荒的問題,發現豆瓣對爬蟲的存在並不是很友好。首先出現的就是驗證碼的問題,在獲得全部的鏈結後準備逐個訪問獲取資料時明顯感覺到爬取資料有所下降,300個左右的資料用了7分鐘左右。其次在爬取300多個資料後,程式報錯,返回了response 403 豆瓣伺服...

HDP 集群中flume與kafka的整合

首先保證flume與kafka正確安裝並啟動,這個比較簡單,直接在ambari中新增新服務即可,不多贅述。配置flume 新建一配置檔案kafka.conf,編輯,追加一下內容。掃瞄指定檔案配置 agent.sources s1 agent.channels c1 agent.sinks k1 ag...