並行度說明:
maptask的並行度是指map階段有多少個並行的maptask共同處理任務
注意點:
1.因為每個切片的大小預設情況下是128m,如果乙個檔案是260m,那麼切了128m後還剩132m,如果剩餘的長度/splitsize <= 1.1,就將我們剩餘的全部併入乙個切片中。
2.小檔案情場:預設的切片機制會造成大量的maptask處理很少的資料量,這樣效率很低下:
解決方案:
a.上上策:在把小檔案上傳到hdfs之前就進行預處理,事先合併後在上傳;
b.上策:事先將小檔案進行合併(自己寫合併程式);
c.中下策:修改getsplits()的邏輯,把多個小檔案當成大檔案來處理。
1.2執行過程說明:
1.首先由driver向resourcemanager提交請求執行乙個job命令
2.resourcemanager同意之後,返回給乙個jobid和儲存切片,jar檔案的位置
3.客戶端根據返回的資訊將切片和jar檔案上傳到hdfs的指定位置中,都是臨時檔案
4.driver申請乙個容器,執行程序。預設值是1.5g
5.resourcemanager同意之後,生成容器任務,放進資源佇列
8.並且向resourcemanager申請container執行maptask(yarnchild)
10.maptask開始執行,進行資料處理
11.當maptask執行結束後,向resourcemanager申請新的容器,執行新的yarnchild(reduce task)
12.reducetask開始執行,拉取資料
Yarn資源排程
由於yarn良好的相容性和擴充套件性,目前可以支援大部分資料引擎,所以了解yarn的資源排程原理很有必要,yarn主要由四個重要角色組成 yarn排程主要分為8個步驟如上圖所示 1.有yarnclient提交program資訊打拼resourcemanager,包括 應用 和應用需要的一切引數和環境...
Yarn資源排程
yarn的介紹 yarn是hadoop集群當中的資源管理系統模組,從hadoop2.0開始引入yarn模組,yarn可為各類計算框架提供資源的管理和排程,主要用於管理集群當中的資源 主要是伺服器的各種硬體資源,包括cpu,記憶體,磁碟,網路io等 以及排程執行在yarn上面的各種任務。yarn核心出...
yarn 資源排程
目錄關於yarn常用引數設定 yarn我們都知道主要是用於做資源排程,任務分配等功能的,那麼在hadoop當中,究竟使用什麼演算法來進行任務排程就需要我們關注了,hadoop支援好幾種任務的排程方式,不同的場景需要使用不同的任務排程器.把任務按提交的順序排成乙個佇列,這是乙個先進先出佇列,在進行資源...