隨心記:
1.預設切片=塊 所以預設map就處理乙個塊
2.切片大小可以人為調節,故乙個切片可以對應乙個或者多個map,也可以乙個切片對應多個塊(當要求切片資料》128m時)
3.切片是邏輯的,屬於計算層
4.map數量由切片決定 reduce數量由人決定,所以map和reduce可以是任何對應關係
5.reduce最優化案例分析
1.5組資料
2.3人,每人3個程式
6.以一條記錄為單位調取乙個map方法,預設一行是乙個記錄
7.map輸入以記錄為單位,但記錄的樣式由切片決定,切片可以將輸入資料樣式化
8.reduce輸入以組為單位,一組的可以有多條記錄
9.」相同「的key為一組,呼叫一次reduce方法,方法內迭代這一組資料進行計算
10.map的的k主要做特徵抽取
11.mapreduce運算速度快的核心是減少shuffer的資料量
12.reduce的排序強依賴map輸出的排序結果
沒有重排序的能力,僅可以歸併資料
13.就近原則優點:資料沒有移動,不會產生io
14.為減少資料移動做法:
1、磁碟設大 2、副本設多
客戶端:分析檔案,做切片清單,產生配置資訊,jar包(map類、reduce類)
rm統計資源dn情況
mr 執行在yarn集群流程分析
rm返回給其資源提交的路徑以及job的id號,staging jobid構成乙個job的唯一資源提交路徑,將job.split job.xml jar包提交到此路徑上面去,job資源提交完畢,rm將其分裝為乙個task,rm可能會處理多個task,所以需要資源排程,其主要有三種方式 fair 公平每...
Mr 結合yarn的執行流程 執行邏輯
1 為什麼要使用yarn?為了提公升集群的利用率 資源統一管理,使用yarn為上層應用提供統一的資源管理和排程的平台。2 yarn的優勢?資源的統一管理和排程 集群中所有節點的資源 記憶體 cpu 磁碟 網路等 抽象為container。計算框架需要資源進行運算任務時需要向yarn申請contain...
CString要點彙總
1 對乙個 cstring 變數,你可以使用的唯一合法轉換符是 lpctstr,直接 轉換成非常量指標 lptstr const char 是錯誤的。2.getbuffer getbuffer 用來得到乙個指向緩衝區的非常量指標.getbuffer 主要作用是將字串的緩衝區長度鎖定,releaseb...