Pig解決MapReduce數量少,執行資料慢

2021-08-28 22:46:29 字數 430 閱讀 3647

當執行pig指令碼,出現map的數量極小,但是執行速度慢時。可以通過適當減小set pig.maxcombinedsplitsize的值來增加map的數量,從而加快執行速度。

因為,本地執行job佔全部job的比例越高,則執行速度越快

rack-local map tasks: 在同乙個機櫃中執行的map task數目

launched map tasks: 啟動的map task數目

data-local map tasks: 本地執行的map task數目

此外,還有最終成功執行的map task的個數: successful map tasks。

則,通過data-local map tasks / successful map tasks = 本地執行的map tasks的比例作為指標來衡量在map階段的效率。

Pig在MapReduce下的例項

前提 安裝的是完全分布式的hadoop,啟動hadoop,然後啟動pig 根據hadoop權威指南例項實現計算每年的最高溫度。1 第一步,建立temperature.txt的文件記錄每年的溫度 2 將temperature.txt檔案放到hdfs 檔案上去,具體操作如下 3 輸入pig,進入shel...

解決 MapReduce資料傾斜問題

技術最近在做資料溯源重構優化,計畫使用業務方的資料跑資料任務,以解決資料質量問題。過程中,碰到這樣乙個case 某資料需要join n張hive表提資料,其中有這樣乙個業務邏輯要關聯出mmm文章的mmm賬號資訊,文章表記錄數 億 賬號表yyy萬 這種資料關係導致在跑mr任務時資料傾斜,某個reduc...

mapreduce中文亂碼,已解決

問題 mapreduce中文亂碼 原因 再用hadoop處理資料的時候,發現輸出的時候,總是會出現亂碼,這是因為hadoop在設計編碼的時候,是寫死的。預設是utf 8,所以當你處理的檔案編碼格式不是為utf 8的時候,比如為gbk格式,那麼就會輸出的時候就會出現亂碼。問題解決 解決問題非常簡單,就...