大資料學習之提交job流程，分割槽和合併11

1：自定義乙個partition類（直接使用上次那個流量統計那個**）

package it.dawn.yarnpra.flow流量彙總序列化.partition;
import org.apache.hadoop.io.text;
import org.apache.hadoop.mapreduce.partitioner;
/** * @author dawn
* @date 2023年5月3日22:03:08
* @version 1.0
* 自定義乙個分割槽
*/public class phonenumpartitioner extends partitionerelse if("137".equals(phonenum))else if("138".equals(phonenum)) else if("139".equals(phonenum)) 
return partitioner;
}}

2：在driver類中新增partiton的分割槽個數3：執行結果

原理圖：

1：

maptask

並行度與決定機制

2 maptask工作機制

3：運用場景

1：多個小檔案合併優化（減少

maptask

任務）2：combiner 合併

（使用上回的wordcount程式）

父類reducer

區域性彙總

，減少網路傳輸量

，進而優化程式。

注意：求平均值？

3 5 7 2 6

(2 + 6)/2 = 4

reducer:(5+4)/2

前提：只能應用在不影響最終業務邏輯的情況下

使用：只需新增一行**即可

//新增combiner

job.setcombinerclass(wordcountreducer.class);

大資料開發學習之Hive的靜態分割槽

分割槽是hive存放資料的一種方式。將列值作為目錄來存放資料，就是乙個分割槽。這樣查詢時使用分割槽列進行過濾，只需根據列值直接掃瞄對應目錄下的資料，不掃瞄其他不關心的分割槽，快速定位，提高查詢效率。hive分割槽分為靜態分割槽和動態分割槽兩種，以下是hive的靜態分割槽。靜態分割槽若分割槽的值是確...

大資料學習之MapReduce Job

1 先把yarn服務停了 hadoop hadoop001 hadoop 2.6.0 cdh5.7.0 sbin stop yarn.sh 2 把之前的資訊刪了 hadoop hadoop001 hadoop 2.6.0 cdh5.7.0 hdfs dfs rm r f user 3 再建立hdfs...

大資料學習之Hive

建立乙個自定義列表如何建立乙個註腳注釋也是必不可少的 katex數學公式新的甘特圖功能，豐富你的文章 uml 圖表 flowchart流程圖匯出與匯入 1 hive處理的資料儲存在hdfs 2 hive分析資料底層的實現是mapreduce 3 執行程式執行在yarn上 hive的優缺點帶...

大資料學習之提交job流程，分割槽和合併11

大資料開發學習之Hive的靜態分割槽

大資料學習 之MapReduce Job

大資料學習之Hive

相關推薦

大資料學習之MapReduce Job