1:自定義乙個partition類(直接使用上次那個流量統計那個**)
package it.dawn.yarnpra.flow流量彙總序列化.partition;2:在driver類中新增partiton的分割槽個數3:執行結果import org.apache.hadoop.io.text;
import org.apache.hadoop.mapreduce.partitioner;
/** * @author dawn
* @date 2023年5月3日22:03:08
* @version 1.0
* 自定義乙個分割槽
*/public class phonenumpartitioner extends partitionerelse if("137".equals(phonenum))else if("138".equals(phonenum)) else if("139".equals(phonenum))
return partitioner;
}}
原理圖:
1:
maptask
並行度與決定機制
2 maptask工作機制
3:運用場景
1:多個小檔案合併優化(減少
maptask
任務)2:combiner 合併
(使用上回的wordcount程式)
父類reducer
區域性彙總
,減少網路傳輸量
,進而優化程式。
注意:求平均值?
3 5 7 2 6
(2 + 6)/2 = 4
reducer:(5+4)/2
前提:只能應用在不影響最終業務邏輯的情況下
使用:只需新增一行**即可
//新增combiner
job.setcombinerclass(wordcountreducer.class);
大資料開發學習之Hive的靜態分割槽
分割槽是hive存放資料的一種方式。將列值作為目錄來存放資料,就是乙個分割槽。這樣查詢時使用分割槽列進行過濾,只需根據列值直接掃瞄對應目錄下的資料,不掃瞄其他不關心的分割槽,快速定位,提高查詢效率。hive分割槽分為靜態分割槽和動態分割槽兩種,以下是hive的靜態分割槽。靜態分割槽 若分割槽的值是確...
大資料學習 之MapReduce Job
1 先把yarn服務停了 hadoop hadoop001 hadoop 2.6.0 cdh5.7.0 sbin stop yarn.sh 2 把之前的資訊刪了 hadoop hadoop001 hadoop 2.6.0 cdh5.7.0 hdfs dfs rm r f user 3 再建立hdfs...
大資料學習之Hive
建立乙個自定義列表 如何建立乙個註腳 注釋也是必不可少的 katex數學公式 新的甘特圖功能,豐富你的文章 uml 圖表 flowchart流程圖 匯出與匯入 1 hive處理的資料儲存在hdfs 2 hive分析資料底層的實現是mapreduce 3 執行程式執行在yarn上 hive的優缺點 帶...