(一)、hadoop的內建資料型別都實現了writablecompareable,以便序列化和網路傳輸及檔案儲存
a自定義資料型別作為輸入
1.實現writable介面
2.如果給資料需要比較大小時,實現writablecompareable介面
b資料輸入格式和recordreader
資料輸入格式(inputformat)用於描述maoreduce作業中的資料輸入規範,mapreduce依靠資料輸入規範完成資料檔案的輸入分塊(inputsplit),從輸入分塊中將資料記錄逐一讀出,並轉換為map過程中的輸入鍵值對
自定義輸入格式:
流程: 1.自定義xxinputformat繼承filetextformat,在createrecordreader方法裡面返回自定義的xxrecordreader
2.自定義xxrecordreader繼承recordreader,在setkeyvalue和nextkeyvalue實現自身需求
3.在main函式的執行中指定輸入格式:job.setinputformatclass(xxinputformat.class)
hadoop知識點總結
高可靠的體現冗餘副本策略 冗餘 重複,指認為新增重複部分,其某地是對原來單一部分進行備份。可以指定資料檔案的副本數量,預設是3 保證所有的資料塊都有副本,不至於在乙個datanode宕機後,資料的丟失。機架策略 集群一般放在不同機架上,機架間頻寬要比機架內頻寬要小 hdfs具有 機架感知 能力,它能...
Hadoop相關知識點
乙個分布式計算平台,以hadoop分布式檔案系統 hdfs mapreduce為核心。易擴充套件 方便向集群中新增節點。可靠 容錯 多個副本。高效 在節點間動態移動資料。hdfs mapreduce yarn common。zookeeper hive hbase pig。輸入資料 切片 map s...
hadoop (1)hadoop核心知識點總結
1 安裝hadoop需要配置的hadoop中的配置檔案有哪些?2 hadoop的核心模組和相應的程序 hdfs namenode,datanode,secondarynamenode,namenodemanager,datanodemanager 3 secondarynamenode的作用 如果執...