hadopp(一)Mapreduce內建資料型別

2021-09-26 07:14:39 字數 644 閱讀 6810

一、mapreducer內建資料型別

hadoop內建資料型別 主要有:(1)booleanwritable:標準布林型數值   (2)bytewritable:單字數值

(3)doublewritable:雙位元組數      (4)floatwritable 浮點數

(5)intwritable:整型數;                (6) longwritable: 長整型數;

(7) text:適用utf8格式儲存的文字  (8) nullwritable:null值;

(9)arraywritable:writable型別的陣列

二、mapreducer自定義資料型別的基本要求

1. 必須實現writable介面,以便進行序列化操作後完成網路資料傳輸。

2. 如果作為主鍵key使用或者需要比較數值大小時,則需要實現writablecomparable介面。

3.  如果有多個reducer的情況下,那麼key必須實現hashcode和equals方法。

4. 自定義的資料型別一定需要給定乙個無引數的構造方法。

注意:2和3的情況是指不給定排序類(sorting comparable class), 以及使用預設分割槽類(hashpartitioner class)而且有多個reducer的情況。

Hadoop基本原理之一 MapReduce

1 為什麼需要hadoop 目前,一塊硬碟容量約為1tb,讀取速度約為100m s,因此完成一塊硬碟的讀取需時約2.5小時 寫入時間更長 若把資料放在同一硬碟上,且全部資料均需要同乙個程式進行處理,此程式的處理時間將主要浪費在i o時間上。在過去幾十年,硬碟的讀取速度並未明顯增長,而網路傳輸速度此飛...

Hadoop基本原理之一 MapReduce

1 為什麼需要hadoop 目前,一塊硬碟容量約為1tb,讀取速度約為100m s,因此完成一塊硬碟的讀取需時約2.5小時 寫入時間更長 若把資料放在同一硬碟上,且全部資料均需要同乙個程式進行處理,此程式的處理時間將主要浪費在i o時間上。在過去幾十年,硬碟的讀取速度並未明顯增長,而網路傳輸速度此飛...

Python基礎 高階函式 Map Reduce

map 函式接受2個引數 1.引數 函式 2.引數 iterable 示例 usr bin env python3 coding utf 8 map 函式的使用 轉換為字串 deffuntion x return str x deftest mlist 1,2,3,4,5 list 1,2,3,4,...