hadopp（一）Mapreduce內建資料型別

一、mapreducer內建資料型別

hadoop內建資料型別主要有：（1）booleanwritable：標準布林型數值（2）bytewritable：單字數值

（3）doublewritable：雙位元組數（4）floatwritable 浮點數

（5）intwritable：整型數; （6） longwritable: 長整型數;

（7） text：適用utf8格式儲存的文字（8） nullwritable：null值;

（9）arraywritable：writable型別的陣列

二、mapreducer自定義資料型別的基本要求

1. 必須實現writable介面，以便進行序列化操作後完成網路資料傳輸。

2. 如果作為主鍵key使用或者需要比較數值大小時，則需要實現writablecomparable介面。

3. 如果有多個reducer的情況下，那麼key必須實現hashcode和equals方法。

4. 自定義的資料型別一定需要給定乙個無引數的構造方法。

注意：2和3的情況是指不給定排序類(sorting comparable class), 以及使用預設分割槽類(hashpartitioner class)而且有多個reducer的情況。

Hadoop基本原理之一 MapReduce

1 為什麼需要hadoop 目前，一塊硬碟容量約為1tb，讀取速度約為100m s，因此完成一塊硬碟的讀取需時約2.5小時寫入時間更長若把資料放在同一硬碟上，且全部資料均需要同乙個程式進行處理，此程式的處理時間將主要浪費在i o時間上。在過去幾十年，硬碟的讀取速度並未明顯增長，而網路傳輸速度此飛...

Hadoop基本原理之一 MapReduce

Python基礎高階函式 Map Reduce

map 函式接受2個引數 1.引數函式 2.引數 iterable 示例 usr bin env python3 coding utf 8 map 函式的使用轉換為字串 deffuntion x return str x deftest mlist 1,2,3,4,5 list 1,2,3,4,...

hadopp（一）Mapreduce內建資料型別

Hadoop基本原理之一 MapReduce

Hadoop基本原理之一 MapReduce

Python基礎 高階函式 Map Reduce

相關推薦

Python基礎高階函式 Map Reduce