hadoop資料型別
為了讓鍵/值對可以在集群上移動,mapreduce框架提供了一種序列化鍵/值對的方法。因此,只有那些支援這種序列化的類能夠在框架中充當鍵/值。
實現writable介面的類可以是值;
實現writablecomparable介面的類可以是鍵/值。
鍵/值對經常使用的資料型別列表。這些類均用於實現writablecomparable介面。
booleanwritable
標準布林變數的封裝
bytewritable
單位元組數的封裝
doublewritable
雙位元組數的封裝
floatwritable
浮點數的封裝
intwritable
整數的封裝
longwritable
long的封裝
textwritable
使用utf8格式的文字
nullwritable
無鍵值的佔位符
reducer
partition
shuffing
讀和寫mapreduce處理的基本原則之一是將輸入資料分割成塊。這些塊可以在多台計算機上並行處理。這些塊被稱為分片(input spilt)。每個分片應該足夠小以實現更細粒度的並行,但也不能太小,否則啟動與停止分片處理就佔很大的開銷。
inputformat
hadoop分割與讀取輸入檔案的方式被定義在inputformat介面的乙個實現中。textformat是其預設實現。
outputformat
當mapreduce輸出資料到檔案時,使用的是outputformat類。
普通的mapreduce資料流。輸入資料被分配到不同節點之後,節點間通訊的唯一時間是在「洗牌」階段,這個通訊約束對可擴充套件性有極大幫助。
UNIX讀書筆記 UNIX基礎知識
目錄 unix體系結構 登入 shell 檔案和目錄 1 檔案系統 2 檔名 3 路徑名 4 工作目錄 輸入輸出 1 檔案描述符 file descriptor 2 標準輸入 標準輸出和標準錯誤 3 不帶緩衝的io 4 標準i o 程式和程序 1 程式 2 程序和程序id 3 程序控制 4 執行緒和...
mysql基礎知識 讀書筆記1
sql 分類 sql 語句主要可以劃分為以下3 個類別。ddl data definition languages 語句 資料定義語言,這些語句定義了不同的資料段 資料庫 表 列 索引等資料庫物件的定義。常用的語句關鍵字主要包括create drop alter 等。dml data manipul...
讀書筆記 C 基礎知識溫習 堆疊
概念 棧區 heap 由編譯器自動分配釋放 存放函式的引數值,區域性變數的值等。其操作方式類似於資料結構中的棧。堆區 stack 一般由程式設計師分配釋放,若程式設計師不釋放,程式結束時可能由os 注意它與資料結構中的堆是兩回事,分配方式倒是類似於鍊錶。全域性區 靜態區 static 全域性變數和靜...