select:直接分析輸入資料,取出需要的字段資料即可
where: 也是對輸入資料處理的過程中進行處理,判斷是否需要該資料
aggregation:min, max, sum
group by: 通過reducer實現
sort
join: map join, reduce join
export libjars=$mylib/commons-lang-2.3.jar, hadoop jar prohadoop-0.0.1-snapshot.jar org.aspress.prohadoop.c3. wordcountusingtoolrunner -libjars $libjars
一般還是上面的好,指定依賴可以利用public cache,如果是包含依賴,則每次都需要拷貝
hadoop程式設計實踐(一)
hadoop操作基礎與ide環境配置。然後執行解壓命令,解壓到 usr local sudo tar xvf ideaiu 2018.2.4.tar.gz c usr local 進入該目錄,執行idea.sh,進行安裝 usr local hadoop share hadoop common目錄下...
Hadoop程式設計模型元件 InputFormat
hadoop中的inputformat介面 inputformat介面主要的任務是對輸入的原始資料進行切分並轉換成格式的資料,它主要完成兩個功能 1.通過getsplite 方法對原始資料進行切分,得到若干個inputsplite,這裡的切分是指邏輯上的切分,即確定每個splite的起始位址和長度而...
Hadoop程式設計模型之InputFormat
inputformat介面主要用於描述輸入資料的格式,它有兩個方法 inputsplit getsplits jobconf job,int numsplits recordreaderv getrecordreader inputsplit split,jobconf job,reporter r...