Pig語言的學習

pig：是基於hadoop並行資料流語言

pig：輸入輸出

第一步：載入load

最後執行完資料流之後可以可以：store 儲存或 dump輸出到螢幕

pig：關係操作

foreach: 對於每一條記錄，可以選擇相應的字段，傳給下乙個操作符（相當於sql中選擇需要的列，可以進行count和sum操作）

filter：過濾（相當於sql的where）

group：分組，按照乙個一段進行分組，（通過其中包含字段）

order：排序（通過其中包含字段)

distinct: 去重只會對整個記錄去重，不會單獨對某個字段去除

(最好兩個關聯字段不要重複名字，可以通過起別名的方式)

limit：限制資料量。

count: 使用pig統計行數時，要選擇乙個不為空的列。

flatten: 可以將分組的字段的組合拆開。

pig: 一些基本概念：關係（

relation

）、包（

bag--可

看做資料庫

）、元組（

tuple--可

看做資料庫中行

）、字段（

field

）、資料（

data

）的關係

乙個關係是乙個包，乙個包由乙個或多個元組組成，乙個元組由多個字段組成

注意：每個元組的字段的數量可以不一樣的

Pig 安裝總結學習

url size medium color red b 2.配置環境 b color size pig工作模式本地模式只需要配置path環境變數 bin即可，適用於測試 mapreduce模式需要新增環境變數pig classpath conf 指向hadoop的conf目錄,我的是hadoo...

初學pig的筆記

資料分析引擎 pig 一什麼是pig？安裝和配置 1 最早由yahoo開發，後來給apache 2 支援語句piglatin語句，類似sql 3 翻譯器 piglatin語句 mapreduce spark 從0.17開始支援 4 安裝和配置 tar zxvf pig 0.17.0.tar.gz ...

總結 Pig的安裝部署

tar zxvf pig 0.17.0.tar.gz c 2 建立軟鏈結 ln s pig 0.17.0 pigvi bashrc在檔案末尾加上這兩行 export pig home home 使用者名稱 pig 0.17.0 export path pig home bin path 1 本地模式...

Pig語言的學習

Pig 安裝總結學習

初學pig的筆記

總結 Pig的安裝部署

相關推薦