pig:是基於hadoop並行資料流語言
pig:輸入輸出
第一步:載入load
最後執行完資料流之後可以可以:store 儲存 或 dump輸出到螢幕
pig:關係操作
foreach: 對於每一條記錄,可以選擇相應的字段,傳給下乙個操作符(相當於sql中選擇需要的列,可以進行count和sum操作)
filter: 過濾(相當於sql的where)
group: 分組,按照乙個一段進行分組,(通過其中包含字段)
order: 排序 (通過其中包含字段)
distinct: 去重只會對整個記錄去重,不會單獨對某個字段去除
(最好兩個關聯字段不要重複名字,可以通過起別名的方式)
limit: 限制資料量。
count: 使用pig統計行數時,要選擇乙個不為空的列。
flatten: 可以將分組的字段的組合拆開。
pig: 一些基本概念:關係(
relation
)、包(
bag--可
看做資料庫
)、元組(
tuple--可
看做資料庫中行
)、字段(
field
)、資料(
data
)的關係
乙個關係是乙個包,乙個包由乙個或多個元組組成,乙個元組由多個字段組成
注意:每個元組的字段的數量可以不一樣的
Pig 安裝總結學習
url size medium color red b 2.配置環境 b color size pig工作模式 本地模式 只需要配置path環境變數 bin即可,適用於測試 mapreduce模式 需要新增環境變數pig classpath conf 指向hadoop的conf目錄,我的是hadoo...
初學pig的筆記
資料分析引擎 pig 一 什麼是pig?安裝和配置 1 最早由yahoo開發,後來給apache 2 支援語句piglatin語句,類似sql 3 翻譯器 piglatin語句 mapreduce spark 從0.17開始支援 4 安裝和配置 tar zxvf pig 0.17.0.tar.gz ...
總結 Pig的安裝部署
tar zxvf pig 0.17.0.tar.gz c 2 建立軟鏈結 ln s pig 0.17.0 pigvi bashrc在檔案末尾加上這兩行 export pig home home 使用者名稱 pig 0.17.0 export path pig home bin path 1 本地模式...