下面,將介紹如何利用pig實現按多個值排序,並取每個組的前n個值。例如,取每個商品**前2的搜尋詞。
sku1,query11,pos11,50
sku1,query12,pos12,40
sku1,query13,pos13,20
sku2,query21,pos21,40
sku2,query22,pos22,30
sku3,query31,pos31,50
sku3,query32,pos32,20
sku3,query33,pos33,10
sku3,query43,pos43,5
如果,指令碼執行所需記憶體不足,則修改pig記憶體大小:export pig_heapsize=4192。再以本地模式執行pig
Pig效能優化
mapreduce job的很大一部分開銷在於磁碟io和資料的網路傳輸,如果能盡早的去除無用的資料,減少資料量,會提公升pig的效能。使用filter可以去除資料中無用的行 record 盡早的filter掉無用的資料,可以減少資料量,提公升pig效能。使用foreach generate可以去除資...
Pig簡單入門
pig專門用來處理來自於hdfs的資料,它提供了一套流式的資料處理語言,轉化為map reduce來處理hdfs的資料 pig包括用來描述資料分析程式的高階程式語言,以及對這些程式進行評估的基礎結構。pig突出的特點就是它的結構經得起 大量並行任務的檢驗,這使得它能夠處理大規模資料集。使用pig命令...
pig入門案例
測試資料位於 home hadoop luogankun workspace sync data pig person.txt中的資料以逗號分隔 1,zhangsan,112 2,lisi,113 3,wangwu,114 4,zhaoliu,115 score.txt中的資料以製表符分隔 1202...