今天下午在公司用pig來實現一種資料分析的演算法,感覺很不錯,在這裡做乙個記錄,主要是實現一種邏輯關係。
x1 y1
x2 y2
x3 y3
x1 y4
x5 y5
x表示使用者,y表示使用者所買的物品
首先可以做一次join關聯:(對資料自己本身做一關聯join操作)
x1 y1 x1 y1
x1 y1 x1 y4
x2 y2 x2 y2
x3 y3 x3 y3
x5 y5 x5 y5
然後我們只保留兩列y
對y做group和count操作就能獲得物品和物品之間的關係了,就可以根據排行推薦給使用者了。
是不是很簡單啊,這可花了一兩個小時才想出來的演算法啊,感覺還不錯,在此記錄一下,希望對其它人也有幫助。
MyEclipse Tomcat的一點使用經驗
我用的是myeclipse6.5 1 編碼 在project裡可以設定整個工程的編碼,而對於每個檔案的編碼則是在開啟檔案後,在edit下拉列表的最下方有乙個setencoding,那裡可以設定。2 關閉自動更新 在window preferences myeclipse的community esse...
Unix Linux環境下多一點不如少一點
正如很多人所知道的 path環境變數裡存著一張目錄列表,當使用者要執行某一程式時,系統就會按照列表中的內容去查詢該程式的位置。當程式名前不帶點斜線 時 path就會起作用。對於普通使用者和root使用者 path裡預設是不包含 來指定使用者的當前目錄。這在本機進行指令碼開發的程式設計師來說卻不方便,...
Unix Linux環境下多一點不如少一點
正如很多人所知道的 path環境變數裡存著一張目錄列表,當使用者要執行某一程式時,系統就會按照列表中的內容去查詢該程式的位置。當程式名前不帶點斜線 時 path就會起作用。對於普通使用者和root使用者 path裡預設是不包含 來指定使用者的當前目錄。這在本機進行指令碼開發的程式設計師來說卻不方便,...