海量資料處理方法歸類

解決思路：典型的top k演算法。模板：先用hashmap統計頻率（或去重），維護乙個k大小的堆，統計top k就行了。

解決思路：可以估計每個檔案安的大小為5g×64=320g，遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。

遍歷檔案a，對每個url求取hash(url)%1000，然後根據所取得的值將url分別儲存到1000個小檔案（記為a0,a1,...,a999）中。這樣每個小檔案的大約為300m。

遍歷檔案b，採取和a相同的方式將url分別儲存到1000小檔案（記為b0,b1,...,b999）。這樣處理後，所有可能相同的url都在對應的小檔案　　　　（a0vsb0,a1vsb1,...,a999vsb999）中，不對應的小檔案不可能有相同的url。然後我們只要求出1000對小檔案中相同的url即可。

求每對小檔案中相同的url時，可以把其中乙個小檔案的url儲存到hash_set中。然後遍歷另乙個小檔案的每個url，看其是否在剛才構建的hash_set中，如果是，那麼就是共同的url，存到檔案裡面就可以了。

方案1：採用2-bitmap（每個數分配2bit，00表示不存在，01表示出現一次，10表示多次，11無意義）進行，共需記憶體2^32 * 2 bit=1 gb記憶體，還可以接受。然後掃瞄這2.5億個整數，檢視bitmap中相對應位，如果是00變01，01變10，10保持不變。所描完事後，檢視bitmap，把對應位是01的整數輸出即可。

方案2：也可採用與第1題類似的方法，進行劃分小檔案的方法。然後在小檔案中找出不重複的整數，並排序。然後再進行歸併，注意去除重複的元素。

位圖法比較適合於這種情況，它的做法是按照集合中最大元素max建立乙個長度為max+1的新陣列，然後再次掃瞄原陣列，遇到幾就給新陣列的第幾位置上1，如遇到5就給新陣列的第六個元素置1，這樣下次再遇到5想置位時發現新陣列的第六個元素已經是1了，這說明這次的資料肯定和以前的資料存在著重複。此法以記憶體為代價。

方法總結：記憶體不夠，分治之；如何分治，取hash；想取top k，就用堆！

海量資料處理方法歸類

海量資料處理方法總結

海量資料處理分析方法

海量資料處理

海量資料處理方法歸類

海量資料處理方法總結

海量資料處理分析方法

海量資料處理

相關推薦