Algorithm 大資料量處理的題目

q：

1. 給你a,b兩個檔案，各存放50億條url，每條url占用64位元組，記憶體限制是4g，讓你找出a,b檔案共同的url。

2. 有10個檔案，每個檔案1g，每個檔案的每一行都存放的是使用者的query，每個檔案的query都可能重複。要你按照query的頻度排序

3. 有乙個1g大小的乙個檔案，裡面每一行是乙個詞，詞的大小不超過16個位元組，記憶體限制大小是1m。返回頻數最高的100個詞

a：1.對於第乙個題，網上有的解法是按照hash分段，通過對url求hash值，按照hash值進行分段，每一段存放乙個檔案，分段要求盡量將子檔案的大小不超過記憶體要求，如果乙個段太大，我們利用再hash，對子檔案在進行hash分段。如果最好乙個段還是很大，就使用外排。這樣，兩個大檔案就都分段成了可以放在記憶體裡的小檔案，由於相同的url一定在乙個段中，所以要查詢相同的url只需要在相同的段中進行查詢。

2.3.。。

Algorithm 大資料量處理的題目

大資料量處理

航測大資料量處理大資料量處理及優化措施

mysql大資料量處理

Algorithm 大資料量處理的題目

大資料量處理

航測大資料量處理 大資料量處理及優化措施

mysql大資料量處理

相關推薦

航測大資料量處理大資料量處理及優化措施