面試現場大資料和空間限制

目錄40億個非負整數中找到沒出現的數

找到100億個url中重複的url以及搜尋詞彙的topk問題

40億個非負整數中找到出現兩次的數和所有數的中位數

想要在很多整數中找到出現次數最多的數，通常的做法是使用雜湊表對出現的每乙個數做詞頻統計。

雜湊表的key需要占用4b，value也是4b。本題共有20億個數，用32位的整數就可以表示其出現的次數，而不會產生溢位，

但雜湊表的一條記錄(key, value)需要占用8b，當雜湊表記錄數為2億個時需要至少1.6gb的記憶體。極端情況下20億個數都不同，這樣記憶體可能會不夠用。

解決辦法是把包含20億個數的大檔案用足夠好的雜湊函式分成16個小檔案，根據雜湊函式的性質，同一種數不可能分到不同的小檔案上,同時每個小檔案中不同的數一定不會大於2億種。然後對每乙個小檔案用雜湊表來統計其中每種數出現的次數，這樣得到了16個小檔案中各數的次數統計。接下來只要選出這16個小檔案各自的第一名中誰出現的次數最多即可。

把乙個大的集合通過雜湊函式分配到多台機器中或者分配到多個檔案裡，這種技巧是處理大資料面試題時最常用的技巧之一。但是到底分配到多少臺機器、分配到多少檔案，要根據具體的限制來確定，比如本題確定分成16個檔案就是根據記憶體限制2gb的條件來確定的。

面試現場大資料和空間限制

大資料面試

大資料面試總結

大資料面試（HDFS）

面試現場 大資料和空間限制

大資料面試

大資料面試總結

大資料面試（HDFS）

相關推薦

面試現場大資料和空間限制