1. 給你a,b兩個檔案,各存放50億條url,每條url占用64位元組,記憶體限制是4g,讓你找出a,b檔案共同的url。
2. 有10個檔案,每個檔案1g, 每個檔案的每一行都存放的是使用者的query,每個檔案的query都可能重複。要你按照query的頻度排序
3. 有乙個1g大小的乙個檔案,裡面每一行是乙個詞,詞的大小不超過16個位元組,記憶體限制大小是1m。返回頻數最高的100個詞
5.2.5億個整數中找出不重複的整數,記憶體空間不足以容納這2.5億個整數。
6.海量資料分布在100臺電腦中,想個辦法高效統計出這批資料的top10。
7.怎麼在海量資料中找出重複次數最多的乙個
8.上千萬or億資料(有重複),統計其中出現次數最多的前n個資料。
統計可以用hash,二叉數,trie樹。對統計結果用堆求出現的前n大資料。增加點限制可以提高效率,比如 出現次數》資料總數/n的一定是在前n個之內
9.1000萬字串,其中有些是相同的(重複),需要把重複的全部去掉,保留沒有重複的字串。請問怎麼設計和實現?
10.乙個文字檔案,大約有一萬行,每行乙個詞,要求統計出其中最頻繁出現的前十個詞。請給出思想,給時間複雜度分析。
11.乙個文字檔案,也是找出前十個最經常出現的詞,但這次檔案比較長,說是上億行或者十億行,總之無法一次讀入記憶體,問最優解。
12.有10個檔案,每個檔案1g, 每個檔案的每一行都存放的是使用者的query,每個檔案的query都可能重複要按照query的頻度排序
13.100w個數中找最大的前100個數
14.尋找熱門查詢:
搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255位元組。假設目前有一千萬個記錄,
這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,
也就是越熱門。請你統計最熱門的10個查詢串,要求使用的記憶體不能超過1g。
(1)請描述你解決這個問題的思路;
(2)請給出主要的處理流程,演算法,以及演算法的複雜度。
15.一共有n個機器,每個機器上有n個數。每個機器最多存o(n)個數並對它們操作。
如何找到n^2個數的中數(median)?
面試題目 大資料量專題
1.給你a,b兩個檔案,各存放50億條url,每條url占用64位元組,記憶體限制是4g,讓你找出a,b檔案共同的url。2.有10個檔案,每個檔案1g,每個檔案的每一行都存放的是使用者的query,每個檔案的query都可能重複。要你按照query的頻度排序 3.有乙個1g大小的乙個檔案,裡面每一...
經典大資料求職面試題目
首先看到100g的日誌檔案,我們的第一反應肯定是太大了,根本載入不到記憶體,更別說設計演算法了,那麼怎麼辦呢?既然裝不下,我們是不是可以將其切分開來,一小部分一小部分輪流進入記憶體呢,答案當然是肯定的。在這裡要記住一點 但凡是大資料的問題,都可通過切分來解決它。粗略算一下 如果我們將其分成1000個...
Algorithm 大資料量處理的題目
q 1.給你a,b兩個檔案,各存放50億條url,每條url占用64位元組,記憶體限制是4g,讓你找出a,b檔案共同的url。2.有10個檔案,每個檔案1g,每個檔案的每一行都存放的是使用者的query,每個檔案的query都可能重複。要你按照query的頻度排序 3.有乙個1g大小的乙個檔案,裡面...