q:
1. 給你a,b兩個檔案,各存放50億條url,每條url占用64位元組,記憶體限制是4g,讓你找出a,b檔案共同的url。
2. 有10個檔案,每個檔案1g, 每個檔案的每一行都存放的是使用者的query,每個檔案的query都可能重複。要你按照query的頻度排序
3. 有乙個1g大小的乙個檔案,裡面每一行是乙個詞,詞的大小不超過16個位元組,記憶體限制大小是1m。返回頻數最高的100個詞
a:1.對於第乙個題,網上有的解法是按照hash分段,通過對url求hash值,按照hash值進行分段,每一段存放乙個檔案,分段要求盡量將子檔案的大小不 超過記憶體要求,如果乙個段太大,我們利用再hash,對子檔案在進行hash分段。如果最好乙個段還是很大,就使用外排。這樣,兩個大檔案就都分段成了可 以放在記憶體裡的小檔案,由於相同的url一定在乙個段中,所以要查詢相同的url只需要在相同的段中進行查詢。
2.3.。。
大資料量處理
看看這個,異曲同工,永遠不超時 該程式是針對非常龐大的資料庫開發的,沒有用迴圈 用途 對過萬條資料的資料庫字段內容批量替換 資料庫連線 dim beeyee dbname,connstr,conn,intsn1 dim content,num,intsn,intidno,strcodea,strco...
航測大資料量處理 大資料量處理及優化措施
1 首先考慮垂直拆分庫,不同的表拆分到不同的庫中,例如使用者庫 產品庫 支付庫 2 然後考慮水平拆分庫,將乙個表的資料放到多張表中,例如按照使用者 時間 訂單號 3 插入資料的時候不建立索引 4 待資料已經插入完成後,建立索引 5 正確的指定索引字段 6 使用批量插入資料庫的方式代替單條資料的插入 ...
mysql大資料量處理
2008 07 11 10 41 58 分類 mysql 舉報 字型大小訂閱 以下是個人的總結,有不對的地方大家指點 設計上 冗餘 有些能冗餘的就冗餘吧,盡量少關聯表 垂直分割槽,一條記錄中有text,varchar 這些能拆出來就拆出來,能用小的型別就用小的型別,如 char替換varchar之類...