大資料處理方案

假設目前有一千萬個記錄（這些查詢串的重複度比較高，雖然總數是1千萬，但如果除去重複後，不超過3百萬個。乙個查詢串的重複度越高，說明查詢它的使用者越多，也就是越熱門。），請你統計最熱門的10個查詢串，要求使用的記憶體不能超過1g。

2^32為40億多，所以給定乙個數可能在，也可能不在其中；
這裡我們把40億個數中的每乙個用32位的二進位制來表示
假設這40億個數開始放在乙個檔案中。
然後將這40億個數分成兩類:
1.最高位為0
2.最高位為1
並將這兩類分別寫入到兩個檔案中，其中乙個檔案中數的個數<=20億，而另乙個》=20億（這相當於折半了）；
與要查詢的數的最高位比較並接著進入相應的檔案再查詢
再然後把這個檔案為又分成兩類:
1.次最高位為0
2.次最高位為1
並將這兩類分別寫入到兩個檔案中，其中乙個檔案中數的個數<=10億，而另乙個》=10億（這相當於折半了）；
與要查詢的數的次最高位比較並接著進入相應的檔案再查詢。
.......
以此類推，就可以找到了,而且時間複雜度為o(logn)
				大資料處理方案之比較
在sql server 中插入一條資料使用insert語句，但是如果想要批量插入一堆資料的話，迴圈使用insert不僅效率低，而且會導致sql一系統效能問題。下面介紹sql server支援的兩種批量資料插入方法 bulk和錶值引數 table valued parameters 執行下面的指令碼，...
				大資料處理
大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘，下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中，其主要特點和挑戰是併發數高，因為同時有可能會有成千上萬的使用者來進行訪問和操作，比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬，所以需要在採集...
				大資料處理隨筆
1.mssql當資料庫資料超過1000萬的時候超時是正常的，所以當表資料到1000萬時候注意delete 2.今天遇到資料庫時間格式2014021000 當然是int型別哦 3.聯合索引使用 開始時間與結束時間這樣一起查詢的要建成索引 4.訂閱資料庫，只可以查詢操作，這樣的話可以在這個表上面建立索引...

大資料處理方案

大資料處理方案之比較

大資料處理

大資料處理隨筆

相關推薦