10億資料中取最大的100個資料

思路1：利用堆排序實現

（1）取前m個元素（例如m=100），建立乙個小頂堆。保持乙個小頂堆得性質的步驟，執行時間為o（lgm);建立乙個小頂堆執行時間為m*o（lgm）=o(m lgm);

（2）順序讀取後續元素，直到結束。每次讀取乙個元素，如果該元素比堆頂元素小，直接丟棄。如果大於堆頂元素，則用該元素替換堆頂元素，然後保持最小堆性質。最壞情況是每次都需要替換掉堆頂的最小元素，因此需要維護堆的代價為(n-m)*o(lgm);最後這個堆中的元素就是10億個資料中最大的100個。時間複雜度為o(n lgm）。』

思路2：根據快速排序劃分的思想

（1）遞迴對所有資料分成[a,b）b（b,d]兩個區間，(b,d]區間內的數都是大於[a,b)區間內的數

（2）對(b,d]重複(1)操作，直到最右邊的區間個數小於100個。注意[a,b)區間不用劃分

（3）返回上乙個區間，並返回此區間的數字數目。接著方法仍然是對上一區間的左邊進行劃分，分為[a2,b2）b2（b2,d2]兩個區間，取（b2,d2]區間。如果個數不夠，繼續(3)操作，如果個數超過100的就重複1操作，直到最後右邊只有100個數為止。

思路3：分塊查詢

先把10億個數分成100份，每份1000w個數，然後在1000w個數中分別找出最大的100個數，最後在100*100個數中找出最大的100個。這裡我想可以用分布式的處理，多台主機才會更快。

10億資料中取最大的100個資料

10 億個數取中位數

100萬個數中找到最大的100個數

100億資料找出最大的1000個數字

10億資料中取最大的100個資料

10 億個數取中位數

100萬個數中找到最大的100個數

100億資料找出最大的1000個數字

相關推薦