尋找第K大的數

在一堆資料中查詢到第k個大的值。

名稱是：設計一組n個數，確定其中第k個最大值，這是乙個選擇問題，解決這個問題的方法很多。

所謂「第（前）k大數問題」指的是在長度為n(n>=k)的亂序陣列中s找出從大到小順序的第（前）k個數的問題。

解法1：我們可以對這個亂序陣列按照從大到小先行排序，然後取出前k大，總的時間複雜度為o(n*logn + k)。

解法2：利用選擇排序或互動排序，k次選擇後即可得到第k大的數。總的時間複雜度為o(n*k)

解法3：利用快速排序的思想，從陣列s中隨機找出乙個元素x，把陣列分為兩部分sa和sb。sa中的元素大於等於x，sb中元素小於x。這時有兩種情況：

1. sa中元素的個數小於k，則sb中的第k-|sa|個元素即為第k大數；

2. sa中元素的個數大於等於k，則返回sa中的第k大數。時間複雜度近似為o(n)

解法4：二分[smin,smax]查詢結果x，統計x在陣列中出現，且整個陣列中比x大的數目為k-1的數即為第k大數。時間複雜度平均情況為o(n*logn)

解法5：用o(4*n)的方法對原數組建最大堆，然後pop出k次即可。時間複雜度為o(4*n + k*logn)

解法6：維護乙個k大小的最小堆，對於陣列中的每乙個元素判斷與堆頂的大小，若堆頂較大，則不管，否則，彈出堆頂，將當前值插入到堆中。時間複雜度o(n * logk)

解法7：利用hash儲存陣列中元素si出現的次數，利用計數排序的思想，線性從大到小掃瞄過程中，前面有k-1個數則為第k大數，平均情況下時間複雜度o(n)

4. 在實際應用中，還有乙個「精確度」的問題。我們可能並不需要返回嚴格意義上的最大的k個元素，在邊界位置允許出現一些誤差。當使用者輸入乙個query的時候，對於每乙個文件d來說，它跟這個query之間都有乙個相關性衡量權重f (query, d)。搜尋引擎需要返回給使用者的就是相關性權重最大的k個網頁。如果每頁10個網頁，使用者不會關心第1000頁開外搜尋結果的「精確度」，稍有誤差是可以接受的。比如我們可以返回相關性第10 001大的網頁，而不是第9999大的。在這種情況下，演算法該如何改進才能更快更有效率呢？網頁的數目可能大到一台機器無法容納得下，這時怎麼辦呢？

5. 如第4點所說，對於每個文件d，相對於不同的關鍵字q1, q2, …, qm，分別有相關性權重f（d, q1），f（d, q2）, …, f（d, qm）。如果使用者輸入關鍵字qi之後，我們已經獲得了最相關的k個文件，而已知關鍵字qj跟關鍵字qi相似，文件跟這兩個關鍵字的權重大小比較靠近，那麼關鍵字qi的最相關的k個文件，對尋找qj最相關的k個文件有沒有幫助呢？

reference：

尋找第k大的數的方法總結

尋找第K大的數

尋找第K大的數

尋找第k大的數

尋找第K大的數

相關推薦