在一堆資料中查詢到第k個大的值。
名稱是:設計一組n個數,確定其中第k個最大值,這是乙個選擇問題,解決這個問題的方法很多。
所謂「第(前)k大數問題」指的是在長度為n(n>=k)的亂序陣列中s找出從大到小順序的第(前)k個數的問題。
解法1: 我們可以對這個亂序陣列按照從大到小先行排序,然後取出前k大,總的時間複雜度為o(n*logn + k)。4. 在實際應用中,還有乙個「精確度」的問題。我們可能並不需要返回嚴格意義上的最大的k個元素,在邊界位置允許出現一些誤差。當使用者輸入乙個query的時候,對於每乙個文件d來說,它跟這個query之間都有乙個相關性衡量權重f (query, d)。搜尋引擎需要返回給使用者的就是相關性權重最大的k個網頁。如果每頁10個網頁,使用者不會關心第1000頁開外搜尋結果的「精確度」,稍有誤差是可以接受的。比如我們可以返回相關性第10 001大的網頁,而不是第9999大的。在這種情況下,演算法該如何改進才能更快更有效率呢?網頁的數目可能大到一台機器無法容納得下,這時怎麼辦呢?解法2: 利用選擇排序或互動排序,k次選擇後即可得到第k大的數。總的時間複雜度為o(n*k)
解法3: 利用快速排序的思想,從陣列s中隨機找出乙個元素x,把陣列分為兩部分sa和sb。sa中的元素大於等於x,sb中元素小於x。這時有兩種情況:
1. sa中元素的個數小於k,則sb中的第k-|sa|個元素即為第k大數;
2. sa中元素的個數大於等於k,則返回sa中的第k大數。時間複雜度近似為o(n)
解法4: 二分[smin,smax]查詢結果x,統計x在陣列中出現,且整個陣列中比x大的數目為k-1的數即為第k大數。時間複雜度平均情況為o(n*logn)
解法5:用o(4*n)的方法對原數組建最大堆,然後pop出k次即可。時間複雜度為o(4*n + k*logn)
解法6:維護乙個k大小的最小堆,對於陣列中的每乙個元素判斷與堆頂的大小,若堆頂較大,則不管,否則,彈出堆頂,將當前值插入到堆中。時間複雜度o(n * logk)
解法7:利用hash儲存陣列中元素si出現的次數,利用計數排序的思想,線性從大到小掃瞄過程中,前面有k-1個數則為第k大數,平均情況下時間複雜度o(n)
5. 如第4點所說,對於每個文件d,相對於不同的關鍵字q1, q2, …, qm,分別有相關性權重f(d, q1),f(d, q2), …, f(d, qm)。如果使用者輸入關鍵字qi之後,我們已經獲得了最相關的k個文件,而已知關鍵字qj跟關鍵字qi相似,文件跟這兩個關鍵字的權重大小比較靠近,那麼關鍵字qi的最相關的k個文件,對尋找qj最相關的k個文件有沒有幫助呢?
reference:
尋找第k大的數的方法總結
尋找第K大的數
題目描述 要求在n個不重複的整數中,找出第k大的整數 其中0輸入第一行為兩個正整數n k 第二行為n個整數,輸入保證這n個整數兩兩相異,每個整數的範圍在 1000000到1000000之間 輸出輸出第k大的整數值 樣例輸入 5 33 2 4 5 1 樣例輸出 3 如下 include include...
尋找第k大的數
給定乙個整數陣列arr,同時給定它的大小n和要找的k k在1到n之間 返回第k大的數。解法一 結合快排思想,將陣列從大到小排序的過程中返回確定好的元素的下標,與k比較,將範圍逐漸縮小。public class test int n findkth arr,5,2 system.out.println...
尋找第K大的數
有乙個整數陣列,請你根據快速排序的思路,找出陣列中第k大的數。給定乙個整數陣列a,同時給定它的大小n和要找的k k在1到n之間 請返回第k大的數,保證答案存在。測試樣例 1,3,5,2,2 5,3返回 2快排的思想 例如找49個元素裡面第24大的元素,那麼按如下步驟 1.進行一次快排 將大的元素放在...