第前 k大數問題

4. 在實際應用中，還有乙個「精確度」的問題。我們可能並不需要返回嚴格意義上的最大的k個元素，在邊界位置允許出現一些誤差。當使用者輸入乙個query的時候，對於每乙個文件d來說，它跟這個query之間都有乙個相關性衡量權重f (query, d)。搜尋引擎需要返回給使用者的就是相關性權重最大的k個網頁。如果每頁10個網頁，使用者不會關心第1000頁開外搜尋結果的「精確度」，稍有誤差是可以接受的。比如我們可以返回相關性第10 001大的網頁，而不是第9999大的。在這種情況下，演算法該如何改進才能更快更有效率呢？網頁的數目可能大到一台機器無法容納得下，這時怎麼辦呢？

解答：正如提示中所說，可以讓每台機器返回最相關的k'個文件，然後利用歸併排序的思想，得到所有文件中最相關的k個。最好的情況是這k個文件在所有機器中平均分布，這時每台機器只要k' = k / n （n為所有機器總數）；最壞情況，所有最相關的k個文件只出現在其中的某一台機器上，這時k'需近似等於k了。我覺得比較好的做法可以在每台機器上維護乙個堆，然後對堆頂元素實行歸併排序。

5. 如第4點所說，對於每個文件d，相對於不同的關鍵字q

1, q

2, …, qm

，分別有相關性權重f（d, q

1），f（d, q

2）, …, f（d,qm

）。如果使用者輸入關鍵字qi

之後，我們已經獲得了最相關的k個文件，而已知關鍵字qj

跟關鍵字qi

相似，文件跟這兩個關鍵字的權重大小比較靠近，那麼關鍵字qi

的最相關的k個文件，對尋找qj

最相關的k個文件有沒有幫助呢？

解答：肯定是有幫助的。在搜尋關鍵字qj

最相關的k個文件時，可以在qj

的「近義詞」相關文件中搜尋部分，然後在全域性的所有文件中在搜尋部分。

第前 k大數問題

第前 k大數問題

問題 A 求第k大數

Python 第（前）K大（小）數問題

第 前 k大數問題

第 前 k大數問題

問題 A 求第k大數

Python 第（前）K大（小）數問題

相關推薦

第前 k大數問題

第前 k大數問題