4. 在實際應用中,還有乙個「精確度」的問題。我們可能並不需要返回嚴格意義上的最大的k個元素,在邊界位置允許出現一些誤差。當使用者輸入乙個query的時候,對於每乙個文件d來說,它跟這個query之間都有乙個相關性衡量權重f (query, d)。搜尋引擎需要返回給使用者的就是相關性權重最大的k個網頁。如果每頁10個網頁,使用者不會關心第1000頁開外搜尋結果的「精確度」,稍有誤差是可以接受的。比如我們可以返回相關性第10 001大的網頁,而不是第9999大的。在這種情況下,演算法該如何改進才能更快更有效率呢?網頁的數目可能大到一台機器無法容納得下,這時怎麼辦呢?
解答:正如提示中所說,可以讓每台機器返回最相關的k'個文件,然後利用歸併排序的思想,得到所有文件中最相關的k個。 最好的情況是這k個文件在所有機器中平均分布,這時每台機器只要k' = k / n (n為所有機器總數);最壞情況,所有最相關的k個文件只出現在其中的某一台機器上,這時k'需近似等於k了。我覺得比較好的做法可以在每台機器上維護乙個堆,然後對堆頂元素實行歸併排序。
5. 如第4點所說,對於每個文件d,相對於不同的關鍵字q
1, q
2, …, qm
,分別有相關性權重f(d, q
1),f(d, q
2), …, f(d,qm
)。如果使用者輸入關鍵字qi
之後,我們已經獲得了最相關的k個文件,而已知關鍵字qj
跟關鍵字qi
相似,文件跟這兩個關鍵字的權重大小比較靠近,那麼關鍵字qi
的最相關的k個文件,對尋找qj
最相關的k個文件有沒有幫助呢?
解答:肯定是有幫助的。在搜尋關鍵字qj
最相關的k個文件時,可以在qj
的「近義詞」相關文件中搜尋部分,然後在全域性的所有文件中在搜尋部分。
第 前 k大數問題
所謂 第 前 k大數問題 指的是在長度為n n k 的亂序陣列中s找出從大到小順序的第 前 k個數的問題。解法1 我們可以對這個亂序陣列按照從大到小先行排序,然後取出前k大,總的時間複雜度為o n logn k 4.在實際應用中,還有乙個 精確度 的問題。我們可能並不需要返回嚴格意義上的最大的k個元...
問題 A 求第k大數
題目鏈結 題目描述 給定乙個長度為n 1 n 1,000,000 的無序正整數序列,以及另乙個數k 1 k 1,000,000 關於第k大的數 例如序列中第3大的數是4。輸入 第一行兩個正整數m,n。第二行為n個正整數。輸出 第k大的數。樣例輸入 6 31 2 3 4 5 6 樣例輸出 4 incl...
Python 第(前)K大(小)數問題
指的是在長度為n n k 的亂序陣列中找出從大到小順序的第 前 k個數的問題。假設陣列長度為n,首先取前k個數,構建最小堆,將剩餘n k個元素,依次與堆頂元素進行比較,若大於堆頂元素,則替換,並重新為最小堆。構建最小堆 def min heap self,parent,heap child 2 pa...