Lucene的檢索優化（二） Hits的改進

剛剛開始學lucene，看的是lucene in action。順著看下去，很自然的就是使用hits來訪問search的結果。但是使用起來，發現search的速度是很快，不過如果結果很多的話（比如1w個），通過hits訪問所有的結果速度非常慢，就是簡單地從每個結果中讀乙個field，在我的機器上用了接近2分鐘。因為我的應用索引的只是我的資料的兩個域包含文字資訊的域，我本希望通過lucene查詢出符合需求的資料id，再通過id去判斷資料庫中的其他域來決定最終的結果。這樣連取id就需要2分鐘，我的應用可受不了。

第乙個想到的方法是把我的全部資料域都做成lucene的索引，然後全部通過lucene去搜尋。但是由於我的很多域是數字，全部轉換成lucene能接受的字串，感覺效能不會好。另外如果我想針對搜尋的結果做統計，也沒法避免需要遍歷全部的搜尋結果，如果1w個結果就需要2分鐘的話，就算不用處理其他的域，也是不能忍受的。

開源軟體的好處就是可以讀**。通過閱讀hits的**，終於找到了解決問題的辦法。

lucene 的**看起來並不是特別professional。比如下面這兩個hits的初始化函式。首先裡面的q,s,f什麼的讓人看起來就不是太舒服（其他的**裡還用i,j做迴圈變數）。其次這兩個函式只有o那乙個賦值不一樣，明顯應該只寫乙個，讓另乙個來呼叫。最後程式裡面直接用了50這個常數，程式設計的大忌。（50在其他函式裡面也有）

hits(searcher s, query q, filter f) throws ioexception

hits(searcher s, query q, filter f, sort o) throws ioexception

通過這兩個函式，應該看出hits初始化的時候只調入了前100個文件。

一般我們是通過document doc(int n)函式來訪問的。這個函式裡面先判斷了有多少資料已經被調入了，如果要訪問的資料不在，就去呼叫getmoredocs函式，getmoredocs會取得需要的2倍文件進來。

但是getmoredocs的**比較讓人疑惑，裡面一段**是這樣的：

int n = min * 2;

// double # retrieved

topdocs topdocs = (sort == null) ? searcher.search(weight, filter, n) : searcher.search(weight, filter, n, sort);

這不成了每次翻倍的時候都要去調search重新查詢嗎？除非search裡面有快取，否則效能一定指數下降啊！

實際上hits最終使用的也是topdocs，searcher組合來實現輸出結果，那不如我們來直接使用下層一點的物件了。我原來的**是：

hits hits = searcher.search(query);

for( int i=0;i

document doc = hits .doc(i );

sztest.add(doc);

}現在改為：

topdocs topdoc = searcher.search(query.weight(searcher), null, 100000);//注意最後乙個引數，是search返回的結果數量，應該比你最大可能返回的數量大，否則scoredoc裡面就是你設定的數量。

scoredoc scoredocs = topdoc.scoredocs;

for( int i=0;i

document doc = searcher.doc(scoredocs[i].doc );

sztest.add(doc);

}結果把12000個id加入arraylist用時0.4秒，快了幾百倍。

等等，還沒完。

我只需要id欄位，但是返回整個doc，其他兩個文字field也返回了。因為lucene是倒索引儲存資訊的，每乙個文字field需要重新組合成原始的字串，這也是要耗時間的。searcher的doc函式有乙個可以限定只取部分域的：

document doc(int n, fieldselector fieldselector)

我下面定義乙個fieldselector，只取某乙個給定名字的field

class specialfieldselector implements fieldselector

public fieldselectorresult accept(string fieldname)

else } }

再修改我的**：

scoredoc scoredocs = topdoc.scoredocs;

arraylistsztest = new arraylist();

fieldselector fieldselector = new specialfieldselector(field_id);

for( int i=0;i

document doc = searcher.doc(scoredocs[i].doc, fieldselector);

sztest.add(doc);

}現在返回1.2w個id耗時0.25秒。雖然比前面只少了大約150毫秒，但是是接近40%的提高了，在負載比較大的應用中還是很重要的。

Lucene的檢索優化（二） Hits的改進

Lucene4 7 索引和檢索的常用API 二

lucene針對分頁文字的檢索和檢索結果定位問題

Lucene建立索引和索引的基本檢索

Lucene的檢索優化（二） Hits的改進

Lucene4 7 索引和檢索的常用API 二

lucene針對分頁文字的檢索和檢索結果定位問題

Lucene建立索引和索引的基本檢索

相關推薦