用了一下ruby的中文分詞rmmseg + ferret,發現rmmseg的中文分詞並不是很好,比如:hawkins開始了他第一部掌上電腦的設計構想。搜尋「掌上電腦」並不能搜尋到結果,但是如果把上面這一句改為:hawkins開始了他第一部 掌上電腦 的設計構想。請注意「掌上電腦」兩邊的空格,這樣的話,rmmseg就可以正確地分詞了。
對英文的分詞倒是很準確的(好像個個全文檢索對英文分詞都很強的吧)。
也不知道是不是我用得不對,貼上我使用的**:
#全文檢索
#rmmseg中文分詞
analyzer = rmmseg::ferret::analyzer.new
$index = ferret::index::index.new(:analyzer => analyzer)
acts_as_ferret :field => [:title,:summary,:body] #,:ferret =>
#全文檢索方法
def self.full_text_search(q, options = {})
return nil if q.nil? or q==""
default_options =
options = default_options.merge options
# get the offset based on what page we're on
options[:offset] = options[:limit] * (options.delete(:page).to_i-1)
results = page.find_by_contents(q, options)
return [results.total_hits, results]
end
求教rmmseg ferret設定問題
安裝好rmmseg,ferret,acts as ferret後,啟動rails無法載入rmmseg 已經在environment.rb加上了 config.gem ferret version 0.11.6 config.gem rmmseg version 0.1.6 config.gem ac...
貌似生日的快樂
總是又乙個5月15日,對我來說這個 又 字顯得一點都不奇怪。對乙個身在異鄉的人來說,生日顯得多餘。通訊技術的發達將世界縮小的同時,也寵壞了我們的惰性。可有些時候,會發現距離並不因為通訊技術的發展而呈指數縮減的趨勢。而我現在卻正在為這種曲線救國方案而終日努力著,不免有貌似快樂的生日。遠方的牽掛時時都能...
貌似」崢嶸「的歲月
好久沒有寫東西了,這兩天雨也滴答個不停。好像要澆透心中所有的煩亂,不明白這段時間是怎麼了,開始懷念,開始懷念一些人,一些事.開始工作以來,所經歷過的事,所見到過的人。無一不催進著我的思考,催促著我的改變。以求能更好的適應這種工作的環境及壓力。崢嶸歲月,可能還達不到那種程度。只能用支言片語來記錄那些過...