lucene
各個包的說明:
org.apache.lucene.document:
這個包提供了一些為要索引的文件所需要的類。比如說document
、file.
這樣每乙個文件最終被封裝成乙個document
物件。
org.apache.lucene.analysis :
這個包主要是對文件進行分詞,文件在建立索引之前必須要進行分詞,這個包的作用可以看成是為建立索引做準備工作。
org.apache.lucene.index
:這個包提供了一些類來協助建立索引以及對建立好的索引進行更新。這裡面有兩個基礎的類:indexwriter
和indexreader
,其indexwriter
是用來建立索引並新增文件到索引中的,indexreader
是用來刪除索引中的文件的。
org.apache.lucene.search
:這個包提供了對在建立好的索引上進行搜尋所需要的類。比如indexsearcher
和hits, indexsearcher
定義了在指定的索引上進行搜尋的
方法,hits
用來儲存搜尋得到的結果。
建立索引
為了對文件進行索引,lucene
提供了五個基礎的類,他們分別是document, field, indexwriter, analyzer, directory
。下面我們分別介紹一下這五個類的用途:
(1
):document
document
是用來描述文件的,這裡的文件可以指乙個html
頁面,一封電子郵件,或者是乙個文字檔案。乙個document
物件由多個field
物件組成的。可以把乙個document
物件想象成資料庫中的乙個記錄,而每個field
物件就是記錄的乙個字段。
(2
):field
field
物件是用來描述乙個文件的某個屬性的,比如一封電子郵件的標題和內容可以用兩個field
物件分別描述。
(3
):analyzer
在乙個文件被索引之前,首先需要對文件內容進行分詞處理,這部分工作就是由analyzer
來做的。analyzer
類是乙個抽象類,它有多個實現。針對不同的語言和應用需要選擇適合的analyzer
。analyzer
把分詞後的內容交給indexwriter
來建立索引。
(4
):indexwriter
indexwriter
是lucene
用來建立索引的乙個核心的類,他的作用是把乙個個的document
物件加到索引中來。
(5
):directory
這個類代表了lucene
的索引的儲存的位置,這是乙個抽象類,它目前有兩個實現,第乙個是fsdirectory
,它表示乙個儲存在檔案系統中的索引的位置。第二個是ramdirectory
,它表示乙個儲存在記憶體當中的索引的位置。
Python安裝及各個包的安裝
安裝完成後在系統變數中,找到path,雙擊 再字串的末尾,加乙個分號 然後再輸入你安裝python的路徑 將d python27 scripts新增到環境變數中即可 pip install numpy 1.11.2 mkl cp27 cp27m win32.whl pip install scipy...
jbpm4各個包的作用描述
org.jbpm.pvm.internal.ant 提供使用ant發布流程,輔助啟動jboss的任務。org.jbpm.pvm.internal.builder 用來構造各種模型,包括活動,活動行為,事件,事件處理器,流程定義,變數,任務,等等。org.jbpm.pvm.internal.cal 提...
lucene 很有用的說明,雖然有點老了 夠用了
packagephz importorg.apache.lucene.analysis.standard.standardanalyzer importorg.apache.lucene.document.document importorg.apache.lucene.document.field...