lucene的各個包的說明

2021-08-30 03:01:51 字數 2051 閱讀 9841

lucene

各個包的說明:

org.apache.lucene.document:

這個包提供了一些為要索引的文件所需要的類。比如說document

、file.

這樣每乙個文件最終被封裝成乙個document

物件。

org.apache.lucene.analysis :

這個包主要是對文件進行分詞,文件在建立索引之前必須要進行分詞,這個包的作用可以看成是為建立索引做準備工作。

org.apache.lucene.index

:這個包提供了一些類來協助建立索引以及對建立好的索引進行更新。這裡面有兩個基礎的類:indexwriter

和indexreader

,其indexwriter

是用來建立索引並新增文件到索引中的,indexreader

是用來刪除索引中的文件的。

org.apache.lucene.search

:這個包提供了對在建立好的索引上進行搜尋所需要的類。比如indexsearcher

和hits, indexsearcher

定義了在指定的索引上進行搜尋的

方法,hits

用來儲存搜尋得到的結果。

建立索引

為了對文件進行索引,lucene

提供了五個基礎的類,他們分別是document, field, indexwriter, analyzer, directory

。下面我們分別介紹一下這五個類的用途:

1

):document

document

是用來描述文件的,這裡的文件可以指乙個html

頁面,一封電子郵件,或者是乙個文字檔案。乙個document

物件由多個field

物件組成的。可以把乙個document

物件想象成資料庫中的乙個記錄,而每個field

物件就是記錄的乙個字段。

2

):field

field

物件是用來描述乙個文件的某個屬性的,比如一封電子郵件的標題和內容可以用兩個field

物件分別描述。

3

):analyzer

在乙個文件被索引之前,首先需要對文件內容進行分詞處理,這部分工作就是由analyzer

來做的。analyzer

類是乙個抽象類,它有多個實現。針對不同的語言和應用需要選擇適合的analyzer

。analyzer

把分詞後的內容交給indexwriter

來建立索引。

4

):indexwriter

indexwriter

是lucene

用來建立索引的乙個核心的類,他的作用是把乙個個的document

物件加到索引中來。

5

):directory

這個類代表了lucene

的索引的儲存的位置,這是乙個抽象類,它目前有兩個實現,第乙個是fsdirectory

,它表示乙個儲存在檔案系統中的索引的位置。第二個是ramdirectory

,它表示乙個儲存在記憶體當中的索引的位置。

Python安裝及各個包的安裝

安裝完成後在系統變數中,找到path,雙擊 再字串的末尾,加乙個分號 然後再輸入你安裝python的路徑 將d python27 scripts新增到環境變數中即可 pip install numpy 1.11.2 mkl cp27 cp27m win32.whl pip install scipy...

jbpm4各個包的作用描述

org.jbpm.pvm.internal.ant 提供使用ant發布流程,輔助啟動jboss的任務。org.jbpm.pvm.internal.builder 用來構造各種模型,包括活動,活動行為,事件,事件處理器,流程定義,變數,任務,等等。org.jbpm.pvm.internal.cal 提...

lucene 很有用的說明,雖然有點老了 夠用了

packagephz importorg.apache.lucene.analysis.standard.standardanalyzer importorg.apache.lucene.document.document importorg.apache.lucene.document.field...