solr從pdf office文件中建立索引

使用solr從pdf、office文件中建立索引和從資料庫中建立相似，只不過這裡需要tika來解析這些文件。

8.1 配置乙個handler

這個handler首先要在solrconfig.xml中配置，如下所示：

tika-data-config.xml

這裡和7.1幾乎一樣，只不過修改了配置檔名（當然也可以不修改）。

8.2 文件配置tika-data-config.xml

processor="filelistentityprocessor"

basedir="d:/temp" filename=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"

recursive="true">

name="documentimport"

processor="tikaentityprocessor"

url="$"

format="text">

這裡只說上面（7.2）沒有說過的屬性。

· filename :（必選）使用正規表示式匹配檔案

· basedir : (必選) 檔案目錄

· recursive : 是否遞迴的獲取檔案，預設false

· rootentity :在這裡必須是false(除非你只想索引檔名)。在預設情況下，document元素下就是根實體了，如果沒有根實體的話，直接在實體下面的實體將會被看做跟實體。對於根實體對應的資料庫中返回的資料的每一行，solr都將生成乙個document

· datasource :如果你是用solr1.3，那就必須設為「null」，因為它沒使用任何datasourde。不需要在solr1.4中指定它，它只是意味著我們不建立乙個datasource例項。在大多數情況下，只有乙個datasource（jdbcdatasource），當使用filelistentityprocessor 的時候datasource不是必須的

· processor:只有當datasource不是rdbms時才是必須的

· onerror :預設是「abort」，「skip」表示跳過當前文件，「continue」表示對錯誤視而不見

solr從pdf office文件中建立索引

solr從pdf office文件中建立索引

全文檢索 Solr從概念到實戰（一）

從HBase讀取資料提交到Solr建立索引

solr從pdf office文件中建立索引

solr從pdf office文件中建立索引

全文檢索 Solr從概念到實戰（一）

從HBase讀取資料提交到Solr建立索引

相關推薦