solr從pdf office文件中建立索引

**自：

tika-data-config.xml

processor="filelistentityprocessor"

basedir="d:/temp" filename=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"

recursive="true">

name="documentimport"

processor="tikaentityprocessor"

url="$"

format="text">

這裡只說上面（7.2）沒有說過的屬性。

·filename:（必選）使用正規表示式匹配檔案

·basedir: (必選) 檔案目錄

·recursive: 是否遞迴的獲取檔案，預設false

·rootentity:在這裡必須是false(除非你只想索引檔名)。在預設情況下，document元素下就是根實體了，如果沒有根實體的話，直接在實體下面的實體將會被看做跟實體。對於根實體對應的資料庫中返回的資料的每一行，solr都將生成乙個document

·datasource:如果你是用solr1.3，那就必須設為"null"，因為它沒使用任何datasourde。不需要在solr1.4中指定它，它只是意味著我們不建立乙個datasource例項。在大多數情況下，只有乙個datasource（jdbcdatasource），當使用filelistentityprocessor 的時候datasource不是必須的

·processor:只有當datasource不是rdbms時才是必須的

·onerror:預設是"abort"，"skip"表示跳過當前文件，"continue"表示對錯誤視而不見

solr從pdf office文件中建立索引

solr從pdf office文件中建立索引

全文檢索 Solr從概念到實戰（一）

從HBase讀取資料提交到Solr建立索引

solr從pdf office文件中建立索引

solr從pdf office文件中建立索引

全文檢索 Solr從概念到實戰（一）

從HBase讀取資料提交到Solr建立索引

相關推薦