使用solr從pdf、office文件中建立索引和從資料庫中建立相似,只不過這裡需要tika來解析這些文件。
8.1 配置乙個handler
這個handler首先要在solrconfig.xml中配置,如下所示:
tika-data-config.xml
這裡和7.1幾乎一樣,只不過修改了配置檔名(當然也可以不修改)。
8.2 文件配置tika-data-config.xml
processor="filelistentityprocessor"
basedir="d:/temp" filename=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"
recursive="true">
name="documentimport"
processor="tikaentityprocessor"
url="$"
format="text">
這裡只說上面(7.2)沒有說過的屬性。
· filename :(必選)使用正規表示式匹配檔案
· basedir : (必選) 檔案目錄
· recursive : 是否遞迴的獲取檔案,預設false
· rootentity :在這裡必須是false(除非你只想索引檔名)。在預設情況下,document元素下就是根實體了,如果沒有根實體的話,直接在實體下面的實體將會被看做跟實體。對於根實體對應的資料庫中返回的資料的每一行,solr都將生成乙個document
· datasource :如果你是用solr1.3,那就必須設為「null」,因為它沒使用任何datasourde。不需要在solr1.4中指定它,它只是意味著我們不建立乙個datasource例項。在大多數情況下,只有乙個datasource(jdbcdatasource),當使用filelistentityprocessor 的時候datasource不是必須的
· processor:只有當datasource不是rdbms時才是必須的
· onerror :預設是「abort」,「skip」表示跳過當前文件,「continue」表示對錯誤視而不見
solr從pdf office文件中建立索引
自 tika data config.xml processor filelistentityprocessor basedir d temp filename doc pdf xls ppt docx recursive true name documentimport processor tik...
全文檢索 Solr從概念到實戰(一)
select song id,song name,song singer,song album from table song where song name like 神話 or song album like 神話 or song lyric like 神話 效率低,影響效能。從字典中查 王 先...
從HBase讀取資料提交到Solr建立索引
從hbase中讀取資料既可以直接呼叫htable等api介面,也可以採用mapreduce的方式來讀。如果資料表比較大,分成多個region來儲存,後者可以顯著提高資料讀取效率。hbase提供了乙個行統計程式rowcounter org.apache.hadoop.hbase.mapreduce包 ...