lucene是solr實現的基礎,而lucene的實現基礎是全文檢索技術
接下就談談基礎的全文檢索技術實現的原理。
檢索是指對資料的,所以檢索技術是針對於某一種或特有的型別的資料。而針對於不同的資料型別對應有不同的檢索方式。
結構化資料:具有固定格式或有限長度的資料,資料庫、元資料
非結構化資料:長度不定或無固定格式的資料,郵件、word文件
對文中使用到的詞稍作解釋。
全文檢索大致分為索引建立和搜尋索引兩個過程。
索引過程
搜尋過程
1)、使用者輸入查詢語句
2)、對查詢語句進行詞法分析----進行關鍵字比對,如輸入不正確,將關鍵字做乙個普通的詞處理(內有關鍵字庫)
3)、對查詢語句進行語法分析----將語句根據語法規則形成語法樹
4)、對查詢語句進行語言處理----同索引語言處理
5)、搜尋索引,在反向鍊錶中找到相應的文件鍊錶,並進行合理的差、並操作得到文件鍊錶
6)、對所得文件進行相關性降序排序(涉及排序演算法:空間向量模型演算法)
搜尋引擎元件
全文檢索技術
1 什麼是全文檢索,如何實現全文檢索 2 lucene實現全文檢索的流程 a 建立索引 b 查詢索引 3 配置開發環境 4 入門程式 5 分析器的分析過程 a 測試分析器的分詞效果 b 第三方中文分析器 6 索引庫維護 a 新增文件 b 刪除文件 c 修改文件 7 索引庫查詢 a 使用query子類...
全文檢索技術調研
全文檢索的技術有很多,由於軟體使用資料庫種類的不確定性,所以拋棄了在資料庫上做全文檢索的念頭。那麼,接下來就需要找乙個能替代db進行全文檢索的框架了。這兩個是基於lucene開發的企業級搜尋應用伺服器,兩者都有各自的有點,這裡不再贅述,因為本人需要搜尋功能的是乙個單機應用,沒有百萬級的資料,感覺有點...
全文檢索的原理
參考 全文檢索歸結為兩個過程 1 建立索引2 索引搜尋 先關注幾個問題 如何建立索引?索引中存放的是神馬東西?如果通過索引進行搜尋?然後關注幾個重要的概念 反向索引 倒排表 倒排索引 倒排索引檔案 停詞權重 反向索引 儲存這種對映資訊的索引稱為反向索引 solr lucene採用反向索引 就是從關鍵...