全文檢索技術原理

2021-09-09 07:59:40 字數 541 閱讀 9576

lucene是solr實現的基礎,而lucene的實現基礎是全文檢索技術

接下就談談基礎的全文檢索技術實現的原理。

檢索是指對資料的,所以檢索技術是針對於某一種或特有的型別的資料。而針對於不同的資料型別對應有不同的檢索方式。

結構化資料:具有固定格式或有限長度的資料,資料庫、元資料

非結構化資料:長度不定或無固定格式的資料,郵件、word文件

對文中使用到的詞稍作解釋。

全文檢索大致分為索引建立和搜尋索引兩個過程。

索引過程

搜尋過程

1)、使用者輸入查詢語句

2)、對查詢語句進行詞法分析----進行關鍵字比對,如輸入不正確,將關鍵字做乙個普通的詞處理(內有關鍵字庫)

3)、對查詢語句進行語法分析----將語句根據語法規則形成語法樹

4)、對查詢語句進行語言處理----同索引語言處理

5)、搜尋索引,在反向鍊錶中找到相應的文件鍊錶,並進行合理的差、並操作得到文件鍊錶

6)、對所得文件進行相關性降序排序(涉及排序演算法:空間向量模型演算法)

搜尋引擎元件

全文檢索技術

1 什麼是全文檢索,如何實現全文檢索 2 lucene實現全文檢索的流程 a 建立索引 b 查詢索引 3 配置開發環境 4 入門程式 5 分析器的分析過程 a 測試分析器的分詞效果 b 第三方中文分析器 6 索引庫維護 a 新增文件 b 刪除文件 c 修改文件 7 索引庫查詢 a 使用query子類...

全文檢索技術調研

全文檢索的技術有很多,由於軟體使用資料庫種類的不確定性,所以拋棄了在資料庫上做全文檢索的念頭。那麼,接下來就需要找乙個能替代db進行全文檢索的框架了。這兩個是基於lucene開發的企業級搜尋應用伺服器,兩者都有各自的有點,這裡不再贅述,因為本人需要搜尋功能的是乙個單機應用,沒有百萬級的資料,感覺有點...

全文檢索的原理

參考 全文檢索歸結為兩個過程 1 建立索引2 索引搜尋 先關注幾個問題 如何建立索引?索引中存放的是神馬東西?如果通過索引進行搜尋?然後關注幾個重要的概念 反向索引 倒排表 倒排索引 倒排索引檔案 停詞權重 反向索引 儲存這種對映資訊的索引稱為反向索引 solr lucene採用反向索引 就是從關鍵...