web全文檢索技術概要

2021-09-30 01:21:23 字數 821 閱讀 2048

網上的資訊具有數量大、形式多、內容廣、專業性不強等特點,給情報收集、分類、檢索等工作帶來了新的問題和挑戰。

如何充分利用internet上的資訊資源?

全文資訊檢索就是根據internet 資訊的特點而發展起來的一種檢索方式。它主要是指研究對整個文件資訊的表示儲存組織防偽,即根據使用者的查詢請求,從資訊資料庫中檢索出相關資訊資料。

全文檢索的中心環節檔案內容表達資訊查詢的獲得以及相關資訊的匹配。乙個好的全文資訊檢索系統不僅可以將輸出資訊進行相關性排列,還應該能夠根據使用者的意圖興趣特點自適應智慧型化地調整匹配機制,獲得令使用者滿意的檢索輸出。

主要功能:過濾檔案系統資訊,為檔案系統的表達提供一種令人滿意的索引輸出。

基本目的:為了獲取最優的索引記錄,使使用者能很容易地檢索到所需資訊。

語詞切分。

語法分析。漢語語詞切分中存在切分歧義,因此需要利用上下文知識解決語詞切分歧義。此外,還需要對語詞進行語詞分析,識別各個詞語的詞幹,以根據詞幹建立資訊索引。

詞性標註和短語識別。

自動標引。

自動分類。

全文檢索技術

1 什麼是全文檢索,如何實現全文檢索 2 lucene實現全文檢索的流程 a 建立索引 b 查詢索引 3 配置開發環境 4 入門程式 5 分析器的分析過程 a 測試分析器的分詞效果 b 第三方中文分析器 6 索引庫維護 a 新增文件 b 刪除文件 c 修改文件 7 索引庫查詢 a 使用query子類...

全文檢索技術原理

lucene是solr實現的基礎,而lucene的實現基礎是全文檢索技術 接下就談談基礎的全文檢索技術實現的原理。檢索是指對資料的,所以檢索技術是針對於某一種或特有的型別的資料。而針對於不同的資料型別對應有不同的檢索方式。結構化資料 具有固定格式或有限長度的資料,資料庫 元資料 非結構化資料 長度不...

全文檢索技術調研

全文檢索的技術有很多,由於軟體使用資料庫種類的不確定性,所以拋棄了在資料庫上做全文檢索的念頭。那麼,接下來就需要找乙個能替代db進行全文檢索的框架了。這兩個是基於lucene開發的企業級搜尋應用伺服器,兩者都有各自的有點,這裡不再贅述,因為本人需要搜尋功能的是乙個單機應用,沒有百萬級的資料,感覺有點...