自然語言處理在搜尋引擎資訊檢索中的應用
文章介紹了2002時使用的三種搜尋技術,並提出了乙個資訊檢索模型,並提出了一種分析輸入搜尋串以提高搜尋精度的演算法。
三種搜尋技術是:基於robot的搜尋、元搜尋、目錄搜尋。
基於robot的搜尋使用robot(spider或crawler)獲取抓取網路上web頁面的內容,按照一定的儲存結構儲存到資料庫中。當使用者發出搜尋請求時,伺服器從資料庫中搜尋資訊,並返回給使用者。這是最原始的一種搜尋技術,同時也是當前應用最廣泛的技術。它獲取的資訊量大,全面,並易於更新。
元搜尋又叫multi search engine,他使用他人的搜尋**,然後對資訊合併,返回使用者。這種搜尋引擎沒有本地資料庫,開發簡單,但是資訊反饋較慢。
目錄搜尋是最機械的一種搜尋方式,他的資料庫是靠專職編輯或志願人員建立起來的。編輯人員對該站點或文章進行描述或分類,然後將站點的url和描述放到類別中,當使用者搜尋時,只在這些描述中搜尋。就目前來看,這種方式仍然在使用。一些blog**仍然讓使用者寫tag和寫描述資訊,應該就是分類。
特徵提取階段去掉一些不能作為特徵的詞,並提取一些有意義的詞。
歧義消解階段找出有意義的詞。
搜尋引擎檢索技術
謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...
搜尋引擎檢索技術
如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...
搜尋引擎檢索技術
如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...