搜尋引擎技術及趨勢

2021-08-29 08:35:36 字數 1030 閱讀 4555

隨著網際網路的迅猛發展、web資訊的增加,使用者要在資訊海洋裡查詢資訊,就象大海撈針一樣,搜尋引擎技術恰好解決了這一難題(它可以為使用者提供資訊檢索服務)。目前,搜尋引擎技術正成為計算機工業界和學術界爭相研究、開發的物件。

搜尋引擎(search engine)是隨著web資訊的迅速增加,從2023年開始逐漸發展起來的技術。據發表在《科學》雜誌2023年7月的文章《web資訊的可訪問性》估計,全球目前的網頁超過8億,有效資料超過9t,並且仍以每4個月翻一番的速度增長。使用者要在如此浩瀚的資訊海洋裡尋找資訊,必然會「大海撈針」無功而返。

搜尋引擎正是為了解決這個「迷航」問題而出現的技術。搜尋引擎以一定的策略在網際網路中蒐集、發現資訊,對資訊進行理解、提取、組織和處理,並為使用者提供檢索服務,從而起到資訊導航的目的。搜尋引擎提供的導航服務已經成為網際網路上非常重要的網路服務,搜尋引擎站點也被美譽為「網路門戶」。搜尋引擎技術因而成為計算機工業界和學術界爭相研究、開發的物件。本文旨在對搜尋引擎的關鍵技術進行簡單的介紹,以起到拋磚引玉的作用。

一、分類

二、效能指標

我們可以將web資訊的搜尋看作乙個資訊檢索問題,即在由web網頁組成的文件庫中檢索出與使用者查詢相關的文件。所以我們可以用衡量傳統資訊檢索系統的效能引數-召回率(recall)和精度(pricision)衡量乙個搜尋引擎的效能。

召回率是檢索出的相關文件數和文件庫中所有的相關文件數的比率,衡量的是檢索系統(搜尋引擎)的查全率;精度是檢索出的相關文件數與檢索出的文件總數的比率,衡量的是檢索系統(搜尋引擎)的查準率。對於乙個檢索系統來講,召回率和精度不可能兩全其美:召回率高時,精度低,精度高時,召回率低。所以常常用11種召回率下11種精度的平均值(即11點平均精度)來衡量乙個檢索系統的精度。對於搜尋引擎系統來講,因為沒有乙個搜尋引擎系統能夠蒐集到所有的web網頁,所以召回率很難計算。目前的搜尋引擎系統都非常關心精度。

影響乙個搜尋引擎系統的效能有很多因素,最主要的是資訊檢索模型,包括文件和查詢的表示方法、評價文件和使用者查詢相關性的匹配策略、查詢結果的排序方法和使用者進行相關度反饋的機制。

三、主要技術

四、未來動向

五、學術研究

搜尋引擎檢索技術

謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...

搜尋引擎檢索技術

如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...

搜尋引擎檢索技術

如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...