搜尋引擎發展綜述
李銳 [email protected].**
(中科院計算技術研究所 北京 100080)
inter***自誕生以來不斷成長,其內容不斷豐富,整個網路逐漸堆積成乙個前所未有的超大型資訊庫。inter***作為乙個資訊平台在人們的日常生活和工作中發揮著越來越重要的作用,人們越來越多地通過inter***獲取資訊。在網際網路發展初期,**相對較少,網頁數量亦較少,因而資訊查詢比較容易。然而伴隨網際網路**性的發展,普通網路使用者想找到所需的資料簡直如同大海撈針,以至於迷失在資訊的海洋中不知所措,出現了我們所說的"資訊豐富,知識貧乏"的奇怪現象。搜尋引擎正是為了解決這個"迷航"問題而出現的技術。
搜尋引擎(search engine簡稱se)是乙個資訊處理系統,它以一定的策略在網際網路中蒐集、發現資訊,對資訊進行理解、提取、組織和處理,並為使用者提供檢索服務,從而起到資訊導航的目的,一般包括資訊蒐集、資訊整理和使用者查詢三部分。從使用者的角度來看,它就是乙個幫助人們進行資訊檢索的工具。
1. 發展回眸
3. 效能指標
搜尋引擎是一種網際網路資訊檢索工具,因此對其效能評價可以參考傳統型文獻檢索工具的質量評價標準,結合搜尋引擎在資訊組織加工及檢索服務提供方式等內容進行;又因為它直接跟蹤網路資訊並面向網路資訊使用者,對它的評價因該立足於使用者的利益立場。通俗地講,能令大多數網路使用者滿意的搜尋引擎就是乙個好的搜尋引擎。
通常情況下,我們可以從以下幾個方面來衡量乙個搜尋引擎的效能:
3.1. 召回率(recall):又稱查全率,指搜尋引擎提供的檢索結果中相關資訊文件數與網路資訊中存在的相關資訊文件數之比, 因檢索結果是在對檢索需求與搜尋引擎的索引資料庫中的文件進行匹配後的文件集合, 這一指標也是搜尋引擎對網路資訊覆蓋率的真實反映。
3.2. 精度(precision):又稱查準率,是搜尋引擎提供的檢索結果與使用者資訊需求的匹配程度, 也是檢索結果中有效資訊的文件數與搜尋引擎提供的全部文件數之比。
3.3. 檢索速度:又稱響應時間,檢索速度一般而言取決於兩個因素, 即與頻寬有關的網路速度及搜尋引擎本身的速度, 只有在二者均獲得可靠的技術支援的情況下, 才能保證理想的檢索速度。
對於乙個檢索系統來講,召回率和精度很難做到兩全其美:召回率高時,精度低;精度高時,召回率低。對於搜尋引擎系統來講,因為沒有乙個搜尋引擎系統能夠覆蓋所有的網路資源,所以召回率很難計算。目前的搜尋引擎系統都非常關心精度。對於上面的衡量方法,有其不足之處,還有其他方面的因素沒能考慮,在文獻[7]中以使用者為導向運用層次分析法建立乙個分析模型,文獻[8]中提出了一些較好的衡量方法。影響乙個搜尋引擎系統的效能有很多因素,最主要的是資訊檢索模型,包括文件和查詢的表示方法、評價文件和使用者查詢相關性的匹配策略、查詢結果的排序方法和使用者進行相關度反饋的機制。
另外,我們可以從對搜尋引擎的功能要求角度對它進行評價。在筆者看來,乙個理想的搜尋引擎系統應該具備以下功能要求:
① 涵蓋較多的網際網路資源,資源更新週期不是很長,對於某些特殊資訊可以實時更新,這些是查全率的保障之一。
② 具備盡可能多的可選擇功能,如資源型別(**、網頁、新聞、軟體、ftp、***、flash、影象、影視等)選擇、等待時間控制、返回結果數量控制、結果時段選擇、過濾功能選擇、結果顯示方式選擇等。
③ 強大的檢索請求處理功能(如支援邏輯匹配檢索、短語檢索、自然語言檢索等)。
④ 詳盡全面的檢索結果資訊描述(如網頁名稱、url、文摘、結果與使用者檢索需求的相關度等)。
⑤ 支援多種語言檢索,比如提供中英文搜尋等。
⑥ 可對結果進行自動分類,如按照網域名稱、國別、資源型別、區域等進行分類整理。
⑦ 可以針對不同使用者提供個性化服務。
4. 原理和關鍵技術
6. 參考文獻
[1] 李曉明,劉建國 搜尋引擎技術及趨勢
[2] 搜尋引擎直通車 搜尋引擎發展史 http://.se-express.***/about/about.htm
[3] 部落格中國 前生今世——搜尋引擎發展史http://.blogchina.***/new/source/130.html
[4] 莊毅,黎浩巨集 引擎技術現狀及發展動向 計算機時代 2023年第8期
[5] 王紅梅,朱洪秀,王凌 對中文搜尋引擎未來發展的** 東北電力學院學報2023年12月第21卷第4期
[6] 張曉剛,李明樹 智慧型搜尋引擎技術的研究與發展 計算機工程與應用 2023年第24期
[7] 馬彪,李恆 搜尋引擎的效能評價 新世紀圖書館 2023年第6期
[8] 鳳元傑,劉正春,王堅毅 搜尋引擎主要效能評價指標體系研究 情報學報 2023年2月第23卷第1期
[9] 凌美秀 關於搜尋引擎當前存在的主要問題及其發展趨勢的** 高校圖書館工作 2023年第5期第21卷
[10] 蔡瑞平,鐘哲釋 搜尋引擎的檢索功能特徵及技巧 圖書與情報2023年4月
[11] 彭洪匯,林作銓 inter***上的搜尋引擎和元搜尋引擎 電腦科學2002 vol. 29 no. 9
[12] 李遠明 試析搜尋引擎技術及其未來發展趨勢 情報檢索 2002 no.7
[13] 盧世光,丁方忠 搜尋引擎使用技術回顧和發展趨勢** 廣東通訊技術 2002 vol.19 no.5
Web搜尋引擎技術綜述
摘要 隨著網路與通訊技術的迅速發展,web資訊 性的增長,已經成為乙個巨大的海量資訊空間。如何快速 準確 方便的從如此龐大的資訊庫中獲取自己需要的資訊,是網際網路使用者面臨的乙個重要問題。web搜尋引擎能為使用者提供一種查詢所需資源的服務,已經成為網際網路上僅次於電子郵件的第二大服務。本文首先介紹了...
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...
搜尋引擎的未來發展方向(一) 遊戲型搜尋引擎
海納星辰的對網際網路的未來 系列,首先發布的是搜尋行業,搜尋引擎是網際網路世界的核心平台,也被稱為入口,是眾多網際網路公司競爭的焦點,通過多年的研究,發現前篇一律的搜尋引擎問題多多,網民不勝其煩,對更新,更創新的搜尋平台躍躍欲試。下面,就介紹幾個當前搜尋行業的創新點,今天介紹的是遊戲體驗型搜尋引擎。...