搜尋引擎技術發展簡析
未來搜尋引擎技術將如何發展?隨著人工智慧技術的進一步成熟和資訊服務的多樣化,搜尋引擎向著智慧型化、個性化方向發展。
隨著「眼球經濟」席捲網際網路,成千上萬的資金迅速流向最能吸引眼球的搜尋引擎市場。有大量調查顯示搜尋引擎市場正處在高速發展時期,成為未來幾年最具發展潛力的產業之一。
當你登入某乙個**,在網際網路上搜尋某一類內容,希望得到最新、最全面的資訊,你需要等待多長時間?
幾年前,人們希望十幾秒,最多30秒鐘就能得到結果,而現在的期望值是1~2秒,也就是說,伴隨滑鼠的「咔噠」一聲,顯示屏的頁面已經變,排在最前面的十幾、二十條資訊的標題已經出現在你的面前。
目前,搜尋引擎技術成為僅次於門戶的網際網路第二大核心技術,要用到資訊檢索、人工智慧、計算機網路、分布式處理、資料庫、資料探勘、數字圖書館、自然語言處理等多領域的理論和技術,所以具有綜合性和挑戰性。伴隨網際網路的普及和網上資訊的**式增長,它越來越引起人們的重視。
檢索結果深加工
使用者在使用搜尋引擎進行資訊搜尋時,有時並不十分關注返回結果的多少,而是看檢索結果是符合自己的需求。對於一次普通查詢,傳統的搜尋引擎動輒幾十萬、幾百萬篇文件,這樣的搜尋結果是沒有多大意義的。
解決檢索結果過多過雜的問題,目前有多種方法。一是通過各種方法獲得使用者沒有在檢索式表達出來的真正目的,包括智慧型**跟蹤使用者檢索行為,分析使用者操作模型,使用相關反饋機制,確定文件和使用者需求的相關性,提高檢索的精度。二是用文字分類技術,將結果分類,使用視覺化技術顯示分類結構,使用者只瀏覽自己感興趣的類別。三是進行站點聚類或內容聚類,減少資訊的總量,從而有利於從大量返回結果中找到使用者所需要的資訊。
提供個性化服務
搜尋引擎的智慧型化方向發展是毫無疑問的。智慧型搜尋引擎(**art hunter) 是根據目前搜尋引擎的發展趨勢,除提供傳統的全網快速檢索、相關度排序等功能外,還提供使用者角色登記、使用者興趣自動識別、內容的語義理解、智慧型化資訊過濾和推送等功能,為使用者提供乙個真正個性化、智慧型化的網路資訊蒐集工具(見圖示)。
智慧型搜尋引擎利用神經網路、決策樹、關聯規則、範例推理、模糊聚類、粗糙集、隱馬爾科夫模型等技術實現分布式並行檢索,以資料探勘與知識發現為主要手段,加上自然語言理解技術,對檢索結果進行進一步的分析,濾掉與使用者需求不相關或弱相關的資訊,從而提高系統效能和檢索的精度與效果。
1.自然語言檢索
智慧型搜尋引擎基於自然語言的檢索形式,是建立在大規模的知識庫基礎上,用乙個強有力的推理機,根據使用者所提供的以自然語言表達的檢索要求進行分析,然後形成檢索策略進行搜尋。使用者只需把自己的要求輸入計算機,就可以得到檢索結果,使使用者可以從繁瑣的檢索規則中解脫出來。
自然語言查詢從使用者介面上分為兩種:
一種是輸入自然語言的句子,把它切分並抽出多對組詞,構成乙個有限狀態機,然後去資料庫進行匹配,對每一次檢索出的記錄進行頻率累加,經過幾次檢索後,按照命中頻率進行排序,把最終的檢索結果返回給使用者。這只是對查詢請求進行了自然語言分析。
另外一種是對目標文件也進行自然語言分析,這不僅涉及到分詞技術、詞法分析、語法分析、語義分析,還涉及到篇章結構的分析,就是要理解文章的意思,技術難度較大,目前還基本沒有成功的模型。
2.移動**技術。
移動**(mobile agent)技術是一種新型分布式計算技術,是指在網路上具有移動能力的、能夠自主執行的、按照使用者的要求完成指定任務的程式。
移動**技術是新一代分布式計算技術,移動**與傳統分布式計算技術完全不同。在移動**模式下,客戶機向伺服器提交的不再是一些簡單的請求,而是包含**和資料的移動物件。移動物件代表使用者,按照「程式靠近資料」的原則,在伺服器間自主的移動,完成資料處理的任務。
基於移動**的模式之上的應用程式可以大大節省網路頻寬,有效克服網路延時帶來的種種問題,可以智慧型化地自主非同步執行。它克服了搜尋引擎傳統的「資料靠近程式」的執行模式,大大降低了網路的資料流量,節省了網路資源。
3.並行檢索。
並行資訊檢索是由多個可同時工作的處理部件或處理器構成的計算機系統進行資訊檢索。資訊檢索系統可以利用的並行策略有任務並行、資料並行和它們的混合方式。並行資訊檢索把資訊搜尋過程建立在神經網路之上。
如果不用神經網路,那就主要利用現有的資訊檢索演算法對資料和計算進行分割。
資料分割有邏輯文件分割與物理文件分割兩種形式。邏輯文件分割需要對倒排檔案進行擴充套件,讓每個並行程序能夠直接訪問一部分索引,這些索引對應於處理器所要處理的那部分文件子集;物理文件分割把文件分割為離散的、自包含的文件子集,每個子集對應乙個並行處理器,每個子集有自己的倒排檔檔案。
4.分布式檢索。
搜尋引擎發展綜述
搜尋引擎發展綜述 李銳 lirui nic.ac.中科院計算技術研究所 北京 100080 inter 自誕生以來不斷成長,其內容不斷豐富,整個網路逐漸堆積成乙個前所未有的超大型資訊庫。inter 作為乙個資訊平台在人們的日常生活和工作中發揮著越來越重要的作用,人們越來越多地通過inter 獲取資訊...
搜尋引擎檢索技術
謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...
搜尋引擎檢索技術
如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...