搜尋引擎是伴隨著網際網路的發展而不斷發展的,由於網際網路已經成為人們學習工作和生活中不可缺少的平台,幾乎每乙個上網的人都會使用搜尋引擎,圍繞搜尋已經形成乙個重要的產業鏈,有些**甚至造出了「搜尋經濟」這個詞。
既然搜尋這樣魅力無窮,人們除了關心目前的搜尋的現狀外,更加關心下一代搜尋引擎是什麼樣的,也就是想知道搜尋引擎的發展趨勢。要回答這個問題,我們從搜尋引擎所緊密關聯的兩個物件入手來分析。搜尋引擎實際上就是在使用者(搜尋引擎的使用者)和網際網路資源(搜尋引擎的搜尋物件)這兩者之間建立起乙個聯絡,將使用者真正想要的內容呈現給使用者,同時使用者不想要的內容不呈現給使用者。我們稱這一要求為「所得即所需」(what you get is what you want)。因此,本文從搜尋引擎的使用者體驗和網際網路資源的組織和獲取這兩個角度來分析一下搜尋引擎技術的未來發展之路,並簡要回答一些疑問。
第一、從網際網路資源組織的角度來看搜尋引擎技術的發展趨勢。
第一代搜尋引擎的特徵是目錄搜尋,代表產品當然就是yahoo了。這個時期的技術思路,不可避免地受傳統的圖書情報管理方法的影響。我們知道,傳統的圖書館面對大量的文獻資源,採用的辦法是首先建立一套圖書文獻分類標準,然後將文獻按照分類標準手工或者計算機輔助地進行分類,這樣使用者就可以按照這個分類進行文獻的檢索了。第一代的搜尋引擎也是採用類似的方法來建立網路文獻的資料模型的,不過需要指出的是,yahoo所採用的分類體系,比起傳統文獻分類體系來說,要簡單的多和不規範的多。從這種意義上講,yahoo的技術創新不大。第一代搜尋引擎的弊端和傳統圖書館文獻管理方法的弊端也是一樣的。首先,這個分類體系是由文獻的管理者人為的給出來的,使用者並不一定清楚,或者說普通使用者並不一定理解,這樣就有可能找不到想要的資訊。其次,手工分類的成本太大、效率太低,不能適應快速增長的網上資訊資源管理的需要。
第二代搜尋引擎在看到了第一代搜尋引擎的弊端後,創新性地提出了頁面重要性分析技術 pageranking技術和超鏈分析技術等,將最重要的頁面優先呈現給使用者。代表產品就是google。與yahoo不同的是,google並不對文獻進行分類,而是從文獻中識別出「關鍵字」來,然後建立倒排索引。也就是說文獻是用一組關鍵字列表來表示的,這就是網路資源的資料模型。這一模型的好處就是計算機可以自動地完成,無需人工干預,這使得大規模的搜尋成為可能。根據使用者提交的查詢關鍵字,然後對出現這些關鍵字的頁面按照確定的方法對其進行排序,並按照得分的高低順序呈現給使用者。這種方法的最大好處是使用者不需要額外的負擔,只需要敲入適當的關鍵字就可以了。使用者獲得了前所未有的資訊體驗。 google也因此獲得了蓬勃的發展。
然而,在這裡「關鍵字」僅僅是出現在網頁中的符號而已,它所指代的語義並沒有被使用。頁面分析所依據的也是存在於頁面之間的鏈結關係,它不能表示這些頁面本身包含什麼資訊。這就決定了搜尋引擎還不能還好地處理頁面資訊的語義,因此,目前搜尋引擎出現了一系列的困難。根據中國網際網路網路資訊中心(cnnic)的報告稱,使用者認為在網際網路上查詢資訊時遇到的最大問題是重複資訊太多(44.6%)、資訊太陳舊更新緩慢(27.5%)、得到的有用資訊太少(10.7%)、資訊查詢不方便(10.2%)。這些問題中的第一項和第三項的主要根源都是搜尋引擎不能理解存在於網頁中的資訊的語義。為了解決這些問題,搜尋引擎必須能夠表達和處理語義資訊。所以,我們相信,下一代搜尋引擎的資料模型必須是語義資料模型。
我們認為語義網(semantic web)是這種語義模型的最好的選擇。語義網採用xml+rdf+ontology三個層次描述資訊資源,構成了計算機理解內容的基礎。關於語義網我們已經在2023年第4期本刊中給出了介紹,這裡就不詳細介紹了。
圍繞著建立語義網,將會發展一系列的技術,將是下一代搜尋引擎所必須的。比如,自動標註技術,資訊抽取技術等等。因此,從這種意義上講,下一代搜尋引擎將是智慧型化的。
第二、從使用者資訊體驗的角度來看搜尋引擎技術的發展趨勢。
使用者對網路的資訊體驗是從分類檢索體驗開始的,第一代搜尋引擎呈現給使用者的是「千人一面」的分類體系和網頁內容。人們在經過了初始短暫的興奮後,很快就對這樣的資訊訪問方式不滿意了。第二代的搜尋引擎是以關鍵字作為表達查詢的主要手段的,以按相關度大小排列的文獻列表為展示方式。為了克服千人一面的不足,人們還引進了一些個性化的技術,包括對查詢輸入的修正,查詢結果的聚類等。但是,到目前為止,查詢輸入的主要方式還是關鍵字,查詢輸出的主要也還是文字列表。筆者以為如何為使用者的學習和工作營造乙個個性化的資訊空間,是未來搜尋引擎應該追求的方向,這裡包括如何表達資訊需求,如何展示/瀏覽搜尋結構,如何對個性化的資訊需求建立模型等等。從這種意義上講,下一代搜尋引擎將是個性化的。
第三、從網際網路資源獲取與更新策略的角度來看搜尋引擎技術的發展趨勢。
網際網路搜尋首先需要的是及時地獲得新的資訊,這裡涉及資源抓取和更新策略問題。這方面筆者沒有深入研究,難以進行推測。一種觀點認為,第一代搜尋引擎是集中式的,第二代是分布協同式的,而第三代將是「社會性」的,比如p2p這樣的模式。
綜上所述,下一代搜尋引擎的發展趨勢將是智慧型化的、個性化的。
根據上述分析,我們來看一看目前關於搜尋工具的一些觀點,回答一些疑問。有一種觀點認為「垂直搜尋」或者叫做「專業搜尋」是未來搜尋引擎的發展趨勢。這是相對於那些什麼都做的通用搜尋引擎而言的。對於通用搜尋引擎,無論是資訊採集、還是資訊的更新都是巨大的挑戰,將搜尋引擎限定在某個領域,有利於做深做精。因此,從經營模式上,有其價值,就象圖書館也有專業的圖書館一樣。但是,從技術上講,並沒有多大的新意。
有一種觀點認為,下一代搜尋引擎應能處理深層網頁(deep web)。所謂深層搜尋是指搜尋那些放在資料庫中的資訊。目前的搜尋引擎主要處理普通的網頁(稱為淺層網頁),對於深層網頁的資訊難以搜尋,而據說這樣的資訊是普通網頁的500倍。顯然,如何能夠將搜尋引擎的觸角深入到資料庫裡去,是下一代搜尋引擎所關心的。但是,這裡的技術關鍵是如何獲得資料庫中的全部資訊,這個技術是資訊獲取中的一部分,並不能代表下一代搜尋引擎的本質。
還有一種觀點認為,下一代搜尋引擎必須是跨**的,也就是說使用者通過統一的介面和單一的提問,就能夠獲得以各種**形式存在的語義相似的結果。無疑,這是我們所提到的良好的個性化資訊體驗中所需要的功能。但是,這一功能的獲得,也需要分解成對資料物件的語義標註和個性化的資訊展示這兩個方面。因此,可以說是包括在我們上面的分析框架中的。
談360搜尋的第三代搜尋引擎技術
前兩天在360導航上看到360搜尋推出的乙個宣傳 主要介紹了搜尋技術在國內的發展歷程,以及宣傳了360即將推出的我的搜尋功能。所謂的第三代搜尋引擎技術概念在國內很早就被提出,可事實上,一直到現在都很乏力。自從谷歌退出中國後,國內搜尋引擎市場份額一直是一家獨大。其它如搜搜,搜狗等雖然也曾藉機發力,但終...
個性化搜尋引擎調研(一)
一 為什麼要做個性化搜尋引擎?每天網上爆發的資訊量已經超過了我們能接受的範圍,只有因人而異的個性化搜尋才能幫助使用者找到所需資訊。傳統資訊檢索具有通用性,檢索系統不可能滿足不同背景 不同目的和不同時期的查詢請求,乙個關鍵字查詢詞對所有使用者呈現的搜尋結果均相同。google的美女副總裁marissa...
搜尋引擎的三個時代及第三代搜尋引擎的商業前景
搜尋引擎的三個時代及第三代搜尋引擎的商業前景 搜尋 求索 探索 beta 劍神梁飈 梁紅兵,劍神經營策劃坊 2008 9 1 內容提要 搜尋引擎自誕生至今經歷了三個時代,分別是搜尋 求索 探索 搜尋引擎的應用在不同的時代有不同的運營模式,第三代搜尋引擎有很廣闊的商業前景。綱目一 第一代搜尋引擎 搜尋...