一直以來
,想寫這篇文章
,談談搜尋引擎的發展
,做一下展望;當然
,並不僅僅是因為現在搜尋引擎火熱
,畢竟一年多沒有正經寫過文章了
,自從進入
nlp行業工作以來
,便明白自己懂的太少
,應該多學多做
,但這兩個月裡新接觸的專案就是搜尋引擎
,做了一年多的短語處理研究
,現在開始接觸應用
,加班之餘心裡便也有了些想法
.文章不寫
,但舊習尚在
,初步的醞釀一下
,然後去
和baidu一搜,
才發現"
搜尋的未來
"竟然是為各家所熱談(過
)的
.於是便讀
,便又覺著與我所想的不太一樣
.然後還是提起筆
,寫寫自己的想法吧
.雖說關乎"未來
",無人可以事先確認的
,但本著交流的目的
,也別有一番樂趣
.搜尋引擎似乎是個新事物
,但搜尋的確是個老課題.搜尋
,即找到你需要的資訊
,這是人類蒙昧時代就開始面臨的挑戰
.如果資訊量較少
,或者資訊的結構秩序良好
,則自然搜尋起來也比較容易
;但一旦資訊量突破到一定程度
,而且資訊的內在結構不甚明朗的時候
,搜尋就成為了乙個甚為複雜的問題
,例如現在的互連網資訊
,或者規模巨大的未經加工的文字語料庫
,在這上面搜尋你所想要的資訊便是如此
.我覺得這是搜尋引擎所最核心的本質
,即在資訊量巨大
,或者資訊結構無序的情況下
,找到合適資訊的過程
,或服務
.搜尋引擎是在這個意義是誕生的
,沒有它
,人類利用資訊的能力將大大受限
;一邊是無限增長的資訊量
,一邊是人類渴望利用資訊的需求
:這個矛盾
,決定著搜尋的未來
.人類渴望利用資訊的需求
,最終將以某種形式表達出來
,這也就是搜尋的第一步
,搜尋意圖的表達問題
.乙個搜尋引擎的介面
,所展現的也是它對這個問題的回答
:它所能接受的搜尋意圖的表達方式
.這也是我們對於搜尋引擎的第一印象.比如
和baidu,
我們進去,,
然後以此反饋給我們一些資訊
.這是目前搜尋引擎最基本的方式,.
記得乙個網友討論搜尋引擎的未來
,曾提到
」簡單的智慧型搜尋
」,也就是分詞與後續處理
,他舉了這樣乙個例子
:柯林頓是誰
這樣乙個輸入串
,搜尋引擎將能夠把它分解為
」柯林頓
」,」是
」,」誰
」三部分
,並把後兩者過濾掉
,柯林頓的內容
.這是乙個比較有意思的問題
.我們說
,搜尋的本質就是在資訊量巨大或無序的情況下
,給人找到合適的資訊
;這與人相關的第乙個介面
,也就是搜尋引擎如何理解人類的搜尋意圖
,或者說人類如何把搜尋請求傳達給搜尋引擎
.若是由語言文本來表達搜尋需求
,因為中文書面表達的自身特點
,分詞的確是處理的第一步
[1].
比如對於上面的輸入串
, 人一般能在瞬間把這個串處理為三個部分「
柯林頓是誰」,
根據有關知識而知道柯林頓是個人名
,具體說是美國前**
,政績不錯
,但也鬧鬧菲聞
.不過對於計算機而言
,恰當的識別出「柯林頓」是個人名並不是件簡單的事情
,知道後面這些資訊更不容易
.隨手舉個例子
,「張柯林頓時傻了眼」這個串中
,「柯林頓」先生再也不存在了
.分詞問題有很多
,我們暫時不深談這個
,回到搜尋上來
.仍說上面的例子
,當使用者輸入「柯林頓是誰」作為搜尋意圖時
,他的意思很明白
,「知道柯林頓是個人
,但不知道他的具體來歷」
,換句話
,此時這個串在語義上基本等價於「柯林頓的簡歷」這個串
,事實上僅從搜尋意圖上講
,這個使用者並不關心柯林頓交女朋友的花邊新聞這些話題.所以
,「柯林頓」
,「是」
,「誰」三個部分各有側重而又是乙個統一的整體
,對於使用者來講表達他的搜尋意圖是非常合適的
.但現在的搜尋引擎,.
那三個部分
,本是各有關係、各有側重的整體
,但搜尋引擎給使用者提供的介面是
,它理解(處理)不了這種關係與側重
,它比較善於處理一些實體詞
,關鍵字.所以
,使用者的「柯林頓是誰」並不是乙個很好的搜尋要求
,需要搜尋引擎「智慧型」的過濾掉「是誰」這樣的子串
,然後再進行檢索.所以
,由這個角度來談
,搜尋引擎還處於它的幼年時期
.在理解人類的搜尋意圖的時候
,它只能」理解
」部分的詞語片段
,而不是有意義的語言整體
.開始在查閱
」搜尋的未來
」相關資料的時候
,曾看到很多類似的宣言
:yahoo
是第一代搜尋引擎
是第二代搜尋引擎
,而自己是第三代搜尋引擎云云
.心中不由一樂
,我並不關心這個代數或輩分
,因為大家分明還都是排隊隊分果果的幼兒時期
.搜尋的未來
,第乙個表現應該是在介面上向人靠攏
,逐步趨於無障礙理解人類的搜尋請求
,解決現在意圖表達上的缺陷
.[1]
hnc認為是組字成詞(組概念成塊)
,分詞是瓶底而非瓶頸
;事實上分詞仍是處理的第一步
,只不過在後續處理中可由語法語義資訊對最初分詞結果調整
.
搜尋的未來 2
對於搜尋引擎 處理人類的搜尋請求只是其第一步 另乙個問題是 既然搜尋引擎是為了解決資訊量巨大 或無序 與人類利用資訊的需求之間的矛盾而誕生的 那麼如何組織與管理這數量巨大 或無序 的資訊 自從計算機與互連網誕生以來 這個問題尤其顯的突出 現在人類社會中每天都有大量的資訊產生 並在各種媒介上流通 這些...
搜尋的未來 4
搜尋意圖的表達 知識的處理 組織管理與計算 無處不在和無所不含,本質上講 這四點的核心根源 也在於引言中所闡述的資訊膨脹與資訊有效利用的矛盾 因為這一矛盾的深化 所以搜尋對我們來講才顯得更為緊迫 在筆者開始動筆之前查閱相關話題的時候 發現大家在談搜尋的未來的時候,並認為這是未來搜尋的核心特徵 桌面搜...
談垂直搜尋的未來
垂直搜尋應該是在年初web2.0的同時提出的概念,當時比較典型的就是qihoo,daqi的論壇搜尋。之後就是房產搜尋,招聘搜尋以及餐飲搜尋,現在已經有越來越多的行業推出了垂直搜尋服務,從眾 congzong.com 就是其中之一。隨著網際網路幾年來的發展從最開始的門戶類大而全的資訊提供到使用者提供資...