對於搜尋引擎
,處理人類的搜尋請求只是其第一步
.另乙個問題是
,既然搜尋引擎是為了解決資訊量巨大
(或無序
)與人類利用資訊的需求之間的矛盾而誕生的
,那麼如何組織與管理這數量巨大
(或無序
)的資訊
?自從計算機與互連網誕生以來
,這個問題尤其顯的突出
.現在人類社會中每天都有大量的資訊產生
,並在各種媒介上流通
,這些資訊都可以有其數字形式
,事實上現在資訊數位化也是乙個趨勢.但是
,即使現在字元流已經可以無障礙儲存在計算機及各種相關裝置上
,你如何查詢到它們
,在你重新利用它們之前
?或許有人會說
,既然字元流已經存入計算機系統了
,那麼查詢還不就是個匹配的問題
?事實上
,不僅僅是乙個匹配操作
,這也是知識的組織與管理的問題
,是搜尋引擎所急需解決的第二個問題.比如
,我們有如下兩篇文字資訊
,儲存在不同的網頁上
:傳統的自然語言處理模式是「語法規則+詞典」,但語言中許多詞語組合不能或很難用語法規則加以描述。把這些組合作為整體收入詞庫中可以使語法得到簡化,從而降低系統的複雜度。基於這種「大詞庫,小語法」的思想,本文論述了建立現代漢語短語資訊庫的必要性,並對建庫的方法、收錄的原則和資訊庫進行了簡要的介紹。[1]
復指短語是由兩個詞或短語重疊在一起指同乙個人或事物作同乙個成分的,彼此有注釋或補充說明的關係。復指短語作主語或賓語時,縮句時一般可保留表示某某人或某某事物的主要詞語;如果復指短語本身很短,也可以將整個兒復指短語保留在主幹中。例如:「小英雄雨來掩護了抗日革命幹部李大叔。」這一句的主語和賓語都是復指短語,其中的主要詞語是「雨來」和「李大叔」,因此,應該縮成「雨來掩護了李大叔」(當然也可縮成「小英雄雨來掩護了李大叔);如果縮成「小英雄掩護了抗日革命幹部」,則主幹的意思遠不如「雨來掩護了李大叔」來得明確。[2]
這兩篇文字都是與短語相關的知識論述
,但區別也是顯而易見的
.前者是一篇學術**的摘要
,介紹了漢語短語資訊庫的建設
,後者是小學語文教學中對復指短語的闡述
.但若是去匹配
,乙個使用者輸入」短語
」,你又該如何操作呢
?如何把這兩者區別開來並恰當的反映給使用者
?如果是人呢
,人會怎麼做
?他會說我們這裡有兩段文字
,分別介紹了短語相關的不同的知識
,乙個是關於短語語料庫建設的問題的
,乙個是關於小學語文教學復指短語的
,尊敬的客戶您需要哪方面的資訊呢
?如果你對你儲存的資訊不能夠整理出乙個結構
,乙個秩序出來
,也就是說
,如果你不能理解你儲存的資訊
,你將無法對它進行有效查詢
.記得另乙個網友曾展示出這樣的願望:」
如果我們能把資源的儲存架構改變得更符合
oo的思想,那我們查詢資訊就可以像是去察看"某個國家裡的某個省市中某條街道的某棟樓裡的某單元某房號裡某人的什麼屬性"一樣簡單。因為資料儲存已經不再零散。在我的腦海裡,儲存架構的
oo化可以是實際資源的儲存位置
oo化或者是資訊索引儲存的
oo化,又或者是儲存架構模板在各節點的對映。
」(原文引用qingbingyu)
我是這樣回答的:」
我覺得這個資源的儲存架構是知識表達的問題.對於海量資訊如何儲存與管理(計算),關聯式資料庫,以及現在的超文字連線顯然都是不夠的.
oo是不是就夠?
oo本身提供了繼承與組合兩種基本關係,但這些關係在語義上是無法進一步計算的.所以
oo目前可能對這個還沒辦法有所作為.這是一點個人看法.下一代網際網路
semantic web
就是從語義關係構建的角度對現在的網路進行改造,只是這個還處於實驗室中.有興趣可以查一查這方面的資料.順便說一下,語義網在某種程度上可以改善資訊無序的結構,解決現在搜尋引擎的問題;但它並不能解決
nlu&nlp
的問題,解決不了
ai的問題.
」既然說到知識的組織與管理
,就有必要做進一步的解釋
.做自然語言處理的
,常常會提到語料庫(而且
,語料庫經常是和統計語言學
,和經驗主義方**相關聯的
),做搜尋引擎
,也常常會提到索引庫
(事實上索引庫也不妨看作乙個熟語料庫
,經過加工後而方便檢索計算的語料庫
);我覺得
,這些都是對語言知識的組織與管理
,其核心都是知識的抽取與表達上
.雖然資料的組織與管理工具不同
,可能依據關聯式資料庫建立的
,也可能儲存為
xml格式
,或者其它什麼形式
,但本質都是一樣的
.上面說語料庫是和統計學派以及經驗主義相關聯的乙個概念
,但事實上理性主義不僅有自己的規則庫
,其研究也常常是依託各種語料庫開展的
.所以從根本上講
,知識的組織與管理是自然語言處理的根本問題
.作為自然語言處理的乙個應用方向
,搜尋也面臨著這一根本問題
.搜尋的未來
,第二個表現應該是在內部能夠有效的組織與管理各種知識
,以適應人類的搜尋請求
,給出真正意義上的合適的資訊
(不多不少及時而準確
).[1]
選自《面向自然語言處理的現代漢語短語資訊庫》*
孫巨集林段慧明
[2]
選自《復指短語作主語、賓語的句子如何縮句
》小學語文網
搜尋的未來 1
一直以來 想寫這篇文章 談談搜尋引擎的發展 做一下展望 當然 並不僅僅是因為現在搜尋引擎火熱 畢竟一年多沒有正經寫過文章了 自從進入 nlp行業工作以來 便明白自己懂的太少 應該多學多做 但這兩個月裡新接觸的專案就是搜尋引擎 做了一年多的短語處理研究 現在開始接觸應用 加班之餘心裡便也有了些想法 文...
搜尋的未來 4
搜尋意圖的表達 知識的處理 組織管理與計算 無處不在和無所不含,本質上講 這四點的核心根源 也在於引言中所闡述的資訊膨脹與資訊有效利用的矛盾 因為這一矛盾的深化 所以搜尋對我們來講才顯得更為緊迫 在筆者開始動筆之前查閱相關話題的時候 發現大家在談搜尋的未來的時候,並認為這是未來搜尋的核心特徵 桌面搜...
談垂直搜尋的未來
垂直搜尋應該是在年初web2.0的同時提出的概念,當時比較典型的就是qihoo,daqi的論壇搜尋。之後就是房產搜尋,招聘搜尋以及餐飲搜尋,現在已經有越來越多的行業推出了垂直搜尋服務,從眾 congzong.com 就是其中之一。隨著網際網路幾年來的發展從最開始的門戶類大而全的資訊提供到使用者提供資...