搜尋之路在何方

2021-04-13 05:03:31 字數 1338 閱讀 1176

在搜尋技術的理論研究領域,搜尋模型已經經歷了四個階段:1,詞頻模型(if, idf);2,向量模型;3,概率模型;4,語言模型。到目前為止,我們使用的搜尋引擎都是詞頻模型,而向量模型才剛剛起步(據說google開發了乙個向量模型的搜尋引擎,但是還在開發階段)。撇開為什麼工業界那麼「不思進取」不談,我們來看看搜尋之路會怎麼走。

問乙個上過網的人:「你覺得什麼是最好的搜尋引擎?」回答肯定是所謂的問答系統。在這種情況下,使用者把搜尋引擎當成了乙個活生生的人,它可以理解我們在說什麼,在問什麼。毫無疑問,這就是搜尋的終極目標。但是實現它的難度確是impossible,至少在很多年之內。這涉及到另外一門學科:nlp或nlu,自然語言處理,自然語言理解。這門學科還很不成熟,在機器模仿理解(不可能是真正的理解,但可以模仿)上,還僅僅處在研究階段。比這個問題簡單的機器翻譯,其產品也還遠遠不能滿足人的需要。所以想指望在不久的將來能用上真正好用的問答系統搜尋引擎,那是沒可能了。

不過最近的語言模型把搜尋靠向了nlp領域。所謂語言模型就是對語言建立乙個數學模型,通過這個模型來表示語言。那麼怎麼建立語言的模型呢?語言是有規則可言的,語言的語法是最直觀的規則性。再有就是語境,通過閱讀乙個句子的前半部分,後面的詞可以大致猜出是什麼,至少是什麼範圍內的,這也是規則性。有個這些規則性,就可以建立模型。在數學上,這個模型其實就是乙個條件概率分布:在某某詞出現的情況下,下乙個詞出現的概率是多少。nlp的根基就是這樣的模型,一般是三元模型,也就是說,其「條件」是前兩個詞,估計後面乙個詞,共三個。你也許覺得這樣的模型太簡陋了,但是語言是相當複雜的,使用更複雜的模型很容易會導致模型本身在語言的不同層面自相矛盾。人類對於自己的語言還遠遠沒有足夠的了解,在理解人類語言為什麼會這樣子的方面,走在前面的是喬姆斯基。

不過,模型是如此簡單,其效能也不可能達到像人一樣的水平。現在關於語言的知識還很少,並不能幫助我們提高模型的能力,統計方法正是此領域的主流。統計方法的壞處是它把所有的個人語言平均了,而人和人之間對於語言的理解和使用是不一樣的,從實用的角度講,這是乙個影響系統效能的非常大的因素。幸好語言模型的靈活性可以使得我們在一定程度上彌補這個缺陷。可惜的是這方面的工作至今都還沒有人去做,原因很簡單:無法驗證。自語言模型提出以後,研究的內容都在如何提高模型的精度。但是這些工作都是在乙個稱作trec或類似的實驗資料上開展的,這些實驗資料本質上就是一段短文和它的摘要。毫無疑問,這樣的實驗資料是在語言上平均的,而且它必須如此。這些資料很難說提供了真正有用,有意義的經驗。舉個例子,假如說可以讓很多人對於同乙個搜尋需求寫出查詢語句,然後在語言上對這些語句求平均(這個操作只是假想的),那麼會得到什麼呢?這些人真正想要的文件的語言上的平均!而且這個結果應該是高質量的。可惜的是,真正有意義的個人被忽略了。要想針對個人就需要這個人的實驗資料,顯然這個資料很難得到。再者就是,針對個人的模型精度越高,那麼用在其他人身上的效果就越差。這是過度擬合的結果。

網管之路在何方

群中經常有問,做網管到底好不好?有沒有前途?還經常聽到有說要轉行,做網管太累,而工資又低。真是非常遺憾,也非常惋惜。因為說這話的大多數都是僅在小型企業,或者網咖幹了兩年左右,根本沒經過系統地學習,又不肯在學習上投入。自己的技術實力沒上去,就要求高工資,我想沒哪個行業,也沒哪個公司可以。一般來說,公司...

網管之路在何方

群中經常有問,做網管到底好不好?有沒有前途?還經常聽到有說要轉行,做網管太累,而工資又低。真是非常遺憾,也非常惋惜。因為說這話的大多數都是僅在小型企業,或者網咖幹了兩年左右,根本沒經過系統地學習,又不肯在學習上投入。自己的技術實力沒上去,就要求高工資,我想沒哪個行業,也沒哪個公司可以。一般來說,公司...

網管之路在何方

群中經常有問,做網管到底好不好?有沒有前途?還經常聽到有說要轉行,做網管太累,而工資又低。真是非常遺憾,也非常惋惜。因為說這話的大多數都是僅在小型企業,或者網咖幹了兩年左右,根本沒經過系統地學習,又不肯在學習上投入。自己的技術實力沒上去,就要求高工資,我想沒哪個行業,也沒哪個公司可以。一般來說,公司...