為什麼連續兩年全球資本均看好搜尋引擎公司——家為全球最大的搜尋引擎公司,一家為全球最大的中文搜尋引擎公司?
為什麼搜尋引擎具有如此大的「殺傷力」,會成為繼網際網路第一波的門戶**,以及第二波的網路遊戲、簡訊、電子郵件之後,成為網際網路第三波的新主?
本報將通過系列報道與分析全面闡述搜尋引擎的技術、應用,搜尋引擎公司的商業模式和競爭策略。
搜尋引擎應資訊時代而生
王益明
搜尋是如此簡單。
但是,搜尋引擎的背後——支撐這一「簡單」的背後,是非常複雜的搜尋技術。
眾所周知,我們生活在資訊大**時代,每天的資訊量太大了,足以將所有人湮沒。在如此龐雜的新鮮資訊與存量資訊面前,人們如何找到斯時有用或急需的資訊,那,請搜尋吧。搜尋引擎如此應運而生。
那麼,什麼是搜尋引擎?曾有人形象地比喻說:「搜尋引擎就像乙個巨大的吸塵器,能將網際網路海洋的任何東西都吸上來,不管它在多深的海底。」這句解釋儘管並不準確,但比較形象,我們來看看真實的搜尋引擎工作是怎樣乙個流程吧。
蜘蛛程式
搜尋引擎「抓取」網頁的工具,人們叫它蜘蛛程式(spiderpro-gram),它沿著網頁的鏈結,從乙個網頁爬到另乙個網頁,並有選擇地將乙個個網頁抓取回來。
從理論上來說,從乙個頁面出發,根據該頁面的鏈結資訊,這個蜘蛛可以訪遍網際網路上所有的網頁——就好像你認識乙個人,你可以根據這個人認識的人,和這個人認識的人所認識的人,一直和這個世界上所有的人建立某種關係。「蜘蛛程式」的工作原理也是這樣的。
不同的搜尋引擎,它們所擁有的「蜘蛛程式」不一樣,蜘蛛的能力大小也不一樣。比如,每天能抓到網頁的數量是乙個指標,避免抓重複網頁的能力是乙個指標,如何抓到最新網頁的能力也是乙個指標。因此,「蜘蛛」能力的大小,首先就會導致不同搜尋引擎之間的差異。
建立索引和排序
蜘蛛程式固然重要,但這還不是各搜尋引擎的核心差異,其核心差異還是在於搜尋引擎對抓取回來的頁面所進行索引和設定排序規則。
抓回來的頁面源程式放在搜尋引擎龐大的伺服器群中,就好像是成千上萬本書散落在乙個巨大的圖書館中,如果不對這些書進行索引和排序,要找到一本書就跟大海撈針的難度是一樣的。索引就是要對每個頁面中的每個字詞都進行分析、整理和提煉,將每個頁面分門別類地放在各個索引庫中。
顯然,如果依靠人工肯定不能對每個頁面的字詞都進行詳細的分析,這個過程也是通過程式來完成的。這中間分詞技術就很關鍵,比如,分詞技術直接影響到搜尋引擎會不會根據「任務」這樣乙個詞,來建立包含「李主任務必來開會」字樣的網頁索引(早期的搜尋引擎,包括google在內,就曾經出現過鍵入「任務」一詞,搜出包含「李主任務必來開會」網頁的事情)。
索引之後就是排序,即確定使用者向搜尋引擎提交了乙個搜尋請求後,
搜尋引擎應該向使用者返回搜尋結果的秩序。顯然,使用者最想要的資訊應該排在搜尋結果的最前列,但究竟什麼樣的資訊是使用者最想要的資訊?這個問題就仁者見仁,智者見智了。
反作弊
將網際網路有用的網頁抓取回來,並根據排序規則建立了網頁索引,使用者在使用搜尋引擎進行檢索時,就可以以極快的速度找到相關性高的網頁了。然而道高一尺,魔高一丈,如果單純依靠靜態的蜘蛛程式抓取規則和排序規則,一些惡意的**就可以利用這些規則,來進行所謂的**優化。《南方周末》曾經在《搜尋引擎與作弊**的戰爭》一文中詳細介紹了這方面的情況。
從上面的介紹可以看出,搜尋引擎絕不是僅僅執行簡單的「吸塵器」功能,它首先需要功能強大的「蜘蛛」來協助其收集網際網路規模日增、每天變化的各種網頁資訊,同時需要極大的投入,購買伺服器來將這些資訊儲存起來。接著,搜尋引擎要對所有收集來的網頁建立索引和排序,並時刻警惕外界的各種作弊行為。
技術層面上了解了搜尋引擎之後,人們才能更清楚地進一步了解搜尋引擎如何盈利、為什麼市場對搜尋引擎公司如此青睞。
抓取索引(分詞)
排序反作弊
全面闡述搜尋引擎技術 應用及商業模式
為什麼連續兩年全球資本均看好搜尋引擎公司 家為全球最大的搜尋引擎公司,一家為全球最大的中文搜尋引擎公司?為什麼搜尋引擎具有如此大的 殺傷力 會成為繼網際網路第一波的門戶 以及第二波的網路遊戲 簡訊 電子郵件之後,成為網際網路第三波的新主?本報將通過系列報道與分析全面闡述搜尋引擎的技術 應用,搜尋引擎...
搜尋引擎技術及趨勢
隨著網際網路的迅猛發展 web資訊的增加,使用者要在資訊海洋裡查詢資訊,就象大海撈針一樣,搜尋引擎技術恰好解決了這一難題 它可以為使用者提供資訊檢索服務 目前,搜尋引擎技術正成為計算機工業界和學術界爭相研究 開發的物件。搜尋引擎 search engine 是隨著web資訊的迅速增加,從1995年開...
全面解讀垂直搜尋引擎
1 垂直搜尋引擎不是什麼?垂直搜尋不只是類google的行業通用搜尋。以房產行業為例,假如我們按照google抓取網頁的方法,來建造乙個房產行業google的做法,是行不通的。技巧壁壘不用說明,就算我們借助nutch,lucene等搜尋技巧來做,我們也無法供給差別化的服務,而沒有差別化的產品在網際網...