搜尋引擎分類與工作原理
整理:ackarlix
搜尋引擎分類
搜尋引擎按其工作方式主要可分為三種,分別是全文搜尋引擎(full text search engine)、目錄索引類搜尋引擎(search indexdirectory)和元搜尋引擎(meta search engine)。
■全文搜尋引擎
■目錄索引
■元搜尋引擎 (meta search engine)
元搜尋引擎在接受使用者查詢請求時,同時在其他多個引擎上進行搜尋,並將結果返回給使用者。著名的元搜尋引擎有infospace、dogpile、vivisimo等(元搜尋引擎列表),中文元搜尋引擎中具代表性的有搜星搜尋引擎。在搜尋結果排列方面,有的直接按**引擎排列搜尋結果,如dogpile,有的則按自定的規則將結果重新排列組合,如vivisimo
除上述三大類引擎外,還有以下幾種非主流形式:
1、集合式搜尋引擎:如hotbot在2023年底推出的引擎。該引擎類似meta搜尋引擎,但區別在於不是同時呼叫多個引擎進行搜尋,而是由使用者從提供的4個引擎當中選擇,因此叫它「集合式」搜尋引擎更確切些。
2、門戶搜尋引擎:如aol search、msn search等雖然提供搜尋服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜尋結果完全來自其他引擎。
3、免費鏈結列表(free for all links,簡稱ffa):這類**一般只簡單地滾動排列鏈結條目,少部分有簡單的分類目錄,不過規模比起yahoo等目錄索引來要小得多。
由於上述**都為使用者提供搜尋查詢服務,為方便起見,我們通常將其統稱為搜尋引擎。
搜尋引擎是怎麼工作的
現在的搜尋引擎已普遍使用超鏈分析技術,除了分析索引網頁本身的內容,還分析索引所有指向該網頁的鏈結的url、anchortext、甚至鏈結周圍的文字。所以,有時候,即使某個網頁a中並沒有某個詞比如「惡魔撒旦」,但如果有別的網頁b用鏈結「惡魔撒旦」指向這個網頁a,那麼使用者搜尋「惡魔撒旦」時也能找到網頁a。而且,如果有越多網頁(c、d、e、f……)用名為「惡魔撒旦」的鏈結指向這個網頁a,或者給出這個鏈結的源網頁(b、c、d、e、f……)越優秀,那麼網頁a在使用者搜尋「惡魔撒旦」時也會被認為更相關,排序也會越靠前。
搜尋引擎的原理,可以看做三步:從網際網路上抓取網頁→建立索引資料庫→在索引資料庫中搜尋排序
從網際網路上抓取網頁
利用能夠從網際網路上自動收集網頁的spider系統程式,自動訪問網際網路,並沿著任何網頁中的所有url爬到其它網頁,重複這過程,並把爬過的所有網頁收集回來。
建立索引資料庫
在索引資料庫中搜尋排序
最後,由頁面生成系統將搜尋結果的鏈結位址和頁面內容摘要等內容組織起來返回給使用者。
搜尋引擎的spider一般要定期重新訪問所有網頁(各搜尋引擎的週期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引資料庫,以反映出網頁內容的更新情況,增加新的網頁資訊,去除死鏈結,並根據網頁內容和鏈結關係的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到使用者查詢的結果中。
網際網路雖然只有乙個,但各搜尋引擎的能力和偏好不同,所以抓取的網頁各不相同,排序演算法也各不相同。大型搜尋引擎的資料庫儲存了網際網路上幾億至幾十億的網頁索引,資料量達到幾千g甚至幾萬g。但即使最大的搜尋引擎建立超過二十億網頁的索引資料庫,也只能佔到網際網路上普通網頁的不到30%,不同搜尋引擎之間的網頁資料重疊率一般在70%以下。我們使用不同搜尋引擎的重要原因,就是因為它們能分別搜尋到不同的內容。而網際網路上有更大量的內容,是搜尋引擎無法抓取索引的,也是我們無法用搜尋引擎搜尋到的。
你心裡應該有這個概念:搜尋引擎只能搜到它網頁索引資料庫裡儲存的內容。你也應該有這個概念:如果搜尋引擎的網頁索引資料庫裡應該有你而沒有搜出來,那是你的能力問題,學習搜尋技巧可以大幅度提高你的搜尋能力。
搜尋引擎分類與工作原理
搜尋引擎分類與工作原理 搜尋引擎分類 搜尋引擎按其工作方式主要可分為三種,分別是全文搜尋引擎 full text search engine 目錄索引類搜尋引擎 search index directory 和元搜尋引擎 meta search engine 全文搜尋引擎 目錄索引 元搜尋引擎 me...
搜尋引擎分類與工作原理
搜尋引擎分類 搜尋引擎按其工作方式主要可分為三種,分別是全文搜尋引擎 full text search engine 目錄索引類搜尋引擎 search indexdirectory 和元搜尋引擎 meta search engine 全文搜尋引擎 目錄索引 元搜尋引擎 meta search eng...
搜尋引擎分類和工作原理
搜尋引擎分類與工作原理 整理 ackarlix 搜尋引擎分類 搜尋引擎按其工作方式主要可分為三種,分別是全文搜尋引擎 full text search engine 目錄索引類搜尋引擎 search indexdirectory 和元搜尋引擎 meta search engine 全文搜尋引擎 目錄...