搜尋引擎
了解搜尋引擎技術
分布式技術:
當搜尋引擎處理資料達到一定規模時,為了提高系統的效能,必須採用分布式技術。crawler通過多個伺服器互相合作,提高資料採集的速度。indexer在生成索引資料時通過並行演算法,在不同機器上同時進行。searcher也可以在不同的機器上進行同時查詢,提高速度。
中文分詞:
分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有分詞演算法可以分為三大類:基於字串比配的的分詞方法,基於理解的分詞方法和基於統計的分詞方法。
網頁排序:
現在搜尋引擎中網頁的 排序主要利用了頁面間的鏈結關係,描述鏈結的文字以及文字自身內容,重要的鏈結分析演算法有hits和pagerank,hilltop等。
海量資料儲存:
搜尋引擎的挑戰之一就是處理資料的巨大,如何儲存如此大的資料,資料的更新,快速的檢索...
壓縮技術:
壓縮技術極大的減少了資料的大小,對於不同型別的資料,需要採用不同的壓縮方法,主要的資料壓縮主要有:網頁資料的壓縮和索引資料的壓縮。選擇壓縮技術主要從開放性,速度與壓縮比等多方面進行綜合考慮。google中選擇了alib(rfc1950)進行壓縮,在壓縮速度上zlib超過bzip,壓縮比上bzip好於zlib。
本文**
搜尋引擎初步了解
剛剛了解了搜尋引擎技術實現的原理,大致分為三部分 資訊的採集 資訊的儲存及資訊的檢索。先說採集部分,我們所有的資訊的採集部分是有乙個叫做道網路蜘蛛 web spider 的乙個技術實現的,舉例來說,當使用者提交他要檢索的資訊後,引擎將依據他的提交資訊先進行分析,而在進行網路爬蟲搜尋之前,首先應對資訊...
搜尋引擎檢索技術
謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...
搜尋引擎檢索技術
如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...