搜尋引擎(三) 搜尋器

2021-07-15 21:48:53 字數 581 閱讀 4037

優秀的爬蟲除了上述功能完整外,還具備如下通用特性。

高效性。主要衡量網頁抓取速度。設計爬蟲時,程式訪問磁碟的操作方式及實現時資料結構的選擇對爬蟲的效率有至關重要的影響。

可擴充套件性。爬蟲需要抓取的網頁資料量巨大,通常通過擴充套件爬蟲系統的方式來解決該問題。目前,大型**爬蟲均是分布式爬蟲。即,多台伺服器抓取,且每台伺服器上部署多個爬蟲專案,每個爬蟲以多執行緒形式執行,增加併發。

健壯性。網頁資料多樣,爬蟲經常會出現各種異常情況,甚至抓取伺服器宕機,健壯的伺服器應該做到斷點續爬。

友好性。頻繁的爬取網頁會對**託管伺服器造成極大的壓力,或者有些**並不希望所有資料都抓取。因此便出現了爬蟲抓取協議和網頁禁抓標記。爬蟲抓取協議指**所有者生成指定的robot.txt檔案放於**伺服器根目錄下,該檔案內記錄了不允許爬蟲爬取的目錄。網頁禁抓協議只網頁存在robots標記,並通過content指定禁止的操作方式。

從使用者角度出發,優秀的爬蟲應具備如下特性。抓取網頁覆蓋率大、抓取網頁時新性及抓取網頁重要性高(搜尋精度高)。符合以上三點的網路爬蟲,將為使用者帶來絕佳的使用者體驗。

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...

開源搜尋引擎

從1992年北京開設第一家辦事處至今,微軟在進入中國15年內進一步本土化的過程中,逐漸制定了與中國軟體產業共同發展,構築 生態系統 的目標。近期,微軟不斷加大同中國軟體產業的合作,其中發展了五家 全球戰略合作夥伴 繼神州數碼 山東浪潮 中軟軟體 創智國際之後,微軟於3月8日找到了第五家 浙大網新。微...