搜尋引擎蜘蛛工作原理

2021-08-30 23:38:40 字數 1238 閱讀 9783

**能在搜尋引擎被搜到,歸功於搜尋引擎蜘蛛抓取的功勞,權重高,更新快的**,搜尋引擎蜘蛛會經常爬行,抓取**最新資料,經過搜尋引擎資料整理後,在搜尋引擎上就能搜尋到**的網頁,為了更好的seo優化**,了解搜尋引擎蜘蛛爬行規則也是相當重要的,怎麼才能知道搜尋引擎蜘蛛在爬行**時間、爬行網頁、爬行反映呢,就要檢視**iis日誌檔案, iis預設的日誌檔案在c:\windows\system32\logfiles中

,從檢視日誌中,就可以了解搜尋引擎蜘蛛爬行經過,如:

2xx 成功

200 正常;請求已完成。

201 正常;緊接 post 命令。

202 正常;已接受用於處理,但處理尚未完成。

203 正常;部分資訊 — 返回的資訊只是一部分。

204 正常;無響應 — 已接收請求,但不存在要回送的資訊。

3xx 重定向

301 已移動 — 請求的資料具有新的位置且更改是永久的。

302 已找到 — 請求的資料臨時具有不同 uri。

303 請參閱其它 — 可在另一 uri 下找到對請求的響應,且應使用 get 方法檢索此響應。

304 未修改 — 未按預期修改文件。

305 使用** — 必須通過位置欄位中提供的**來訪問請求的資源。

306 未使用 — 不再使用;保留此**以便將來使用。

4xx 客戶機中出現的錯誤

400 錯誤請求 — 請求中有語法問題,或不能滿足請求。

401 未授權 — 未授權客戶機訪問資料。

402 需要付款 — 表示計費系統已有效。

403 禁止 — 即使有授權也不需要訪問。

404 找不到 — 伺服器找不到給定的資源;文件不存在。

407 **認證請求 — 客戶機首先必須使用**認證自身。

410 請求的網頁不存在(永久);

415 介質型別不受支援 — 伺服器拒絕服務請求,因為不支援請求實體的格式。

5xx 伺服器中出現的錯誤

500 內部錯誤 — 因為意外情況,伺服器不能完成請求。

501 未執行 — 伺服器不支援請求的工具。

502 錯誤閘道器 — 伺服器接收到來自上游伺服器的無效響應。

503 無法獲得服務 — 由於臨時過載或維護,伺服器無法處理請求。

搜尋引擎蜘蛛爬蟲原理

1 聚焦爬蟲工作原理及關鍵技術概述 相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供...

搜尋引擎蜘蛛爬蟲原理

1 聚焦爬蟲工作原理及關鍵技術概述 相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供...

搜尋引擎工作原理

搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...