通用爬蟲和聚焦爬蟲

根據使用場景，網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種。

一、通用爬蟲

二、通用搜尋引擎（search engine）工作原理

通用網路爬蟲從網際網路中蒐集網頁，採集資訊，這些網頁資訊用於為搜尋引擎建立索

引從而提供支援，它決定著整個引擎系統的內容是否豐富，資訊是否即時，因此其效能的優劣直接影響著搜尋引擎的效果。

第一步：抓取網頁

搜尋引擎網路爬蟲的基本工作流程如下：

那麼，搜尋引擎如何獲取乙個新**的 url：

(1) 新**向搜尋引擎主動提交**

(2) 在其他**上設定新**外鏈（盡可能處於搜尋引擎爬蟲爬取範圍）

(3) 搜尋引擎和 dns 解析服務商(如 dnspod 等）合作，新**網域名稱將被迅速抓取。

但是搜尋引擎蜘蛛的爬行是被輸入了一定的規則的，它需要遵從一些命令或檔案的內

容，如標註為 nofollow 的鏈結，或者是 robots 協議。

robots 協議（也叫爬蟲協議、機械人協議等），全稱是「網路爬蟲排除標準」（robot***clusion protocol），**通過 robots 協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，

第二步：資料儲存

搜尋引擎通過爬蟲爬取到的網頁，將資料存入原始頁面資料庫。其中的頁面資料與使用者

瀏覽器得到的 html 是完全一樣的。

搜尋引擎蜘蛛在抓取頁面時，也做一定的重複內容檢測，一旦遇到訪問權重很低的**

上有大量抄襲、採集或者複製的內容，很可能就不再爬行。

第三步：預處理

搜尋引擎將爬蟲抓取回來的頁面，進行各種步驟的預處理。

除了 html 檔案外，搜尋引擎通常還能抓取和索引以文字為基礎的多種檔案型別，如

pdf、word、wps、xls、ppt、txt 檔案等。我們在搜尋結果中也經常會看到這些檔案型別。

搜尋引擎在對資訊進行組織和處理後，為使用者提供關鍵字檢索服務，將使用者檢索相關的

資訊展示給使用者。

同時會根據頁面的 pagerank 值（鏈結的訪問量排名）來進行**排名，這樣 rank 值

高的**在搜尋結果中會排名較前，當然也可以直接使用 money 購買搜尋引擎**排名，簡單粗暴。

三、通用性搜尋引擎存在一定的侷限性：

通用搜尋引擎所返回的結果都是網頁，而大多情況下，網頁裡 90%的內容對使用者來說

都是無用的。

不同領域、不同背景的使用者往往具有不同的檢索目的和需求，搜尋引擎無法提供針對具

體某個使用者的搜尋結果。

通用搜尋引擎大多提供基於關鍵字的檢索，難以支援根據語義資訊提出的查詢，無法準

確理解使用者的具體需求。

針對這些情況，聚焦爬蟲技術得以廣泛使用。

四、聚焦爬蟲

聚焦爬蟲，是"面向特定主題需求"的一種網路爬蟲程式，它與通用搜尋引擎爬蟲的區別在於：聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選，盡量保證只抓取與需求相關的網頁資訊。

通用爬蟲和聚焦爬蟲

通用爬蟲是搜尋引擎抓取系統 baidu,goole,yahoo等的重要組成部分搜尋引擎網路爬蟲的基本工作流程如下第一步抓取網頁 1，首先選取一部分的種子url，並將這些url放進抓取url佇列 3，分析已抓取url佇列中url,分析其中的其他url,並將url放入待抓取1url佇列從而進入...

Python通用爬蟲，聚焦爬蟲概念理解

原理 1 抓取網頁 2 採集資料 3 資料處理 4 提供檢索服務通用爬蟲如何抓取新 1 主動提交url 檢索排名 1 競價排名 2 根據pagerank值排名，由訪問量，點選量得出，seo崗位做的工作這個協議僅僅是口頭上的協議，真正的還是可以爬取的。聚焦爬蟲根據特定的需求抓取指定的資料。思路 ...

Python爬蟲增量式爬蟲通用爬蟲聚焦爬蟲

通用爬蟲聚焦爬蟲增量式爬蟲通用爬蟲和聚焦爬蟲之前的部落格有講解過了，本篇主要講解增量式爬蟲適用於持續跟蹤的資料爬取。例如三個月前，爬取了所有資料。更新了100條資料，此時爬取跟新的100條資料即可。指定起始url，基於crawlspider獲取頁碼url 基於rule請求獲取的頁碼u...

通用爬蟲和聚焦爬蟲

通用爬蟲和聚焦爬蟲

Python通用爬蟲，聚焦爬蟲概念理解

Python爬蟲 增量式爬蟲 通用爬蟲 聚焦爬蟲

相關推薦

Python爬蟲增量式爬蟲通用爬蟲聚焦爬蟲