通用爬蟲和聚焦爬蟲

2021-09-24 04:49:34 字數 1260 閱讀 7870

通用爬蟲是搜尋引擎抓取系統 (baidu,goole,yahoo等)的重要組成部分 。

搜尋引擎網路爬蟲的基本工作流程如下:

第一步 :抓取網頁 

1,首先選取一部分的種子url,並將這些url放進抓取url佇列 。

3,分析已抓取url佇列中url,分析其中的其他url,並將url放入待抓取1url佇列

從而進入下乙個迴圈

robots協議 ,(也叫爬蟲協議 ,機械人協議等)全稱是網路爬蟲排除標準 ,**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取 。

例如 :**網:

第二步: 資料儲存

搜尋引擎通過爬蟲爬到的網頁,將資料儲存入原始頁面資料庫,其中的頁面資料與使用者瀏覽器得到的html是完全一樣的

搜尋引擎蜘蛛在抓取頁面時,也做一定的重複內容檢測,一旦遇到訪問權重很低的**上有大量抄襲

採集或者複製的內容 ,很可能就不再爬行

第三步:預處理

搜尋引擎將爬蟲抓取回來的頁面 ,進行各種步驟的預處理

提取文字

中文分詞

索引處理

連線關係計算

特殊檔案處理

除了html檔案外 ,搜尋引擎通常還能抓取和索引以文字為基礎的多種檔案型別

如pdf,word,wps,xls,ppt,txt檔案等,我們在搜尋結果中也經常會看到這些檔案型別

搜尋引擎在對資訊進行組織和處理後 ,為使用者提供關鍵檢索服務 ,將使用者相關的資訊展示給使用者 。

也可以直接使用monkey購買搜尋引擎**排名 。

但是這些通用性搜尋引擎也存在著一定的侷限性:

1,通用搜尋引擎所返回的結果都是網頁 ,而大多情況下,網頁裡90%的內容對使用者來說都是無用的

聚焦爬蟲:

是面向特定主題需求的一種網路爬蟲程式 ,它與通用搜尋引擎爬蟲的區別在於 ,

聚焦爬蟲在實施頁面抓取時會對內容進行處理篩選,盡量保證只抓取與需求相關的網頁資訊

通用爬蟲和聚焦爬蟲

根據使用場景,網路爬蟲可分為 通用爬蟲 和 聚焦爬蟲 兩種。一 通用爬蟲 二 通用搜尋引擎 search engine 工作原理 通用網路爬蟲 從網際網路中蒐集網頁,採集資訊,這些網頁資訊用於為搜尋引擎建立索 引從而提供支援,它決定著整個引擎系統的內容是否豐富,資訊是否即時,因此其效能的優劣直接影響...

Python通用爬蟲,聚焦爬蟲概念理解

原理 1 抓取網頁 2 採集資料 3 資料處理 4 提供檢索服務 通用爬蟲如何抓取新 1 主動提交url 檢索排名 1 競價排名 2 根據pagerank值排名,由訪問量,點選量得出,seo崗位做的工作 這個協議僅僅是口頭上的協議,真正的還是可以爬取的。聚焦爬蟲 根據特定的需求抓取指定的資料。思路 ...

Python爬蟲 增量式爬蟲 通用爬蟲 聚焦爬蟲

通用爬蟲 聚焦爬蟲 增量式爬蟲 通用爬蟲 和 聚焦爬蟲 之前的部落格有講解過了,本篇主要講解增量式爬蟲 適用於持續跟蹤 的資料爬取。例如三個月前,爬取了所有資料。更新了100條資料,此時爬取跟新的100條資料即可。指定起始url,基於crawlspider獲取頁碼url 基於rule請求獲取的頁碼u...