Python爬蟲簡述系列之一

根據使用場景，網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種.

搜尋引擎網路爬蟲的基本工作流程如下：

1，首先選取一部分的種子url，將這些url放入待抓取url佇列；

3，分析已抓取url佇列中的url，分析其中的其他url，並且將url放入待抓取url佇列，從而進入下乙個迴圈….

在其他**上設定新**外鏈（盡可能處於搜尋引擎爬蟲爬取範圍）

搜尋引擎和dns解析服務商(如dnspod等）合作，新**網域名稱將被迅速抓取。

但是搜尋引擎蜘蛛的爬行是被輸入了一定的規則的，它需要遵從一些命令或檔案的內容，如標註為nofollow的鏈結，或者是robots協議。

robots協議（也叫爬蟲協議、機械人協議等），全稱是「網路爬蟲排除標準」（robots exclusion protocol），**通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，例如：

**網：

搜尋引擎通過爬蟲爬取到的網頁，將資料存入原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。

搜尋引擎蜘蛛在抓取頁面時，也做一定的重複內容檢測，一旦遇到訪問權重很低的**上有大量抄襲、採集或者複製的內容，很可能就不再爬行。

搜尋引擎將爬蟲抓取回來的頁面，進行各種步驟的預處理。

搜尋引擎在對資訊進行組織和處理後，為使用者提供關鍵字檢索服務，將使用者檢索相關的資訊展示給使用者。

聚焦爬蟲，是」面向特定主題需求」的一種網路爬蟲程式，它與通用搜尋引擎爬蟲的區別在於：聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選，盡量保證只抓取與需求相關的網頁資訊。

Python爬蟲之一

1.爬蟲的選取 scrapy和requests beautifuisoup scrapy是框架，而requests和beautifulsoup是庫。scrapy框架是可以加如requests和beautifulsoup庫的，而scrapy是基於twisted，效能是最大的優勢。scrapy方便擴充套...

Python 爬蟲系列（一）

1 為了省去時間投入學習，推薦直接安裝整合環境 anaconda 2 ide pycharm pydev 3 工具 jupyter notebook 安裝完anaconda會有的 1 瘋狂的python 快速入門精講 python2.x，可體驗到與python3.x的差異看完這些課程，自己對pyt...

python爬蟲系列（一）

整理這番外篇的原因是希望能夠讓爬蟲的朋友更加理解這塊內容，因為爬蟲爬取資料可能很簡單，但是如何高效持久的爬，利用程序，執行緒，以及非同步io,其實很多人和我一樣，故整理此系列番外篇程式並不能單獨和執行只有將程式裝載到記憶體中，系統為他分配資源才能執行，而這種執行的程式就稱之為程序。程式和程序的區別...

Python爬蟲簡述系列之一

Python爬蟲之一

Python 爬蟲系列（一）

python爬蟲系列（一）

相關推薦