根據使用場景,網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種.
搜尋引擎網路爬蟲的基本工作流程如下:
1,首先選取一部分的種子url,將這些url放入待抓取url佇列;
3,分析已抓取url佇列中的url,分析其中的其他url,並且將url放入待抓取url佇列,從而進入下乙個迴圈….
在其他**上設定新**外鏈(盡可能處於搜尋引擎爬蟲爬取範圍)
搜尋引擎和dns解析服務商(如dnspod等)合作,新**網域名稱將被迅速抓取。
但是搜尋引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案的內容,如標註為nofollow的鏈結,或者是robots協議。
robots協議(也叫爬蟲協議、機械人協議等),全稱是「網路爬蟲排除標準」(robots exclusion protocol),**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,例如:
**網:
搜尋引擎通過爬蟲爬取到的網頁,將資料存入原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。
搜尋引擎蜘蛛在抓取頁面時,也做一定的重複內容檢測,一旦遇到訪問權重很低的**上有大量抄襲、採集或者複製的內容,很可能就不再爬行。
搜尋引擎將爬蟲抓取回來的頁面,進行各種步驟的預處理。
搜尋引擎在對資訊進行組織和處理後,為使用者提供關鍵字檢索服務,將使用者檢索相關的資訊展示給使用者。
聚焦爬蟲,是」面向特定主題需求」的一種網路爬蟲程式,它與通用搜尋引擎爬蟲的區別在於:聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選,盡量保證只抓取與需求相關的網頁資訊。
Python爬蟲之一
1.爬蟲的選取 scrapy和requests beautifuisoup scrapy是框架,而requests和beautifulsoup是庫。scrapy框架是可以加如requests和beautifulsoup庫的,而scrapy是基於twisted,效能是最大的優勢。scrapy方便擴充套...
Python 爬蟲系列(一)
1 為了省去時間投入學習,推薦直接安裝整合環境 anaconda 2 ide pycharm pydev 3 工具 jupyter notebook 安裝完anaconda會有的 1 瘋狂的python 快速入門精講 python2.x,可體驗到與python3.x的差異 看完這些課程,自己對pyt...
python爬蟲系列(一)
整理這番外篇的原因是希望能夠讓爬蟲的朋友更加理解這塊內容,因為爬蟲爬取資料可能很簡單,但是如何高效持久的爬,利用程序,執行緒,以及非同步io,其實很多人和我一樣,故整理此系列番外篇 程式並不能單獨和執行只有將程式裝載到記憶體中,系統為他分配資源才能執行,而這種執行的程式就稱之為程序。程式和程序的區別...