網路爬蟲按照系統結構和實現技術,大致可以分為以下幾種型別
實際的網路爬蟲是集中爬蟲技術相結合實現的
下面對這幾種爬蟲進行詳細的介紹
名稱場景
特點缺點
通用網路爬蟲
門戶站點搜尋引擎、大型web服務提供商採集資料
爬行範圍和數量巨大、爬行頁面順序要求低、並行工作方式,爬取網際網路上的所有資料
爬蟲速度和儲存空間要求高、重新整理頁面的時間長
聚焦網路爬蟲
又稱主題網路爬蟲,只爬行特定的資料,商品比價
極大 節省了硬體和網路資源,頁面更新快
增量式網路爬蟲
只抓取剛剛更新的資料
增加了爬行演算法的複雜度和實現難度
深層網路爬蟲
Python爬蟲基礎之爬蟲的分類知識總結
通用網路爬蟲是搜尋引擎抓取系統 baidu google sogou等 的乙個重要組成部分。主要目的是將網際網路上的網頁 到本地,形成乙個網際網路內容的映象備份。為搜尋引擎提供搜尋支援。第一步搜尋引擎去成千上萬個 抓取資料。第二步搜尋引擎通過爬蟲爬取到的網頁,將資料存入原始頁面資料庫 也就是文件庫 ...
爬蟲使用場景分類
爬蟲在使用場景中的分類 通用爬蟲 抓取系統重要組成部分。抓取的是一整張頁面資料 聚焦爬蟲 是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容 增量式爬蟲 檢測 中資料更新的情況。只會抓取 中最新更新出來的資料。爬蟲的矛與盾 反爬機制 門戶 可以通過制定相應的策略或者技術手段,防止爬蟲程式進行...
爬蟲初學,寫個簡單的爬蟲
首先構造一下請求頭,呼叫request模組傳送請求,def request data url headers try response requests.get url,headers headers if response.status code 200 return response.conte...