用python寫爬蟲(一)初識爬蟲

2021-10-12 21:34:30 字數 792 閱讀 5851

爬蟲又被稱之為網路蜘蛛、網路機械人等,簡單來說就是模擬客戶端傳送網路請求,接收請求響應,按照一定的規則自動的抓取網際網路資訊的程式。

1.從個人角度來說,爬蟲可以做我們的生活助手。

2.從商業角度來說,爬蟲能實現巨大的商業價值。

網路爬蟲根據系統結構和開發技術大致可以分為四種型別:通用網路爬蟲、聚焦網路爬蟲、增量式網路爬蟲、深層網路爬蟲。

2、 聚焦網路爬蟲 又稱為主題網路爬蟲,選擇性的爬取根據需求的主題相關頁面的網路爬蟲。

使用通用網路爬蟲,是從全網搜尋想要的資訊,在資料、資訊**的今天,資訊多的看都看不過來,怎麼樣才能高效的獲取我們想要的資訊呢?好不容易找到資訊了,這麼多資料與資訊,怎麼樣把他們儲存下來呢?好不容易儲存下來了,下一次還要抓取這些資訊時該怎麼辦呢?

這時候聚焦爬蟲就要顯神威了,它只爬取特定網頁的資訊,換個說法,只爬取我們想要的資訊,等到我們需要的時候資料、資訊的時候,執行程式即可。所以,聚焦爬蟲就相當於為我們私人定製資訊獲取程式!聽起來是不是還不錯呢。

我們可以把網際網路比作一張大網,而爬蟲便是網上爬行的蜘蛛。把網的節點比作乙個個網頁,爬蟲爬到這就相當於訪問該頁面,獲取了其資訊。可以把節點間的連線比作網頁之間的鏈結關係,這樣蜘蛛通過乙個節點後,可以順著節點連線繼續爬行到達下乙個節點,即通過乙個網頁繼續獲取後續的網頁,這樣整個網的節點便可以被蜘蛛全部爬行到,**的資料就可以被爬取下來了。

《實戰python網路爬蟲》 黃永祥

《python3網路爬蟲開發實戰》 崔慶才

Python爬蟲 初識爬蟲

模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...

爬蟲(一)初識爬蟲

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...

Python爬蟲初識

目標物件為靜態 url管理器 網頁解析器 beautifulsoup 執行流程 避免重複抓取 迴圈抓取 功能 訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...