說是架構設計,但是爬蟲框架大同小異,這裡也是說明一下原理,把之前做的一些功能給模組化到架構中。
先上個圖吧
這就是引擎中各元件的任務職能,各施其職發揮出種元件的特點:
1、種子就是原始url沒什麼好說明的
2、爬蟲引擎
對爬蟲種子或其它任務進行排程
3、網頁獲取器
主要任務是對網頁內容進行讀取,包括網頁編碼解析及轉碼等工作
4、解析器
對網頁內容進行解析,如何解析是要自己開發邏輯解析器的,這個解析是在建立種子或子任務時明確指定的
5、任務佇列
儲存要爬取的任務
根據上述內容,框架設計出如下幾個模組:
框架功能詳細說明:
python寫網路爬蟲
注 本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式,用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...
GO 併發的網路爬蟲
第一頁 ie utf 8 pn 0 第二頁 ie utf 8 pn 50 第三頁 ie utf 8 pn 100 整體提取的思路 1 先拿位址 2 爬 3 取 4 存 讀取網頁的body內容 buf make byte,4 1024 fortrue else result string buf n ...
學習python寫網路爬蟲(一)
最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本,可以捕獲異常了 import urllib2 defdownload url print downloading ...