GO寫網路爬蟲單任務版架構設計

說是架構設計，但是爬蟲框架大同小異，這裡也是說明一下原理，把之前做的一些功能給模組化到架構中。

先上個圖吧

這就是引擎中各元件的任務職能，各施其職發揮出種元件的特點：

1、種子就是原始url沒什麼好說明的

2、爬蟲引擎

對爬蟲種子或其它任務進行排程

3、網頁獲取器

主要任務是對網頁內容進行讀取，包括網頁編碼解析及轉碼等工作

4、解析器

對網頁內容進行解析，如何解析是要自己開發邏輯解析器的，這個解析是在建立種子或子任務時明確指定的

5、任務佇列

儲存要爬取的任務

根據上述內容，框架設計出如下幾個模組：

框架功能詳細說明：

python寫網路爬蟲

注本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式，用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...

GO 併發的網路爬蟲

第一頁 ie utf 8 pn 0 第二頁 ie utf 8 pn 50 第三頁 ie utf 8 pn 100 整體提取的思路 1 先拿位址 2 爬 3 取 4 存讀取網頁的body內容 buf make byte,4 1024 fortrue else result string buf n ...

學習python寫網路爬蟲（一）

最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本，可以捕獲異常了 import urllib2 defdownload url print downloading ...

GO寫網路爬蟲 單任務版架構設計

python寫網路爬蟲

GO 併發的網路爬蟲

學習python寫網路爬蟲（一）

相關推薦

GO寫網路爬蟲單任務版架構設計