小爬蟲系列

玩玩小爬蟲——抓取時的幾個小細節

摘要: 這一篇我們聊聊在頁面抓取時應該注意到的幾個問題。一：網頁更新我們知道，一般網頁中的資訊是不斷翻新的，這也要求我們定期的去抓這些新資訊，但是這個「定期」該怎麼理解，也就是多長時間需要抓一次該頁面，其實這個定期也就是頁面快取時間，在頁面的快取時間內我們再次抓取該網頁是沒有必要的，反而給人家伺服器造成壓力。就比如說我要抓取首頁，首先清空頁面快取，從last-modified到expires，我們可以看到，的快取時間是2分鐘，而且我還能看到當前的伺服器時間date，如果我再次重新整理頁面的話，這裡的date將會變成下圖中if-modified-since,然後傳送給伺服器，判斷瀏覽器...

閱讀全文

posted @

2012-11-08 01:23 一線碼農閱讀(4092) | 編輯

玩玩小爬蟲——抓取動態頁面

閱讀全文

posted @

2012-11-06 00:00 一線碼農閱讀(7030) | 編輯

玩玩小爬蟲——試搭小架構

摘要: 第一篇我們做了乙個簡單的頁面廣度優先來抓取url，很顯然缺點有很多，第一：資料結構都是基於記憶體的，第二：單執行緒抓取速度太慢，在實際開發中肯定不會這麼做的，起碼得要有序列化到硬碟的機制，對於整個爬蟲架構來說，構建好爬蟲佇列相當重要。先上一幅我自己構思的架構圖，不是很完善，算是乙個雛形吧。一：todo佇列和visited集合在眾多的nosql資料庫中，mongodb還是很不錯的，這裡也就選擇它了，做集群，做分片輕而易舉。二：**處理器群架，鬥毆都是有帶頭的，那**處理器就可以幹這樣的事情，它的任務很簡單，第一：啟動時，根據我們定義好的規則將種子頁面分發到各個執行伺服器。第...

閱讀全文

posted @

2012-11-04 18:51 一線碼農閱讀(4474) | 編輯

玩玩小爬蟲——入門

摘要: 前段時間做乙個產品，盈利方式也就是賣資料給使用者，用wpf包裝一下，當然資料提供方是由公司定向爬蟲採集的，雖然在實際工作中沒有接觸這一塊，不過私下可以玩一玩，研究研究。既然要抓取網頁的內容，肯定我們會有乙個starturl，通過這個starturl就可以用廣度優先的方式遍歷整個站點，就如我們學習資料結構中圖的遍歷一樣。既然有「請求網頁」和「解析網頁」兩部分，在**實現上，我們得需要有兩個集合，分別是todo和visited集合，為了簡單起見，我們從單機版爬蟲說起，說起爬蟲，就必然逃避不了海量資料，既然是海量資料，那麼效能問題不容忽視，在todo和visited集合的甄別上，我們選擇用qu...

閱讀全文

小爬蟲系列

爬蟲系列二

Python爬蟲系列

入門小爬蟲

小爬蟲系列

爬蟲系列二

Python爬蟲系列

入門小爬蟲

相關推薦