**
玩玩小爬蟲——抓取時的幾個小細節
摘要: 這一篇我們聊聊在頁面抓取時應該注意到的幾個問題。一:網頁更新 我們知道,一般網頁中的資訊是不斷翻新的,這也要求我們定期的去抓這些新資訊,但是這個「定期」該怎麼理解,也就是多長時間需要抓一次該頁面,其實這個定期也就是頁面快取時間,在頁面的快取時間內我們再次抓取該網頁是沒有必要的,反而給人家伺服器造成壓力。就比如說我要抓取首頁,首先清空頁面快取,從last-modified到expires,我們可以看到,的快取時間是2分鐘,而且我還能看到當前的伺服器時間date,如果我再次重新整理頁面的話,這裡的date將會變成下圖中if-modified-since,然後傳送給伺服器,判斷瀏覽器...
閱讀全文
posted @
2012-11-08 01:23 一線碼農 閱讀(4092) | 編輯
玩玩小爬蟲——抓取動態頁面
閱讀全文
posted @
2012-11-06 00:00 一線碼農 閱讀(7030) | 編輯
玩玩小爬蟲——試搭小架構
摘要: 第一篇我們做了乙個簡單的頁面廣度優先來抓取url,很顯然缺點有很多,第一:資料結構都是基於記憶體的,第二:單執行緒抓取速度太慢,在實際開發中肯定不會這麼做的,起碼得要有序列化到硬碟的機制,對於整個爬蟲架構來說,構建好爬蟲佇列相當重要。 先上一幅我自己構思的架構圖,不是很完善,算是乙個雛形吧。一:todo佇列和visited集合 在眾多的nosql資料庫中,mongodb還是很不錯的,這裡也就選擇它了,做集群,做分片輕而易舉。二:**處理器 群架,鬥毆都是有帶頭的,那**處理器就可以幹這樣的事情,它的任務很簡單, 第一: 啟動時,根據我們定義好的規則將種子頁面分發到各個執行伺服器。 第...
閱讀全文
posted @
2012-11-04 18:51 一線碼農 閱讀(4474) | 編輯
玩玩小爬蟲——入門
摘要: 前段時間做乙個產品,盈利方式也就是賣資料給使用者,用wpf包裝一下,當然資料提供方是由公司定向爬蟲採集的,雖然在實際工作中沒有接觸這一塊,不過私下可以玩一玩,研究研究。 既然要抓取網頁的內容,肯定我們會有乙個starturl,通過這個starturl就可以用廣度優先的方式遍歷整個站點,就如我們學習資料結構中圖的遍歷一樣。既然有「請求網頁」和「解析網頁」兩部分,在**實現上,我們得需要有兩個集合,分別是todo和visited集合,為了簡單起見,我們從單機版爬蟲說起,說起爬蟲,就必然逃避不了海量資料,既然是海量資料,那麼效能問題不容忽視,在todo和visited集合的甄別上,我們選擇用qu...
閱讀全文
爬蟲系列二
6.3.re庫的match物件 6.4.貪婪匹配和最小匹配 七 練習 一切為了資料探勘的準備 在中國大學mooc 上學習的北京理工大學嵩天老師的免費爬蟲課程課件,簡單易懂,感興趣的戳 嵩天老師爬蟲課程。侵刪 六 正規表示式 編譯 將符合正規表示式語法的字串轉化為正規表示式特徵,只有在compile之...
Python爬蟲系列
部落格 python,爬蟲 由於近來學 lan 業 ai 繁 fa 忙 zuo 快乙個月沒有更新部落格了。這周完成了兩門課的結課考試,現下時間開始變得充裕。準備梳理一下前段時間學習的關於python爬蟲的內容,權當複習鞏固知識。而初次學習時遇到的疑難雜症,那時候的應對策略是抓大放下,在這梳理過程會下...
入門小爬蟲
python爬蟲最基本流程是,獲取請求,解析頁面,處理頁面資料 python獲取頁面的的第三方庫很多,像request,urllib,解析方法有最簡單的re正規表示式,也有專門用來解析的庫xmlx,beautifulsoup等。下面以request,正規表示式為例。一 獲取請求,得到網頁文字,先上 ...