python中可以用來爬取網路資料的庫有很多,常見的有:urllib、urllib2、urllib3、requests、scrapy、selenium等。
基本上可以分為3類:
第一類:urllib、urllib2、urllib3、requests;
第二類:scrapy;
第三類:selenium;
第一類是python自帶的庫,其中requests上手簡單,功能強大,缺點就是缺少配套工程,自己需要自己寫不少的**處理語料(哈哈,urllib、urllib2、urllib3不建議畫太多精力在上面);
第二類和第三類是封裝好的框架,功能強大,配套的工程多,但上手相對複雜;
scrapy和requests比較難以處理動態網頁,selenium比較適合處理動態網頁;
相反的,scrapy適合大規模的資料爬取,而selenium只適合小規模的資料爬取。
python爬蟲小結
之前在學校鼓搗兩個周的爬蟲還沒入門,前倆周王哥給點撥了下,有種茅塞頓開的感覺。現針對小白入門階段總結下經驗 爬蟲的概念不須說,之前不懂構造請求這回事,工欲善其事,必先利其器,首先可以利用fiddler charles和firebug都很厲害 觀察瀏覽器請求頁面過程的請求,觀察哪個才是需要構造的,觀察...
網路爬蟲 多執行緒爬蟲
多執行緒爬蟲 import threading class one threading.thread def init self threading.thread.init self def run self for i in range 0,10 print 我是執行緒1 class two th...
網路爬蟲技術
網路爬蟲技術 1 不同領域 不同背景的使用者往往具有不同的檢索目的和需求,通用搜尋引擎所返回的結果包含大量使用者不關心的網頁。2 通用搜尋引擎的目標是盡可能大的網路覆蓋率,有限的搜尋引擎伺服器資源與無限的網路資料資源之間的矛盾將進一步加深。4 通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資...