twisted
抓網頁,它有優秀的非同步事件驅動的架構,常見的協定都已經有實做,包括http、smtp等等
getpage("").addcallback(printpage)
一行就可以抓網頁
lxml
效率高,支援xpath
def getnextpagelink(self, tree):
"""get next page link
@param tree: tree to get link
@return: return url of next page, if there is no next page, return none
"""paging = tree.xpath("//span[@class='paging']")
if paging:
links = paging[0].xpath("./a[(text(), '%s')]" % self.localtext['next'])
if links:
return str(links[0].get('href'))
return none
listprice = tree.xpath("//*[@class='priceblocklabel']/following-sibling::*")
if listprice:
detail['listprice'] = self.stripmoney(listprice[0].text)
使用的工具
firefox的外掛程式,xpath checker等xpath的工具,可以先用它來確定抓到的元素是正確的,然後firebug在檢視網頁結構
PHP Snoopy網頁抓取工具
snoopy是乙個php類,用來模仿web瀏覽器的功能,它能完成獲取網頁內容和傳送表單的任務。下面是它的一些特徵 1 方便抓取網頁的內容11111111111 2 方便抓取網頁的文字 去掉html 3 方便抓取網頁的鏈結 4 支援 主機 5 支援基本的使用者 密碼認證模式 6 支援自定義使用者age...
Python抓取網頁
在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...
Python網頁抓取
coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...