scrapy是乙個爬取結構化資料的框架,它不是乙個簡單的模組,它裡面有很多針對爬蟲需要而開發的模組。(結構化資料,一般有json檔案,xml檔案。如果想要將json檔案,轉化成python型別使用json.load();如果想將提取xml檔案裡面的內容,比如文字內容,一般用xpath來提取。)
response = response.get(url,headers=headers)
html = etree.html(response.content) # 此時得到的html是乙個element物件
content = html.xpath(『這裡面是xpath語法』)
學習搭建scrapy,記錄遇到的問題
1.windows7下 步驟參照 和 前面所有都很順利,但在最後一步安裝最新版scrapy1.0.3的過程中出錯,於是換用scrapy0.24,可以成功安裝。2.ubuntu15.04下 步驟參考 安裝scrapy1.0.3成功。3.執行scrapy之後,出現pyopenssl未安裝的情況。但實際上...
記錄scrapy框架的安裝
在windows系統上。scrapy框架的安裝有兩種方式,一種是使用anaconda安裝,一種是分步安裝,安裝好scrapy的依賴庫後再安裝scrapy。anaconda安裝 conda install scrapy分步安裝 首先要安裝好scrapy的四個依賴庫 lxml pyopenssl twi...
記錄 安裝scrapy與pywebkitgtk
記錄 安裝scrapy與pywebkitgtk 我是新裝的ubuntu13.04 因為scrapy是依賴python的,所以先安裝python開發包 plain sudo apt get install python dev 安裝easy install plain wget q python ez...