scrapy 爬蟲程式一覽

成功部署的scrapy環境

安裝pycharm

可以訪問外網的乙個**（如果你的環境可以那麼就可以不用了）

-開啟控制台視窗

-輸入scrapy startproject tutorial，會自動生成一些檔案目錄結構。像這樣子

-爬蟲主程式的功能

爬取網頁中所有文章的標題，作者，標籤

-編寫乙個類(名字隨意取)繼承至scapy.spider，這裡我取名quotesspider

-為爬蟲類定義乙個name屬性，用於標識該爬蟲類是全域性惟一的。

-重寫 start_requests方法

該方法要實現的功能有：yield 乙個scrapy.request(url,callback)例項。其中url,是要爬取的網頁，callback 是解析函式名。我喜歡這種方式，scrapy有快捷方式。

-重寫parse方法

該方法要實現的功能：通過response返回物件，獲取到自己想到的內容，從而達到爬取資料的功能。具體獲取資料方法是通過response 的selector物件

–安整**

「`python

#coding:utf-8
__author__ = 'cong.tang'
import  scrapy
class dmozspider(scrapy.spider):
name = "dmoz"
urls=[
'',]def start_requests(self):
for url in self.urls:
yield  scrapy.request(url,callback=self.parse)
def parse(self, response):
for quote in response.css("div.quote"):#這裡通過css篩選器來建立乙個selector
yield 
# if next_page is not none:
#     next_page  = response.urljoin(next_page)
##     yield  scrapy.request(next_page,callback=self.parse)
# if next_page is not none:
#     yield  response.follow(next_page,callback=self.parse)
for a in response.css('li.next a'):
yield response.follow(a, callback=self.parse)

-開啟命立行執行 scrapy crawl dmoz(spider類中的定義的名字) -o output.json（生成乙個json檔案）

-檢視執行結果如下

免費開源微部落格程式一覽

以twitter為代表的微部落格是今年非常火的社交網路，在國內的發展也在上半年一度非常迅猛，雖然現在大多數微部落格都因為種種原因無法訪問，但這並沒有降低人們對微部落格的熱情，實際上，自己動手搭建乙個類似twitter的微部落格平台並不困難，這裡我就介紹一些常見的開源微部落格程式，有了這些開源只要稍...

HTML標記一覽

標記型別譯名或意義作用備註檔案標記檔案宣告讓瀏覽器知道這是 html 檔案開頭提供檔案整體資訊標題定義檔案標題，將顯示於瀏覽頂端本文設計檔案格式及內文所在排版標記說明標記為檔案加上說明，但不被顯示段落標記為字畫等之間留一空白行換行標記令字畫等顯示於下一行...

HTML 標記一覽

html 標記一覽標記型別譯名或意義作用備註檔案標記檔案宣告讓瀏覽器知道這是 html 檔案開頭提供檔案整體資訊標題定義檔案標題，將顯示於瀏覽頂端本文設計檔案格式及內文所在排版標記說明標記為檔案加上說明，但不被顯示段落標記為字畫等之間留一空白行換行標記令字...

scrapy 爬蟲程式一覽

免費開源微部落格程式一覽

HTML標記一覽

HTML 標記一覽

相關推薦