成功部署的scrapy環境
安裝pycharm
可以訪問外網的乙個**(如果你的環境可以那麼就可以不用了)
-開啟控制台視窗
-輸入scrapy startproject tutorial,會自動生成一些檔案目錄結構。像這樣子
-爬蟲主程式的功能
爬取網頁中所有文章的標題,作者,標籤
-編寫乙個類(名字隨意取)繼承至scapy.spider,這裡我取名quotesspider
-為爬蟲類定義乙個name屬性,用於標識該爬蟲類是全域性惟一的。
-重寫 start_requests方法
該方法要實現的功能有:yield 乙個scrapy.request(url,callback)例項。其中url,是要爬取的網頁,callback 是解析函式名。我喜歡這種方式,scrapy有快捷方式。
-重寫parse方法
該方法要實現的功能:通過response返回物件,獲取到自己想到的內容,從而達到爬取資料的功能。具體獲取資料方法是通過response 的selector物件
–安整**
「`python
#coding:utf-8
__author__ = 'cong.tang'
import scrapy
class dmozspider(scrapy.spider):
name = "dmoz"
urls=[
'',]def start_requests(self):
for url in self.urls:
yield scrapy.request(url,callback=self.parse)
def parse(self, response):
for quote in response.css("div.quote"):#這裡通過css篩選器來建立乙個selector
yield
# if next_page is not none:
# next_page = response.urljoin(next_page)
## yield scrapy.request(next_page,callback=self.parse)
# if next_page is not none:
# yield response.follow(next_page,callback=self.parse)
for a in response.css('li.next a'):
yield response.follow(a, callback=self.parse)
-開啟命立行執行 scrapy crawl dmoz(spider類中的定義的名字) -o output.json(生成乙個json檔案)
-檢視執行結果如下
免費開源微部落格程式一覽
以twitter為代表的微部落格是今年非常火的社交網路,在國內的發展也在上半年一度非常迅猛,雖然現在大多數微部落格都因為種種原因無法訪問,但這並沒有降低人們對微部落格的熱情,實際上,自己動手搭建乙個類似twitter的微部落格平台並不困難,這裡我就介紹一些常見的開源微部落格程式,有了這些開源 只要稍...
HTML標記一覽
標記 型別譯名或意義 作 用備註 檔案標記 檔案宣告 讓瀏覽器知道這是 html 檔案 開頭 提供檔案整體資訊 標題 定義檔案標題,將顯示於瀏覽頂端 本文 設計檔案格式及內文所在 排版標記 說明標記 為檔案加上說明,但不被顯示 段落標記 為字 畫 等之間留一空白行 換行標記 令字 畫 等顯示於下一行...
HTML 標記一覽
html 標記一覽 標記 型別譯名或意義 作 用備註 檔案標記 檔案宣告 讓瀏覽器知道這是 html 檔案 開頭 提供檔案整體資訊 標題 定義檔案標題,將顯示於瀏覽頂端 本文 設計檔案格式及內文所在 排版標記 說明標記 為檔案加上說明,但不被顯示 段落標記 為字 畫 等之間留一空白行 換行標記 令字...