1. scrapy的架構:
使用scrapy框架,需要自己的應用編寫spider和itempipeline的部分,如需要也會重寫middlewares
具體地說,我們需要實現三個類:
item類:用來格式化的定義所爬取的資料;
itempipeline類:用來處理爬取的資料,即item類,通過重寫三個函式open_spider(),process_item()和close_spider()實現
2.spider類
parse()函式用來實現:
a. 從response提取所需要的資訊
b. 將所提取資料部分通過yield拋送給scrapy engine,後續通過itempipleline來處理資料item
3.itempipeline類
b. process_item():處理資料item,比如向資料庫提交insert語句
c. close_spider():spider執行完成時的動作,比如commit事務
4. faq
a. 多層網頁提取:通過scrapy.request的meta和callback來控制,meta用來傳遞資料,callback用來指明下級頁面的parse()函式
b. 須登陸的**:用cookie作session保持
Scrapy實踐 爬取騰訊社會招聘資訊(文字爬取)
注 爬取後的資訊將以json格式儲存,並將檔案命名為 recruit.json 可用notepad 開啟。coding utf 8 import scrapy class txhritem scrapy.item 職位名稱 positionname scrapy.field 職位類別 positio...
最近事情簡記
最近看文章,做實驗,都有一種自己要慢慢主導自己,說服自己的感覺了。這個感覺有時挺要命的,尤其是我這個沒有太多主心骨的人。自己要給自己確認,給自己信心。收發郵件都是要注意措辭的,今天被maxin姐姐指導了一下,也順帶點撥了一下。主要還是精力沒有放在那上邊,導致做事情不夠好。做乙個事情不好,做其它事情也...
訊息佇列簡記
訊息佇列簡記 在了解了訊號量和共享記憶體之後,訊息佇列自然就比較容易理解了。之前提到共享記憶體的操作不是原子的,那麼便可以結合訊號量來進行控制。訊息佇列是另外一種程序間通訊的手段,使用以下幾個函式呼叫。include include include 一般上述兩個標頭檔案都被此檔案包含 int msg...