在使用scrapy開發爬蟲時,通常需要建立乙個scrapy專案。通過如下命令即可建立 scrapy 專案:
scrapy startproject zhipinspider
在上面命令中,scrapy 是scrapy 框架提供的命令;startproject 是 scrapy 的子命令,專門用於建立專案;zhipinspider 就是要建立的專案名。
scrapy 除提供 startproject 子命令之外,它還提供了 fetch(從指定 url 獲取響應)、genspider(生成蜘蛛)、shell(啟動互動式控制台)、version(檢視 scrapy 版本)等常用的子命令。可以直接輸入 scrapy 來檢視該命令所支援的全部子命令。
執行上面命令,將會看到如下輸出結果:
new scrapy project 'view codezhipinspider
', using template directory '
d:\python3.6\lib\site-packages\scrapy\templates\project
', created in
: c:\users\mengma\zhipinspider
you can start your first spider with:
cd zhipinspider
scrapy genspider example example.com
上面資訊顯示 scrapy 在當前目錄下建立了乙個 zhipinspider 專案,此時在當前目錄下就可以看到乙個 zhipinspider 目錄,該目錄就代表 zhipinspider 專案。
檢視 zhipinspider 專案,可以看到如下檔案結構:
zhipinspider下面大致介紹這些目錄和檔案的作用:│ scrapy.cfg
│ └──zhipinspider
│ item.py
│ middlewares.py
│ pipelines.py
│ setting.py
│├─ spiders
│ │ __init__.py
│ │
│ └─ __pycache__
└─ __pycache__
為了更好地理解 scrapy 專案中各元件的作用,下面給出 scrapy 概覽圖,如圖 1 所示。
圖 1 scrapy 概覽圖
在圖 1 中可以看到,scrapy 包含如下核心元件:
pipeline:該元件由開發者實現,該元件接收到 item 物件(包含蜘蛛提取的資訊)後,可以將這些資訊寫入檔案或資料庫中。
經過上面分析可知,使用 scrapy 開發網路爬蟲主要就是開發兩個元件,蜘蛛和 pipeline。
python scrapy開源專案學習
這個專案的架構不是怎麼複雜,但作為python的初學者,看到這個專案的這麼多 徹底暈了。俗話說,萬事開頭難,確實,開始不知如何下手,如何定製符合自己需求的蜘蛛。只知道建立乙個工程,但工程的各個模組的作用是什麼,如何把這些模組組成乙個整體,讓它真正的發揮作用。好吧,此時最笨的方法是去瞧瞧源 追蹤程式的...
創天下專案總結
1,router這塊只是單純使用了的框架推薦的非同步載入元件,並沒有深入研究webpack的懶載入原理。2,在 my元件的設計上存在瑕疵,之前總是懷疑自己的用法錯誤,直到接觸了react之後,才明白巢狀路由中的子路由是和父路由一起展示的。那說明用法是沒有錯。只是設計上有待商榷,像在做 my和其他巢狀...
python scrapy學習踩點
內容很多,今天簡單學習了scrapy的資料抓取基本流程。建立專案 更改items 寫spiders邏輯。使用命令 scrapy startproject wo 建立名為wo的專案,結構如下 c scrapy.cfg wo items.py pipelines.py settings.py init ...