最近總被房產中介騷擾,因此打算做一件事情:找乙個爬蟲把自己區域內所有中介的手機號爬下來,統統匯入手機黑名單。
經過簡單比較,感覺scrapy挺小巧的,因此選擇了它。
安裝:
(windows環境)
scrapy的安裝還是有一點麻煩,因為它本身依賴的專案足有5個之多。不過你如果正確安裝了vs2008的c++編譯器(注意是vs2008。。。高版本也不行)
直接用
pip install scrapy
就可以搞定所有依賴項自動安裝。
不然的話。就有點麻煩了。可以根據pip的出錯資訊,乙個個手動安裝完依賴(想偷懶的話下binary的包比較省事)。
官方安裝文件:
可以參考stackoverflow的帖子:
一勞永逸的解決python安裝時遇到的編譯問題:兩條路,用minggw的gcc編譯(我選的),搞定其它版本vs。
第乙個小例子:
建立乙個目錄,在命令列模式進入這個目錄後執行下面語句。
scrapy startproject firstscrapy你會得到如下的乙個目錄結構:
firstscrapyl/scrapy.cfgfirstscrapy/__init__.py
items.py
pipelines.py
settings.py
spiders/__init__.py
未完。
Scrapy爬蟲筆記 1
1 安裝 使用pip install scrapy 假如使用了fiddler作為 伺服器進行除錯分析,為了避免該軟體的影響 開啟fiddler,進入 tools fiddler options connections 將 act as system proxy on startup 和 monito...
Scrapy學習筆記
於網路 上圖就是整個scrapy的架構圖了,主要包括部分作用如下 scrapy執行流程 scrapy engine從spiders獲取初始的url,並將這些request交給scheduler進行排列。scrapy engine從scheduler獲取處理好的request。scrapy engin...
scrapy學習(1)安裝
環境 ubuntu14.04 python2.7 資料 1,python2.7,pip,setuptools都是已經安裝完成 2,lxml和openssl sudo apt get install python openssl sudo apt get install python lxml 都顯示...