原文:
終端命令
建立乙個專案: scrapy startproject name編寫過程利用蜘蛛名建立乙個py檔案: scrapy genspider name domain.name
在終端執行:scrapy shell url 得到response
利用蜘蛛名進行相對應的執行: scrapy crawl name
利用py檔案進行執行: scrapy
將爬區下來的資料儲存到csv檔案: scrapy crawl name -o file.csv
將爬區下來的資料儲存到json lines檔案:scrapy crawl name -o file.jl
將爬區下來的資料儲存到json檔案:scrapy crawl name -o file.json
先建立乙個爬蟲專案提取資料將要爬去的目標在items.py檔案中先定義好
然後在去spider中的py檔案進行編寫成程式
然後在去pipelines.py檔案中進行資料的儲存
要使用管道,那麼就要開啟管道,到settings.py檔案中開始管道
在setting.py中設定為false就是不遵循robots.txt協議:robotstxt_obey = false
執行爬蟲程式
extract() : 獲取選擇器物件中的文字內容如何將scrapy爬取到的資料儲存到資料庫response.xpath('...') 得到選擇器物件(節點所有內容) [
response.xpath('.../text()') 得到選擇器物件(節點文字)
extract() : 把選擇器物件中的文字取出來 ['文字內容']
mongo 啟動mongodb服務scrapy爬取的資料快快速儲存到本地mongo 進入mongodb shell
先到settings.py檔案中的item_pipelines下面設定mongodb_host,mongodb_port,
mongodb_dbname, mongodb_sheetname.
然後在傳入乙個user_agent
scrapy crawl spider -o filename.json/csv 這樣在終端裡輸入,定義你的檔案格式與name
模擬登入
headers 可以直接寫在裡面formdata 裡面存放要登入的資訊
scrapy常用命令
scrapy startproject myfirst 建立乙個爬蟲專案 strapy startproject logfile tmp scrapy.log myfirst scrapy fetch 用例顯示爬蟲爬去的過程 scrapy runspider first.py 可以使用runspid...
Scrapy常用命令
1,新建乙個工程 scrapy startproject spider name 2,檢視當前專案內有多少爬蟲 scrapy list 3,view使用瀏覽器開啟網頁 scrapy view 4,startproject 語法 scrapy startproject 這個命令是scrapy最為常用的...
scrapy常用命令
1.建立乙個新專案 scrapy startproject myproject 2.在新專案中建立乙個新的spider檔案 scrapy genspider mydomain mydomain.com mydomain為spider檔名,mydomain.com為爬取 網域名稱 3.全域性命令 st...