scrapy基本命令
1.help:scrapy的基本命令,用於檢視幫助資訊
列:scrapy -help
2.version: 檢視版本資訊,可見-v引數檢視各元件的版本資訊
列:scrapy version –v
3.startproject:用於建立乙個工程,並建立乙個完整的工程目錄
列:scrapy startproject name
4.genspider
在工程中產生乙個spider
可產生多個spider,不同的spider要求name不同
列:scrapy genspider name(爬蟲名) kgc.com(爬取的網域名稱)
5.list:檢視本工程中有哪些spider(爬蟲)
列:scrapy list
6.view:檢視你所或得的頁面原始碼在瀏覽器中顯示的樣子
列:scrapy view7.parse: 判斷我們寫的parse是否有正確
列:scrapy parse
8.shell: 進入python的互動式環境中
列; shell
9.runspider: 執行自包含的爬蟲
列:scrapy runspiderspider.py(爬蟲檔案)
10.bench: 執行乙個基準的測試,用來檢測scrapy是否安裝成功
列: scrapy bench
spider
1.
基本介紹:
a) 概念
spider是乙個類,它定義了怎樣爬取乙個**, 包括怎樣去跟蹤連線、包括提取資料
b) 迴圈執行流程
generating the initial requests (根據初始的url去產生一些request)
parse the response(然後去解析這些request產生的response)
using selector (接著用selector抽取器抽取想要的內容)
store item (對抽取到的內容進行儲存)
2.
基類(scrapy.spider
)介紹a) 屬性
name:spider的名稱,要求唯一
allowed domanins:允許的網域名稱
start_urls:初始urls
custom_settings:個性化設定,會覆蓋全域性的設定
crawler:抓取器,spider將繫結到它上面
settings:配置例項,包含工程中所有的配置變數
logger:日誌例項
b) 方法
from_crawler(crawler,*args,**kwargs):類方法,用於建立spider
start_requests():生成初始的requests
make_requests_from_url(url):根據url生成乙個request
parse(response):用來解析網頁內容
log(message [ , level,component]):用來記錄日誌,這是請使用logger屬性記錄日子
self.logger.info(『visitedsuccess』)
closed(reason):當spider關閉的時候呼叫的方法
c) 子類介紹
crawlspider
1. 最常用的spider,用於抓取普通的網頁
2. 增加了兩個成員
1. rules:定義了一些抓取規則—連線怎麼跟蹤、使用哪乙個parse函式解析次連線
2. parse_start_url(response):解析初始url的響應
xmlfeedspider :解析xml
csvfeedspider:解析csvfeed
sitemapspider:解析sitemap
selector
用來解析網頁的庫有很多,比如beautifulsoup、xml,但在scrapy裡面預設使用的是selector,相對來說㛑算是最好用的
items
定義屬性
itempipelines
a) 作用
i. 清洗html資料
ii. 去驗證你所抓取到的資料
iii. 去核查是否有重複的資料
iv. 去儲存你所抓取到的資料到資料庫當中
b) 編寫方法
c) 配置方法
feed exports
儲存你所抓取到的資料,格式有json、csv、xml等等
1 scrapy框架及基本命令
scrapy h 檢視幫助 執行單個 不依賴專案的爬蟲檔案在cmd裡用runspider.檔案 version 檢視版本資訊 重點 startproject 檔名 新建專案 genspider l 展示爬蟲模板 genspider t 模板 名稱 目標 網域名稱 建立爬蟲 nolog 不顯示日誌資訊...
vim基本命令及實驗
基本命令 1.vim 在命令列中輸入vim,進入vim編輯器 2.i 按一下i鍵,下端顯示 insert 插入命令,在vim中可能任意字元都有作用 3.esc 退出i 插入 命令進行其它命令使用 4.r filename 讀入乙個檔案內容,並寫入到當前編輯器中 5.w newfilename 將該編...
hadoop執行及基本命令
1格式化namenode 是對namenode進行初始化 hdfs namenode format hadoop namenode format 2啟動hadoop 需要配置免密登入 先啟動hdfs sbin start dfs.sh 再啟動yarn sbin start yarn.sh 3驗證是否...