分析需求
獲取網頁的url
定位元素位置, 獲取特定的資訊(spiders 蜘蛛)
儲存資訊(itempipeline, 一條一條從管裡傳輸)
佇列儲存(scheduler 排程器)
學習文件:
安裝scrapy的方法:
方法1:
# 由於scrapy需要依賴wheel和twisted這兩個包,故需要先按裝好再去安裝scrapy
pip install wheel
pip install 你的路徑/twisted-18.7.0-cp35-cp35m-win_amd64.whl
pip install scrapy
.方法2:
如果是anaconda環境,可以直接使用:
conda install scrapy
建立專案:
scrapy startproject 專案名稱(scrapy_project)
# 建立spider
cd 專案目錄(scrapy_project)
scrapy genspider name ***.com
# 例如 scrapy genspider baidu baidu.com
執行:執行, 建立乙個.py檔案例如(main.py):
整個目錄結構如下:
如果直接爬取拿不到資料,就去setting.py下加入全域性請求報文,將default_request_headers 注釋開啟,加入報文。
刷題筆記day9
pat a1012 the best rank 25分 此題的坑點是,排名涉及並列名次,存在並列第一,並列第三的情況,計算排名時要特別考慮。include include include struct stus 2005 int cmpc const void a,const void b int ...
python學習筆記day9 函式
函式 定義之後可以任何需要他的地方呼叫這個函式 如果函式沒有定義返回值,使用者去取函式的返回值的話,預設返回none 1.返回值的三種情況 1.1 沒有返回值 1.1.1 沒寫return def func print s s 今天天氣好 func 1.1.2 只寫return,後面沒有數值,ret...
金華集訓 筆記 Day9 字尾陣列
sa i 第i小的字尾的編號 rank i 編號為i的字尾的排名 從小到大 heigt i 第i小的字尾和第i 1小的字尾的最長公共字首 字尾陣列的構造 1 倍增 想要求出每個位置往後2 k2 k 2k個字元,這些字元的排名 由長度為2 k2 k 2k的排名可以得出長度為2k 12 2k 1 的字串...