1.這個問題要麼換3.6要麼改原始碼
2.robots.txt:
debug: forbidden by robots.txt:這個檔案中規定了本站點允許的爬蟲機器爬取的範圍,因為預設scrapy遵守robot協議,所以會先請求這個檔案檢視自己的許可權,出錯是因為使用的爬蟲爬取內容違背這個robot.txt。所以只要讓爬蟲不遵守該協議就好了,具體做法是找到settings檔案裡的robotstxt_obey設定成false。
# obey robots.txt rules
robotstxt_obey = false
3.xpath的text()和extract()
extract()這個是獲取到標籤的所有資訊4.403解決,settings下面用這個就行text()則是將該標籤的的值獲取到,也就是》這裡的值<
5.json.loads和jumps的區別
json.dumps : dict轉成str6.scrapy 列印頁面出現編碼不正確json.loads:str轉成dict
print(html.decode('utf-8', 'ignore')) #這樣子是py3預設utf8 列印 不用utf-8列印就行
xpath 如何去掉換行和空格
normalize-space(//*[@class="entry-meta-hide-on-mobile"]/text())
translate():替換字元,產生新的字串
8.unknown command: crawl
這個是沒有進到專案根目錄
Scrapy 問題錦集(後邊繼續更新
1.這個問題要麼換3.6要麼改原始碼 2.robots.txt debug forbidden by robots.txt 這個檔案中規定了本站點允許的爬蟲機器爬取的範圍,因為預設scrapy遵守robot協議,所以會先請求這個檔案檢視自己的許可權,出錯是因為使用的爬蟲爬取內容違背這個robot.t...
iscsi問題錦集
1.iscsi 客戶端discovery伺服器端操作失敗 解決 先執行 o new操作 iscsiadm m node t iqn.2010 06.de.boerse go disklesstest p 100.20.56.2 3260 o new 再執行discovery 以及login等操作 2...
面試問題錦集
已取得offer 1.融先科技 2.浙江農信 3.華為 cloud bu 雲計算方向 經典c 筆試題目100例,接近實際,值得一看!c 面試題目,整理自牛客網 堆疊相關 虛函式,純虛函式,虛函式表。程序和執行緒的同步 雜湊表構造 紅黑樹和b樹區別 函式指標 什麼情況下會棧溢位 回答了個遞迴 題二 區...