在編寫爬蟲時。我們經常要寫css,xpath來對網頁中的資訊進行提取。由於剛開始學習,語法不夠熟練,不能正確的提取網頁資訊,經常導致爬蟲報錯。在執行爬蟲前,對我們提取網頁資訊的css,xpath進行測試是非常重要的。
scrapy shell [url]
以給定的url(如果給出)或者空(沒有給出url)啟動scrapy shell。
scrapy shell
並且啟動互動式命令列,可以用來做一些測試。
response.body # 網頁響應正文 byte型別
response.text # 網頁響應正文 str型別
response.css() # css選擇器
repsonse.xpath() # xpath選擇器
response.css().re()
response.xpath().re()
scrapy 中存在的問題
1 關於spider中的custom settings 我有乙個需求是向spider中傳入custom settings 但是通過 init f方法之後發現不起作用,看了文件之後發現,必須是類的屬性才行 這時候要傳就需要使用spider來傳了 但是還存在的問題就是,關於一些pipeline的設定就沒...
Scrapy中的item是什麼
這兩天看scrapy,看到item這個東西,覺得有點抽象,查了一下,有點明白了。item 是儲存爬取到的資料的容器 其使用方法和python字典類似,並且提供了額外保護機制來避免拼寫錯誤導致的未定義字段錯誤。爬取的主要目標就是從非結構性的資料來源提取結構性資料,例如網頁。scrapy提供 item ...
Scrapy在Ubuntu中的配置
首先python lxml openssl這些工具ubuntu是自帶的,不用管它們。其次安裝pip,在命令列中執行以下命令 sudo apt get install python pip然後安裝兩個安裝scrapy需要的依賴庫,在命令列中分別執行以下三條命令 sudo apt get install...