問題:ip被封,或者因訪問頻率太高被攔截???
解決方案之一:
使用**ip即可。
問題:正確使用xpath之後並沒有輸出???
解決方案之一:
xpath只能提取未注釋的**,改用正規表示式即可。
問題:容易被反爬搞死???
解決方案之一:
headers中都要帶上user-agent,而cookie能不帶則不帶。
報錯:
型別錯誤:需要類似位元組的物件,而不是字串???
解決方案之一:
str通過encode()方法可以編碼為指定的bytes;
ps:反過來,如果我們從網路或磁碟上讀取了位元組流,那麼讀到的資料就是bytes。要把bytes變為str,就需要用decode()方法。
報錯:
utf-8不能處理位元組???
解決方案之一:
在headers中加入cookie即可輸出正常的html。
報錯:
『 gbk 』不能處理『 \xa0 』 ???
解決方案之一:
with
open
('%s.html'
% title,
'w', encoding=
'utf-8'
)as f:
f.write(rep)
問題:
輸出結果是位元組型別,json物件無法正常顯示???
解決方案之一:
使用json.loads
方法即可。
問題:
url =
''
**複製到py檔案中,卻變成了「亂碼」???
解決方案之一:
呼叫urllib.parse.unquote
進行url解碼即可。
問題:解決方案之一:
分析url時,我們一般從第二頁開始分析,而不是第一頁。
問題:不想cookie中攜帶自身賬號內容???
解決方案之一:
利用瀏覽器的無痕視窗功能,進入網頁再取cookie即可。
報錯:解決方案之一:
報錯:解決方案之一:
未完待續哦~~~~
為我心愛的女孩~~
Python爬蟲總結 常見的報錯 問題及解決方案
問題 ip被封,或者因訪問頻率太高被攔截?解決方案之一 使用 ip即可。問題 正確使用xpath之後並沒有輸出?解決方案之一 xpath只能提取未注釋的 改用正規表示式即可。問題 容易被反爬搞死?解決方案之一 headers中都要帶上user agent,而cookie能不帶則不帶。報錯 utf 8...
常見Python爬蟲工具總結
前言 以前寫爬蟲都是用requests包,雖然很好用,不過還是要封裝一些header啊什麼的,也沒有用過無頭瀏覽器,今天偶然接觸了一下。原因是在處理乙個錯誤的時候,用到了幾個以前沒有用過的工具 這幾個工具也挺常見的,在這裡一起總結一下。包括以下幾個 selenium 簡介安裝 簡單使用from se...
python 爬蟲 報錯 求救
在找到某度文庫文件的js檔案鏈結後想用json.loads 進行解析 以上為鏈結的js 檔案 import json import re deffetch url url headers session requests.session return session.get url,headers ...