Python爬蟲總結常見的報錯問題及解決方案

問題：ip被封，或者因訪問頻率太高被攔截？？？

解決方案之一：

使用**ip即可。

問題：正確使用xpath之後並沒有輸出？？？

解決方案之一：

xpath只能提取未注釋的**，改用正規表示式即可。

問題：容易被反爬搞死？？？

解決方案之一：

headers中都要帶上user-agent，而cookie能不帶則不帶。

報錯：

型別錯誤：需要類似位元組的物件，而不是字串？？？

解決方案之一：

str通過encode()方法可以編碼為指定的bytes；

ps：反過來，如果我們從網路或磁碟上讀取了位元組流，那麼讀到的資料就是bytes。要把bytes變為str，就需要用decode()方法。

報錯：

utf-8不能處理位元組？？？

解決方案之一：

在headers中加入cookie即可輸出正常的html。

報錯：

『 gbk 』不能處理『 \xa0 』？？？

解決方案之一：

with
open
('%s.html'
% title,
'w', encoding=
'utf-8'
)as f:
f.write(rep)

問題：

輸出結果是位元組型別，json物件無法正常顯示？？？

解決方案之一：

使用json.loads方法即可。

問題：

url =
''

**複製到py檔案中，卻變成了「亂碼」？？？

解決方案之一：

呼叫urllib.parse.unquote進行url解碼即可。

問題：解決方案之一：

分析url時，我們一般從第二頁開始分析，而不是第一頁。

問題：不想cookie中攜帶自身賬號內容？？？

解決方案之一：

利用瀏覽器的無痕視窗功能，進入網頁再取cookie即可。

報錯：解決方案之一：

未完待續哦~~~~

為我心愛的女孩~~

Python爬蟲總結常見的報錯問題及解決方案

問題 ip被封，或者因訪問頻率太高被攔截？解決方案之一使用 ip即可。問題正確使用xpath之後並沒有輸出？解決方案之一 xpath只能提取未注釋的改用正規表示式即可。問題容易被反爬搞死？解決方案之一 headers中都要帶上user agent，而cookie能不帶則不帶。報錯 utf 8...

常見Python爬蟲工具總結

前言以前寫爬蟲都是用requests包，雖然很好用，不過還是要封裝一些header啊什麼的，也沒有用過無頭瀏覽器，今天偶然接觸了一下。原因是在處理乙個錯誤的時候，用到了幾個以前沒有用過的工具這幾個工具也挺常見的，在這裡一起總結一下。包括以下幾個 selenium 簡介安裝簡單使用from se...

python 爬蟲報錯求救

在找到某度文庫文件的js檔案鏈結後想用json.loads 進行解析以上為鏈結的js 檔案 import json import re deffetch url url headers session requests.session return session.get url,headers ...

Python爬蟲總結 常見的報錯 問題及解決方案

Python爬蟲總結 常見的報錯 問題及解決方案

常見Python爬蟲工具總結

python 爬蟲 報錯 求救

相關推薦

Python爬蟲總結常見的報錯問題及解決方案

Python爬蟲總結常見的報錯問題及解決方案

python 爬蟲報錯求救