Python 網頁鏈結中文亂碼的解決

在實現python網路爬蟲的過程中，有時候你會發現有些鏈結中的中文字元會變成「亂碼」。當然所有的亂碼都是缺少乙個合適解碼編碼方式。如果我們需要提取網頁鏈結中的中文字元這麼辦？

在python中我們可以從urllib.parse庫中匯入unquote模組。

實現如下：

from urllib.parse import unquote
url = ""
new_url = unquote(url, 'utf-8')
print(new_url)

效果如圖：

網頁中文亂碼

如果網頁顯式申明了支援中文的編碼如原因1網頁內容本身的編碼與utf 8不相容。是你之前用某工具編輯過網頁內容，儲存為另乙個編碼格式。解決方案用eclipse webstrom ue等,新建乙個html文件，將 copy過去，儲存為utf 8。原因2 後台返回的資料與utf 8不相容解決方案 ...

Python網頁爬蟲之中文亂碼

python是個好工具，但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題，中文爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道，之前爬取的乙個學校網頁就出現了這個問題，但是當時並沒有解決，這著實成了我乙個心病。這不，剛剛一解決就將這個方法公布與眾，大家一同分享。co...

Python 網頁鏈結中文亂碼的解決

網頁中文亂碼

Python網頁爬蟲之中文亂碼

Python網頁爬蟲之中文亂碼

相關推薦