在實現python網路爬蟲的過程中,有時候你會發現有些鏈結中的中文字元會變成「亂碼」。當然所有的亂碼都是缺少乙個合適解碼編碼方式。如果我們需要提取網頁鏈結中的中文字元這麼辦?
在python中我們可以從urllib.parse庫中匯入unquote模組。
實現如下:
from urllib.parse import unquote
url = ""
new_url = unquote(url, 'utf-8')
print(new_url)
效果如圖: 網頁中文亂碼
如果網頁顯式申明了支援中文的編碼 如 原因1網頁內容本身的編碼與utf 8不相容。是你之前用某工具編輯過網頁內容,儲存為另乙個編碼格式。解決方案 用eclipse webstrom ue等,新建乙個html文件,將 copy過去,儲存為utf 8。原因2 後台返回的資料與utf 8不相容 解決方案 ...
Python網頁爬蟲之中文亂碼
python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...
Python網頁爬蟲之中文亂碼
python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...