python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文**爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。
# -*- coding: utf-8 -*-
import urllib2
import re
import requests
import sys
import urllib
#設定編碼
reload(sys)
sys.setdefaultencoding('utf-8')
#獲得系統編碼格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("")
#將網頁以utf-8格式解析然後轉換為系統預設格式
a = r.read().decode('utf-8').encode(type)
print a
最後輸出效果,中文完美輸出
Python網頁爬蟲之中文亂碼
python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...
Python入門之中文亂碼
python入門編碼 python 檔案中如果未指定編碼,有中文 時候,在執行過程會出現報錯 file test.py line 2 syntaxerror non ascii character xe4 in file test.py on line 2,but no encoding decla...
Python入門之中文亂碼
python入門編碼 python 檔案中如果未指定編碼,有中文 時候,在執行過程會出現報錯 file test.py line 2 syntaxerror non ascii character xe4 in file test.py on line 2,but no encoding decla...