Python網頁爬蟲之中文亂碼

2021-07-26 15:33:55 字數 661 閱讀 5626

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文**爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。

# -*- coding: utf-8 -*-

import urllib2

import re

import requests

import sys

import urllib

#設定編碼

reload(sys)

sys.setdefaultencoding('utf-8')

#獲得系統編碼格式

type = sys.getfilesystemencoding()

r = urllib.urlopen("")

#將網頁以utf-8格式解析然後轉換為系統預設格式

a = r.read().decode('utf-8').encode(type)

print a

最後輸出效果,中文完美輸出

Python網頁爬蟲之中文亂碼

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...

Python入門之中文亂碼

python入門編碼 python 檔案中如果未指定編碼,有中文 時候,在執行過程會出現報錯 file test.py line 2 syntaxerror non ascii character xe4 in file test.py on line 2,but no encoding decla...

Python入門之中文亂碼

python入門編碼 python 檔案中如果未指定編碼,有中文 時候,在執行過程會出現報錯 file test.py line 2 syntaxerror non ascii character xe4 in file test.py on line 2,but no encoding decla...