python抓取中文網頁亂碼通用解決方法

我們經常通過python做採集網頁資料的時候，會碰到一些亂碼問題，今天給大家分享乙個解決網頁亂碼，尤其是中文網頁的通用方法。

首頁我們需要安裝chardet模組，這個可以通過easy_install 或者pip來安裝。

安裝完以後我們在控制台上匯入模組，如果正常就可以。

比如我們遇到的一些iso-8859-2也是可以通過下面的方法解決的。

直接上**吧：

import urllib2
import sys
import chardet
req = urllib2.request(「
content = urllib2.urlopen(req).read()
typeencode = sys.getfilesystemencoding()##系統預設編碼
infoencode = chardet.detect(content).get(『encoding』,』utf-8′)##通過第3方模組來自動提取網頁的編碼
html = content.decode(infoencode,』ignore』).encode(typeencode)##先轉換成unicode編碼，然後轉換系統編碼輸出
print html

Python抓取中文網頁

早就有想法把部落格每天的訪問流量記下來，剛好現在申請了gae的應用，又開始學python，正好拿這個練手。打算先利用python把訪問記錄儲存在本地，熟悉之後可以部署到gae，利用gae提供的cron就可以每天更近訪問流量了。ok，開始首先是簡單的網頁抓取程式 python view plain ...

中文網頁編碼使用python轉為中文

編碼1 測試中文對應的網頁實體編碼unicode 編碼2 u6d4b u8bd5 編碼3 測試中文對應的網頁實體編碼utf 8 編碼4 xe6 xb5 x8b xe8 xaf x95 編碼4 ascii 碼，其中三個 x表示乙個漢字 s b xe6 xb5 x8b xe8 xaf x95 pri...

python 處理抓取網頁亂碼

相信用python的人一定在抓取網頁時，被編碼問題弄暈過一陣前幾天寫了乙個測試網頁的小指令碼，並查詢是否包含指定的資訊。在html urllib2.open url read 時，列印到控制台始終出現亂碼。一般的解決辦法就是html.decode utf 8 encode gb2312 不過這個即...

python抓取中文網頁亂碼通用解決方法

Python抓取中文網頁

中文網頁編碼使用python轉為中文

python 處理抓取網頁亂碼

相關推薦