我們經常通過python做採集網頁資料的時候,會碰到一些亂碼問題,今天給大家分享乙個解決網頁亂碼,尤其是中文網頁的通用方法。
首頁我們需要安裝chardet模組,這個可以通過easy_install 或者pip來安裝。
安裝完以後我們在控制台上匯入模組,如果正常就可以。
比如我們遇到的一些iso-8859-2也是可以通過下面的方法解決的。
直接上**吧:
import urllib2
import sys
import chardet
req = urllib2.request(「
content = urllib2.urlopen(req).read()
typeencode = sys.getfilesystemencoding()##系統預設編碼
infoencode = chardet.detect(content).get(『encoding』,』utf-8′)##通過第3方模組來自動提取網頁的編碼
html = content.decode(infoencode,』ignore』).encode(typeencode)##先轉換成unicode編碼,然後轉換系統編碼輸出
print html
Python抓取中文網頁
早就有想法把部落格每天的訪問流量記下來,剛好現在申請了gae的應用,又開始學python,正好拿這個練手。打算先利用python把訪問記錄儲存在本地,熟悉之後可以部署到gae,利用gae提供的cron就可以每天更近訪問流量了。ok,開始 首先是簡單的網頁抓取程式 python view plain ...
中文網頁編碼使用python轉為中文
編碼1 測試 中文對應的網頁實體編碼unicode 編碼2 u6d4b u8bd5 編碼3 測試 中文對應的網頁實體編碼utf 8 編碼4 xe6 xb5 x8b xe8 xaf x95 編碼4 ascii 碼,其中三個 x表示乙個漢字 s b xe6 xb5 x8b xe8 xaf x95 pri...
python 處理抓取網頁亂碼
相信用python的人一定在抓取網頁時,被編碼問題弄暈過一陣 前幾天寫了乙個測試網頁的小指令碼,並查詢是否包含指定的資訊。在html urllib2.open url read 時,列印到控制台始終出現亂碼。一般的解決辦法就是html.decode utf 8 encode gb2312 不過這個即...