chardet是第三方提供的編碼識別模組,具有較高的準確度。
pip install chardet
chardet.detect(context)
傳入引數:字串(1)檢測網頁編碼返回值:字典,包含可信度和編碼。
import chardet
import urllib
test = urllib.urlopen('').read()
print chardet.detect(test)
輸出結果:
(2)檢測字串編碼
import chardet
import urllib
test = "你好"
print chardet.detect(test)
輸出結果:
import chardet
import urllib
test = "hello"
print chardet.detect(test)
輸出結果: python編碼檢測模組chardet
抓取一批頁面的內容時,經常會遇到編碼型別不同的問題,經常令我們比較頭痛,python有乙個第三方的編碼檢測模組模組,可以為我們自動檢測編碼型別,並給出信心度,它檢測的返回結果形式為 它是乙個字典型別,我們可以通過字典的方式訪問結果中的值。如果採用源 安裝方法,有可能會提示缺少setuptools這個...
chardet檢測編碼
import chardet s chardet.detect b hello world print s confidence欄位,表示檢測的概率是1.0 即100 data 離離原上草,一歲一枯榮 encode gbk result chardet.detect data print resul...
chardet模組的使用
在處理字串時,常常會遇到不知道字串是何種編碼,如果不知道字串的編碼就不能將字串轉換成需要的編碼。面對多種不同編碼的輸入方式,是否會有一種有效的編碼方式?chardet是乙個非常優秀的編碼識別模組。pip install chardet 2.簡單使用 當我們拿到乙個bytes時,就可以對其檢測編碼。用...