chardet編碼識別模組

2021-07-22 09:20:32 字數 673 閱讀 8890

chardet是第三方提供的編碼識別模組,具有較高的準確度。

pip install chardet
chardet.detect(context)

傳入引數:字串

返回值:字典,包含可信度和編碼。

(1)檢測網頁編碼

import chardet 

import urllib

test = urllib.urlopen('').read()

print chardet.detect(test)

輸出結果:

(2)檢測字串編碼

import chardet 

import urllib

test = "你好"

print chardet.detect(test)

輸出結果:

import chardet 

import urllib

test = "hello"

print chardet.detect(test)

輸出結果:

python編碼檢測模組chardet

抓取一批頁面的內容時,經常會遇到編碼型別不同的問題,經常令我們比較頭痛,python有乙個第三方的編碼檢測模組模組,可以為我們自動檢測編碼型別,並給出信心度,它檢測的返回結果形式為 它是乙個字典型別,我們可以通過字典的方式訪問結果中的值。如果採用源 安裝方法,有可能會提示缺少setuptools這個...

chardet檢測編碼

import chardet s chardet.detect b hello world print s confidence欄位,表示檢測的概率是1.0 即100 data 離離原上草,一歲一枯榮 encode gbk result chardet.detect data print resul...

chardet模組的使用

在處理字串時,常常會遇到不知道字串是何種編碼,如果不知道字串的編碼就不能將字串轉換成需要的編碼。面對多種不同編碼的輸入方式,是否會有一種有效的編碼方式?chardet是乙個非常優秀的編碼識別模組。pip install chardet 2.簡單使用 當我們拿到乙個bytes時,就可以對其檢測編碼。用...