python 檢測是否是UTF 8編碼

utf-8（8-bit unicode transformation format）是一種針對unicode的可變長度字元編碼，又稱萬國碼，由ken thompson於2023年建立。現在已經標準化為rfc 3629。utf-8用1到6個位元組編碼unicode字元。用在網頁上可以統一頁面顯示中文簡體繁體及其它語言（如英文，日文，韓文）。

由於我們使用正規表示式匹配二進位制檔案或者其他非格式化檔案時，正規表示式的匹配內容就有可能出問題，當我們再試圖使用這些資訊是，編譯器可能就報錯，不識別這些文字，這時我們就要識別匹配出來的字串是不是utf-8編碼。

簡單介紹一下utf-8編碼格式，

後面的byte數5、6的都不使用了，所以我們就討論前面的byte數為1、2、3、4的四種情況。**說話

def is_utf_8(str):
remain = 0         #剩餘byte數
for x in range(len(str)):
if remain == 0:
if (ord(str[x]) & 0x80) == 0x00:
remain = 0
elif (ord(str[x]) & 0xe0) == 0xc0:
remain = 1
elif (ord(str[x]) & 0xf0) == 0xe0:
remain = 2
elif(ord(str[x]) & 0xf8) == 0xf0:
remain = 3
else:
return false
else:
if not ((ord(str[x]) & 0xc0) == 0x80):
return false
remain = remain - 1
if remain == 0: 	    #最後如果remain不等於零，可能沒有匹配完整
return true
else:
return false

python 檢測是否是UTF 8編碼

檢測位元組流是否是UTF8編碼

檢測位元組流是否是UTF8編碼

判斷檔案是否是utf 8

python 檢測是否是UTF 8編碼

檢測位元組流是否是UTF8編碼

檢測位元組流是否是UTF8編碼

判斷檔案是否是utf 8

相關推薦