這個主要是獻給初學程式設計的小夥伴的:
在python程式設計中,最常用的資料型別就是字串,而且很多時候你會用到一些不屬於標準ascii字符集的字元,這個時候就容易出現編碼錯誤的異常,這會給初學程式設計的小夥伴造成很大的困擾,但是如果你了解的python的unicode,並在python程式設計中遵循一定的原則,這個問題就很容易解決:
unicode:
unicode是一種字符集,它為每一種現代或者古代的文字提供了統一的序列號,規定了符號的二進位制**,但是沒有規定這個二進位制**應該如何儲存,unicode的編碼方式是固定的大師實現方式可以根據不同的需要有不同的選擇:utf-8、utf-16........
在python中gbk編碼的漢字乙個漢字佔兩個字元
utf-8編碼的漢字乙個漢字佔三個字元
例項:(請將你的名字轉換成二進位制編碼的形式)
#!usr/bin/env python注:1bytes = 8bit(0000,0000)8個二進位制位#-*- coding:utf-8 -*-
m = "李睦晨"
for i in m:#迴圈遍歷m中的每乙個元素
b = bytes(i, encoding="gbk")#將m中的每乙個元素轉換成位元組的形式指定是 gbk的編碼形式
for v in b:#將b是16進製制的形式轉換成10進製
b1 = bin(v)#10進製直接轉換成2進製
print(b1)
1、在gbk編碼中乙個漢字是2個位元組
1個漢字 = 2個位元組 = 16bit(16個二進位制位)
2、在utf-8的編碼中乙個漢字是3個位元組個
1個字母是1位元組佔8個2進製位
Python編碼問題
tag python,encoding,unicode 現有的字元編碼 ascii,gbk,gb2312,utf 8,unicode.unicode可以用來表示所有語言的字元,而且是定長雙位元組 也有四位元組的 編碼,包括英文本母在內。python中定義乙個unicode字串和定義乙個普通字串一樣簡...
python編碼問題
python裡面基本上要考慮三種編碼格式 1 原始檔編碼 在檔案頭部使用coding宣告。告訴python直譯器該 檔案所使用的字符集。usr bin python coding utf8 2 內部編碼 檔案中的字串,經過decode以後,被轉換為統一的unicode格式的內部資料,類似於u uni...
Python編碼問題
python裡面基本上要考慮三種編碼格式 1 原始檔編碼 在檔案頭部使用coding宣告。告訴python直譯器該 檔案所使用的字符集。usr bin python coding utf8 2 內部編碼 檔案中的字串,經過decode以後,被轉換為統一的unicode格式的內部資料,類似於u uni...