佔2個位元組的:〇
佔3個位元組的:基本等同於gbk,含21000多個漢字
佔4個位元組的:中日韓超大字符集裡面的漢字,有5萬多個
乙個utf8數字佔1個位元組
乙個utf8英文本母佔1個位元組
在查詢 utf-8 編碼資料時發現,很多的帖子說的 utf-8 編碼裡,乙個漢字占用3個位元組,有的還做了個證明,大概是這樣的,建立乙個沒有bom的utf-8編碼的文字檔案,裡面儲存了幾個漢字,然後檢視檔案的大小。我覺得這樣的證明沒有一點說服力,因為 utf-8 是變長的,1-6個位元組,少量的漢字檢測是不能說明所有的漢字都是的。
後來我又檢視了字元對映表-漢語,找到了正確的答案,少數是漢字每個占用3個位元組,多數占用4個位元組。
占用3個位元組的範圍
[text]view plain
copy
u+2e80 - u+2ef3 : 0xe2 0xba 0x80 - 0xe2 0xbb 0xb3 共 115 個
u+2f00 - u+2fd5 : 0xe2 0xbc 0x80 - 0xe2 0xbf 0x95 共 213 個
u+3005 - u+3029 : 0xe3 0x80 0x85 - 0xe3 0x80 0xa9 共 36 個
u+3038 - u+4db5 : 0xe3 0x80 0xb8 - 0xe4 0xb6 0xb5 共 7549 個
u+4e00 - u+fa6a : 0xe4 0xb8 0x80 - 0xef 0xa9 0xaa 共 44138 個
u+fa70 - u+fad9 : 0xef 0xa9 0xb0 - 0xef 0xab 0x99 共 105 個
合計: 52156 個
占用4個位元組的範圍
[text]view plain
copy
u+20000 - u+2fa1d : 0xf0 0xa0 0x80 0x80 - 0xf0 0xaf 0xa8 0x9d 共 64029 個
合計: 64029 個
utf 8的中文,乙個字元佔幾個位元組
英文本母和中文漢字在不同字符集編碼下的位元組數 英文本母 位元組數 1 編碼 gb2312 位元組數 1 編碼 gbk 位元組數 1 編碼 gb18030 位元組數 1 編碼 iso 8859 1 位元組數 1 編碼 utf 8 位元組數 4 編碼 utf 16 位元組數 2 編碼 utf 16be...
utf 8的中文,乙個字元佔幾個位元組
英文本母和中文漢字在不同字符集編碼下的位元組數 英文本母 位元組數 1 編碼 gb2312 位元組數 1 編碼 gbk 位元組數 1 編碼 gb18030 位元組數 1 編碼 iso 8859 1 位元組數 1 編碼 utf 8 位元組數 4 編碼 utf 16 位元組數 2 編碼 utf 16be...
double佔幾個位元組
16位編譯器 char 1個位元組 char 即指標變數 2個位元組 short int 2個位元組 int 2個位元組 unsigned int 2個位元組 float 4個位元組 double 8個位元組 long 4個位元組 long long 8個位元組 unsigned long 4個位元...