utf 8中的漢字占用多少位元組

2022-05-04 03:57:11 字數 1129 閱讀 3365

**:

佔2個位元組的:〇

佔3個位元組的:基本等同於gbk,含21000多個漢字

佔4個位元組的:中日韓超大字符集裡面的漢字,有5萬多個

乙個utf8數字佔1個位元組

乙個utf8英文本母佔1個位元組

在查詢 utf-8 編碼資料時發現,很多的帖子說的 utf-8 編碼裡,乙個漢字占用3個位元組,有的還做了個證明,大概是這樣的,建立乙個沒有bom的utf-8編碼的文字檔案,裡面儲存了幾個漢字,然後檢視檔案的大 小。我覺得這樣的證明沒有一點說服力,因為 utf-8 是變長的,1-6個位元組,少量的漢字檢測是不能說明所有的漢字都是的。

後來我又檢視了字元對映表-漢語,找到了正確的答案,少數是漢字每個占用3個位元組,多數占用4個位元組。

占用3個位元組的範圍

[text]view plain

copy

u+2e80 - u+2ef3 : 0xe2 0xba 0x80 - 0xe2 0xbb 0xb3      共 115 個  

u+2f00 - u+2fd5 : 0xe2 0xbc 0x80 - 0xe2 0xbf 0x95      共 213 個  

u+3005 - u+3029 : 0xe3 0x80 0x85 - 0xe3 0x80 0xa9      共 36 個  

u+3038 - u+4db5 : 0xe3 0x80 0xb8 - 0xe4 0xb6 0xb5      共 7549 個  

u+4e00 - u+fa6a : 0xe4 0xb8 0x80 - 0xef 0xa9 0xaa      共 44138 個  

u+fa70 - u+fad9 : 0xef 0xa9 0xb0 - 0xef 0xab 0x99      共 105 個  

合計:52156

占用4個位元組的範圍

[text]view plain

copy

u+20000 - u+2fa1d : 0xf0 0xa0 0x80 0x80 - 0xf0 0xaf 0xa8 0x9d      共 64029 個  

合計:64029

utf 8中的漢字佔多少個位元組

佔2個位元組的 0個漢字 佔3個位元組的 基本等同於gbk,含21000多個漢字 佔4個位元組的 中日韓超大字符集裡面的漢字,有5萬多個 乙個utf8數字佔1個位元組 乙個utf8英文本母佔1個位元組 在查詢 utf 8 編碼資料時發現,很多的帖子說的 utf 8 編碼裡,乙個漢字占用3個位元組,有...

UTF 8 編碼裡,乙個漢字占用多少個位元組 轉

在查詢 utf 8 編碼資料時發現,很多的帖子說的 utf 8 編碼裡,乙個漢字占用3個位元組,有的還做了個證明,大概是這樣的,建立乙個沒有bom的utf 8編碼的文字檔案,裡面儲存了幾個漢字,然後檢視檔案的大小。我覺得這樣的證明沒有一點說服力,因為 utf 8 是變長的,1 6個位元組,少量的漢字...

utf 8的中文漢字

從字元編碼講起。1 美國人首先對其英文本元進行了編碼,也就是最早的ascii碼,用乙個位元組的低7位來表示英文的128個字元,高1位統一為0 2 後來歐洲人發現尼瑪你這128位哪夠用,比如我高貴的法國人字母上面的還有注音符,這個怎麼區分,得,把高1位編進來吧,這樣歐洲普遍使用乙個全位元組進行編碼,最...