Unicode與UTF 8編碼規則轉換

[size=medium]unicode符號範圍 | utf-8編碼方式

(十六進製制) | （二進位制）

--------------------+----[/size]-----------------------------------------

0000 0000-0000 007f | 0******x 0000 0080-0000 07ff | 110***xx 10****** 0000 0800-0000 ffff | 1110***x 10****** 10******

0001 0000-0010 ffff | 11110*** 10****** 10****** 10******

[size=medium]下面，還是以漢字「嚴」為例，演示如何實現utf-8編碼。

已知「嚴」的unicode是4e25（100111000100101），根據上表，可以發現4e25處在第三行的範圍內（0000 0800-0000 ffff），因此「嚴」的utf-8編碼需要三個位元組，即格式是「1110***x 10****** 10******」。然後，從「嚴」的最後乙個二進位制位開始，依次從後向前填入格式中的x，多出的位補0。這樣就得到了，「嚴」的utf-8編碼是「11100100 10111000 10100101」，轉換成十六進製制就是e4b8a5。[/size]

Unicode與UTF 8編碼規則轉換

unicode編碼和utf 8編碼詳解

unicode和utf8編碼詳解

Unicode編碼和utf 8編碼的區別

Unicode與UTF 8編碼規則轉換

unicode編碼和utf 8編碼詳解

unicode和utf8編碼詳解

Unicode編碼和utf 8編碼的區別

相關推薦