翻譯你真的知道你看到的UTF 8字元是什麼嗎

翻譯自

source : sonic0002

如有版權問題請告知.

solórzano

將會給我們介紹世界上使用範圍最廣/包含所有不同字符集的編碼規則.

utf-8是一種unicode字元的編碼方式, 它使用8個bit. unicode是一種用來對不同語言中大多數字元進行編碼的標準.

大約40年前, ascii誕生了. 原始的ascii包含128個字元, 包括大小寫英文, 數字和標點符號, 每個字元使用7個bit編碼.

隨後出現了"拓展ascii", 它使用8個bit來包含更多的字元, 比如á, é, ü. 對於這額外的128個字元空位, 出現了許多不同的**對映集. 比如latin1, windows-1252等等(對於這128個額外字元, 沒有固定的對應表, 取決於種族語言和作業系統等).

很明顯128(7bit)或256(8bit)個字元空位對於同時代表眾多字元都是不夠的. 因此unicode作為乙個可以代表幾乎所有文字系統的標準被提出了. 目前它包含超過1000,000個字元(code point). utf-8 是一種用來編碼這些字元的方式. 在utf-8中的乙個字元可以由1個或更多位元組(byte)組成. 前128個字元和ascii碼是一樣的. 之後的字元就使用超過1個位元組來進行編碼. 乙個獨立字元中的每個位元組都以乙個特殊的位順序開頭來表示此位元組和前乙個位元組描述的是同乙個字元.

table from wikipedia:

比如,á是乙個unicode字元編碼,

u+00e1, 或者 225(十進位制)

225的二進位制是11100001.

因為需要8個bit來表示這個數字(225), 因此在utf-8中我們需要使用2個位元組來對它進行編碼(原ascii表中的前128個字元才使用1個位元組, 它們只用7個bit). 所以, 使用第一張表作為參考, 我們可以把這個字元編碼成:

1100001110100001

粗體部分是數字225,

非粗體的是編碼必須的模式.

因此, 如果你開啟了乙個包含位元組c3 a1的文字檔案, 並且程式認為編碼格式是utf-8,

你就會看到á.

翻譯你真的知道你看到的UTF 8字元是什麼嗎

你真的知道元件中的v model嗎？

你也真的不知道的排序與分組優化，你品，你細品？

日記俠你真的想知道引流的方法嗎？

翻譯 你真的知道你看到的UTF 8字元是什麼嗎

你真的知道元件中的v model嗎？

你也真的 不知道的排序與分組優化，你品，你細品？

日記俠 你真的想知道引流的方法嗎？

相關推薦

翻譯你真的知道你看到的UTF 8字元是什麼嗎

你也真的不知道的排序與分組優化，你品，你細品？

日記俠你真的想知道引流的方法嗎？