搞清楚字元編碼10 萬國碼 6

2021-09-25 10:56:32 字數 977 閱讀 4066

這篇部落格簡要介紹一下萬國碼的bom資訊以及萬國碼的大小端

實際儲存編碼總結

在前邊的幾篇部落格中介紹在主要的幾種萬國碼的實際儲存編碼,在這裡簡單的總結一下.

實際儲存編碼

對應的理論編碼

是否變長儲存

編碼大小

其他名稱

ucs-2

ucs2

不變長儲存

2個位元組

unicode

utf-8

ucs2、ucs4

變長儲存

最小1個位元組,最大6個位元組(分配的基本單位是1個位元組)

utf-16

ucs4

變長儲存

2個位元組或4個位元組(分配的基本單位是2位元組)

utf-32

ucs4

不變長儲存

4個位元組

ucs-4

bom資訊

什麼是bom資訊

注意 即使檔案儲存時沒有儲存bom資訊,文字編輯器仍然能夠知道檔案使用的是哪種編碼.

大小端 例子

大端儲存

小端儲存

為什麼會有大小端

文字編輯器在讀取編碼時,會按順序按照每種編碼方案的基本單位讀取。例如utf-8的基本單元是1個位元組,那麼文字編輯器一次讀取1個位元組;utf-16的基本單元是2個位元組,那麼文字編輯器一次讀取2個位元組.

假如使用的是utf-16編碼,那麼在讀取到2個位元組後,又出現了乙個問題,在這個基本單元(2個位元組)中,先讀取哪個位元組.

大小端儲存解決的就是這個問題基本單元內先讀哪個位元組,如果是大端儲存,先讀低位址位元組;如果是小端儲存先讀高位址位元組.

因為utf-8的基本單元是乙個位元組,因此utf-8就不存在大小端的問題了

徹底搞清楚SSL TLS

ssl secure sockets layer 最初由netscape定義,分別有sslv2和sslv3兩個版本 sslv1未曾對外發布 在sslv3之後ssl重新命名為tls。tls transport layer security 版本從tlsv1.0開始,tlsv1.0是在sslv3的基礎上...

搞清楚字元編碼08 萬國碼 4 utf 8

這篇部落格介紹萬國碼中的實際儲存編碼utf 8 utf 8是什麼 utf 8如何儲存ucs2 方案 範圍方案 0 70 x leq 7 070 x 7 117 x leq 11 711110 xx 10 11 1611 x leq 16 1116 1110 x 10 10 16 2116 x leq...

搞清楚LzoCodec和LzopCodec

使用lzo過程會發現它有兩種壓縮編碼可以使用,即lzocodec和lzopcodec,下面說說它們區別 lzocodec比lzopcodec更快,lzopcodec為了相容lzop程式新增了如bytes signature,header等資訊 如果使用 lzocodec作為reduce輸出,則輸出擴...