這篇部落格簡要介紹一下萬國碼的bom資訊以及萬國碼的大小端
實際儲存編碼總結
在前邊的幾篇部落格中介紹在主要的幾種萬國碼的實際儲存編碼,在這裡簡單的總結一下.
實際儲存編碼
對應的理論編碼
是否變長儲存
編碼大小
其他名稱
ucs-2
ucs2
不變長儲存
2個位元組
unicode
utf-8
ucs2、ucs4
變長儲存
最小1個位元組,最大6個位元組(分配的基本單位是1個位元組)
utf-16
ucs4
變長儲存
2個位元組或4個位元組(分配的基本單位是2位元組)
utf-32
ucs4
不變長儲存
4個位元組
ucs-4
bom資訊
什麼是bom資訊
注意 即使檔案儲存時沒有儲存bom資訊,文字編輯器仍然能夠知道檔案使用的是哪種編碼.
大小端 例子
大端儲存
小端儲存
為什麼會有大小端
文字編輯器在讀取編碼時,會按順序按照每種編碼方案的基本單位讀取。例如utf-8
的基本單元是1個位元組,那麼文字編輯器一次讀取1個位元組;utf-16
的基本單元是2個位元組,那麼文字編輯器一次讀取2個位元組.
假如使用的是utf-16
編碼,那麼在讀取到2個位元組後,又出現了乙個問題,在這個基本單元(2個位元組)中,先讀取哪個位元組.
大小端儲存解決的就是這個問題基本單元內先讀哪個位元組
,如果是大端儲存,先讀低位址位元組;如果是小端儲存先讀高位址位元組.
因為utf-8
的基本單元是乙個位元組,因此utf-8
就不存在大小端的問題了
徹底搞清楚SSL TLS
ssl secure sockets layer 最初由netscape定義,分別有sslv2和sslv3兩個版本 sslv1未曾對外發布 在sslv3之後ssl重新命名為tls。tls transport layer security 版本從tlsv1.0開始,tlsv1.0是在sslv3的基礎上...
搞清楚字元編碼08 萬國碼 4 utf 8
這篇部落格介紹萬國碼中的實際儲存編碼utf 8 utf 8是什麼 utf 8如何儲存ucs2 方案 範圍方案 0 70 x leq 7 070 x 7 117 x leq 11 711110 xx 10 11 1611 x leq 16 1116 1110 x 10 10 16 2116 x leq...
搞清楚LzoCodec和LzopCodec
使用lzo過程會發現它有兩種壓縮編碼可以使用,即lzocodec和lzopcodec,下面說說它們區別 lzocodec比lzopcodec更快,lzopcodec為了相容lzop程式新增了如bytes signature,header等資訊 如果使用 lzocodec作為reduce輸出,則輸出擴...