編碼學習之unicode

unicode（統一碼、萬國碼、單一碼）是一種在計算機上使用的字元編碼,它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼，來滿足跨平台、跨語言進行文字轉換、處理的要求。

unicode是基於通用字符集（universal character set）的標準來發展的，現在ucs主要有兩種表示方式，一種是ucs-2使用兩個位元組編碼，另一種是ucs-4使用四個位元組編碼。目前大部分的unicode主要是使用ucs-2標準來的。

unicode 通過對每個字元進行定義，比如"經"的編碼是）0x7ecf，注意字元編碼一般使用十六進製制來表示，為了和十進位制區分，十六進製制以0x開頭。

unicodde 的字元編碼包含了ascii編碼，將0-127的字元編碼來表示ascii編碼定義的字元。對於漢字的編碼來說，unicode肯定不可能定義出所有的漢字（簡體字、繁體字等），所以選擇最常用的漢字來進行編碼，摒棄了一些極少用的漢字，這是因為兩個位元組的unicode，理論上能夠定義65536個字元，但是目前漢字的數量至少6、7萬個，所以無法完全定義。ucs-4標準的unicode完全可以勝任這項工作，但是目前定義工作還沒有完善，所以沒有普遍使用。

計算機記憶體中儲存的肯定是一些01組成的編碼，如果檔案中的編碼使用的unicode編碼的話，每個字元都對應唯一的乙個unicode編碼，這個編碼占用兩個位元組，在存入記憶體中的時候，轉換成二進位制的形式，通過一定的實現方法（這裡的實現方法的意思是，安裝字元對應的unicode編碼標準來具體實現，現在流行的unicode編碼標準的實現有utf-8、utf-16等）來儲存在記憶體中。

編碼學習之unicode

unicode編碼學習

python 學習 unicode 編碼

字元編碼 unicode編碼

編碼學習之unicode

unicode編碼學習

python 學習 unicode 編碼

字元編碼 unicode編碼

相關推薦