references:
字元編碼中ascii、unicode和utf-8的區別
**ascii碼、unicode編碼、utf-8編碼的區別
條目ascii
unicode
utf-8
占用byte數
12,不常用的字元占用4個
變長的編碼方式,將乙個unicode字元編碼成1-6個字元。常用的英文本母被編譯成1個byte,漢字通常是3個byte,生僻的字元會編碼成4-6個byte。
unicode:能夠對世界上的幾乎所有字元進行編碼。
注:對於js中的array.prototype.sort方法:如果沒有指明 comparefunction ,那麼元素會按照轉換為的字串的諸個字元的unicode位點進行排序。(copy from mdn)
utf-8:utf-8就是在網際網路上使用最廣的一種unicode的實現方式。對於乙份英文文件,本來乙個byte就能夠儲存,這回需要2個byte儲存,不要小看這多出來的一倍,因為伺服器要儲存的並不是我們個人要編輯的乙個兩個文件,而是全世界所有的資訊化資料,多出來的一倍就意味著多出一倍的硬碟。為了解決這個問題出現了utf-8,utf-16等。
另:ascii編碼實際上可以被看成是utf-8編碼的一部分,所以,大量只支援ascii編碼的歷史遺留軟體可以在utf-8編碼下繼續工作
字符集 編碼
字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...
字符集編碼
喬哥 小萌,聽說你去面試了,怎麼樣啊?小萌 哎 喬哥,你給我講講什麼是字符集和編碼唄,ascii,utf 8,utf 16,utf 32又是啥?喬哥 好的,在搞懂字符集先來講講什麼是編碼吧 在計算機底層,比如說你的名字 小萌 在計算機中並不是文字的形式,而是一串二進位制數字,如 0110011001...
字符集編碼
字符集 字元 只有名字和顯示的樣式。例如 comma 字元碼位 交換碼 每個字元定義乙個唯一的數字表示 碼位 例如 0x2c 字元編碼 內碼 針對一套字元碼位的對映演算法,以在計算機內部用位元組序列表示每個碼位。ascii字符集 主要針對英語使用 每個字元的定義,字元碼位和字元編碼完全相同,最簡單的...