我們所看所說的都是某種字元,如英文 漢字等 ==》字符集
計算機儲存與處理的都是用二進位制數
==》字元編碼
字符集(charset):某種(各種)文字和符號的集合
字元編碼(character encoding):在符號集合與數字系統之間建立的對應關係。也就是將符號轉換為計算機可以接受的數字系統的數,稱為數字**。
編碼:按照何種規則將字元儲存在計算機中,如'a'用什麼表示,稱為編碼。
解碼:將儲存在計算機中的二進位制數解析顯示出來,稱為解碼。
要知道:同樣的文字,不同的編碼所儲存的二進位制資料是不同的。
ascii(american standard code for information interchange):它是現今最通用的單位元組編碼系統,主要用於顯示現代英語
ascii字符集:主要包括控制字元,英文大小寫字元 阿拉伯數字和西文符號等,也叫"半形"字元
ascii編碼: 將ascii字符集轉換為計算機可以接受的數字系統的數的規則,用乙個位元組來表示
gb2312:這是比較通用的漢字的編碼系統。使用兩個位元組來表示。涵蓋了ascii字符集,因包含的符號較全面,也稱為"全形"字元
unicode編碼系統為表達任意語言的任意字元而設計。它使用4位元組的數字來表達每個字母 符號 或者表意文字。每個數字代表唯一的至少在某種語言中使用的符號。
可以說unicode是字符集,utf-32 utf-16 utf-8是三種基於unicode的編碼規則。
utf-32 (32-bit unicode transformation format):固定用4個位元組的數字來代表唯一的某個字元。
utf-16 (32-bit unicode transformation format):0到65535之內用2個位元組表示,超出則用4個位元組表示
utf-8 (8-bit unicode transformation format):128個us-ascii字元只需乙個位元組編碼
拉丁文 希臘文 亞美尼亞語等用兩個位元組編碼
基本多文種平面字元,如漢字使用三個位元組編碼
極少使用的用四位元組編碼
是現今世界較通用的編碼方式
要點:1、用什麼樣的編碼格式錄入(儲存,儲存),就告訴瀏覽器用什麼樣的編碼格式()解碼顯示。
2、utf-8+bom編碼似乎能夠較好的解決因**移植引起的亂碼問題。utf-8是推薦的編碼方式。
幾個常用的特殊字元的編碼:
" => "
' => '
=>
< => <
> => >
& => &
字符集和字符集編碼詳解
gb2312 gbk ascii asni unicode utf 8等等,這些字眼非常常見,同時帶來許多的問題。本文只是從理解的角度,說明以上內容的不同含義從而達到區分其用法的目的是夠了的。至於實現方式,可以查閱各自的詳細標準官方文件。先解釋乙個概念,什麼是字符集,嗯,不解釋了,我弄乙個吧 從今以...
字符集和編碼
什麼是字元?字元就是文字和符號的統稱,字符集就是多個字元的集合,字符集有很多種,常見的有ascii,gb2312,unicode字符集。什麼是編碼?計算機要準確的處理字符集中的文字,就需要對字元進行編碼。對unicode字符集編碼的叫做unicode編碼,對ascii字符集編碼叫做ascii編碼。a...
編碼和字符集
ascii unicode gb2312等都是字符集,用於定義編號指代的字元。utf 8,utf 16則是unicode的編碼格式。ascii ascii只有128個,能表示英文 數字 常用符號。gb2312 gb2312是中文特有的字符集,有2萬多個字元,前128個和ascii保持一致,因此能相容...