可見字元:英文本母、數字、標點符號(0-31、127,共33個)
控制字元:回車、換行等(32-126,共95個)
最初的編碼:
碼位解釋
二進位制資訊(ascii碼)
0空字元
0000 0000
1標題開始
0000 0001
2正文開始
0000 0010……
…10換行0000 1010……
…13回車0000 1101
31單元分隔符
0001 1111
32空格
0010 000033!
0010 0001……
…4800011 0000……
…65a0100 0001……
…90z0101 1010……
…99a0110 0001……
…122
z0111 1010……
…127
刪除0111 1111
所以ascii碼只能表示0000 0000- 0111 1111共128個字元
歐洲人擴充套件了ascii字符集,1000 0000-1111 1111,擴充套件了128個
當電腦來到中國,256個字元依然不夠用,因此用16位表示乙個字元
先設計字符集,才能對字符集編碼
使用分割槽管理,共計94個區,每個區含94個位,共8836個碼位
01-09區收錄除漢字外的682個字元
10-15區為空白區,沒有使用
16-55區收錄3755個一級漢字,按拼音排序
56-89區收錄3008個二級漢字,按部首/筆畫排序
88-94區為空白區,沒有使用
比如:侃字碼位5709
經過運算侃字的gb2312碼為0xd90xa9
gb2312高位和低位都大於127
gb2312仍然遺漏了很多漢字,因此不再規定低位大於127,高位大於127,變為gbk編碼,新增近20000個漢字和符號
新增幾千少數民族字元
把世界所有字元都放在一起,並編號
最初採用ucs-2字符集,可表示2^16個字元
ucs-4字符集,可表示2^32個字元,需要儲存空間較大,很長時間沒有被各國接受
每次傳輸8位資料,並且是一種可變長的編碼格式。
具體將ucs-4字符集碼位劃分為4個區間
ucs-4區間
utf-8碼位
0x0000 0000-0x0000 007f
0******x
0x0000 0080-0x0000 07ff
110***xx 10******
0x0000 0800-0x0000 ffff
1110***x 10****** 10******
0x0001 0000-0x0010 ffff
11110*** 10****** 10****** 10******
is 編碼與解碼
is 和 主要是數字和字串的比較 1 區別 比較的是兩邊的值 is比較的是兩邊值的id id獲取的方法 id 2 小資料池 5 256 3 字串中特殊字元有id不同 4 字串中單個字元 20以內,記憶體位址是一樣的 21以上記憶體位址不一致 編碼與解碼 1 encode a 把明文編譯成a格式 de...
Huffman編碼與解碼
近期學習資料結構碰到huffman編碼與解碼問題,自己動手寫了一些,注釋比較全,ok,下面直接貼 include include define telemtype char define wtype int define leafnumber 5 預設權重集合大小 define totalnumbe...
HTML編碼與解碼
由於html是一種由符號標記的語言,所以該語言占用了一些表示的符號。而頁面隨時需要表示這些符號,所以html將一些被占用的符號或一些特殊功能的符號使用了一些特殊的方法標記,以便展示。這些方法就是html編碼。html 中的預留字元必須被替換為字元實體。如 在 html 中不能使用小於號 和大於號 這...