一,ascii編碼。
1、在計算機中,所有的資料在儲存和運算時都要使用二進位制數表示。而具體用哪些二進位制數字表示哪個符號,當然每個人都可以約定自己的一套(這就叫編碼),而大家如果要想互相通訊而不造成混亂,那麼大家就必須使用相同的編碼規則。是用7位二進位制位表示的,範圍是:0000 0000 到 0111 1111。即表示從0~127,一共128個狀態,對應128個符號。一般都是用8位二進位制位表示ascii,最高位全部都預設為0。這樣就實現了現實生活中符號用計算機表示出來。ascii定義了128個字元,包括33個不可列印的控制字元(non-printing control characters)和95個可列印的字元。32以下的及最後乙個127是所謂的控制字元。(0x00~0x1f以及0x7f)。
2、由ascii表可以知道:數字 < 大寫字母 < 小寫字母。
3、字元與二進位制之間的一一對應關係如下:
一,latin1編碼。iso-8859-1編碼是單位元組編碼,向下相容ascii。其編碼範圍是0x00-0xff,0x00-0x7f之間完全和ascii一致,0x80-0x9f之間是控制字元,0xa0-0xff之間是文字元號。iso-8859-1又稱latin-1,是乙個8位單位元組字符集,它把ascii的最高位也利用起來,並相容了ascii,新增的理論空間是128,但它並沒有完全用完。可以看到,新增部分也保留了前面的32個位置(中間綠色部分,0x80-0x9f),與前面的ascii部分類似,所以實際只增加了128-32=96個,主要是西歐的一些字元,另外可以看到乘號(0xd7)和除號(0xf7)也被包含進來了。
一,unicode編碼。
一,uft-8編碼。按照unicode編碼,乙個字元對應的unicode碼使用的bit位數,則對應到utf-8的編碼。實際表示ascii字元的unicode字元,將會編碼成1個位元組,並且utf-8表示與ascii字元表示是一樣的。所有其他的unicode字元轉化成utf-8將需要至少2個位元組。每個位元組由乙個換碼序列開始。第乙個位元組由唯一的換碼序列,由n位連續的1加一位0組成, 首位元組連續的1的個數表示字元編碼所需的位元組數。
unicode轉換為utf-8時,可以將unicode二進位制從低位往高位取出二進位制數字,每次取6位,如上述的二進位制就可以分別取出為如下示例所示的格式,前面按格式填補,不足8位用0填補。
注:unicode轉換為utf-8需要的位元組數可以根據這個規則計算:如果unicode小於0x80(ascii字元),則轉換後為1個位元組。否則轉換後的位元組數為unicode二進位制位數減1再除以5。
一,utf16編碼。utf-16是unicode的其中乙個使用方式。因為unicode他是由2個byte組成的,但是大多數utf-16也是2個byte組成的,也有4個byte組成的,如:中國文字大部份是兩位元組,有的是四位元組。utf-16卻無法相容於ascii編碼。
1、unicode值小於0x10000的用等於該值的16位整數來表示。0x00 00 ~ 0xff ff 。
2、unicode值介於0x10000和0x10ffff之間的,即0x1 00 00 ~ 0x10 ff ff。用乙個值介於0xd800和0xdbff(在所謂的高8位區)的16位整數和值介於0xdc00和0xdfff(在所謂的低8位區)的16位整數來表示。
3、unicode值大於0x10ffff不能按照utf-16進行編碼。
一,utf32編碼。
Encoding編碼 詳情
編碼或者連續化處理是把分類變數轉火車數值副本的過程。譬如,處理性別時,男的定為1,女的定為0.分類變數在許多模型方法中 譬如,線性回歸,svm,神經網路 必須進行編碼。兩種主要的編碼型別是二進位制編碼和基於目標的編碼。通過用0或者1來表示每個類別不存在或者存在是分類變數量化的乙個方法。如果分類變數有...
HTML 字元實體詳情
在 html 中,某些字元是預留的。在 html 中不能使用小於號 和大於號 這是因為瀏覽器會誤認為它們是標籤。如果希望正確地顯示預留字元,我們必須在 html 源 中使用字元實體 character entities 字元實體類似這樣 entity name 或者 entity number 如需...
字元編碼 unicode編碼
1.ascii american standard code for information interchange 美國資訊交換標準 這是計算機上最早使用的通用的編碼方案。那個時候計算機還只是拉丁文本的專利,根本沒有想到現在計算機的發展勢頭,如果想到了,可能一開始就會使用unicode了。當時絕大...