附錄:iso8859 不是乙個標準,而是一系列的標準,這套字符集與編碼系統的共同特色是,以同樣的碼位對應不同字符集。其基本精神是:
1.與 ascii 相容,所以所有的低位皆不使用。
2.高位中的前 32 個碼位 (0x80 -- 0x9f 或 128--159),保留給擴充定義的 32 個控制碼,稱為 c1 控制碼 (0--31 稱為 c0 控制碼)。
3.高位中第 33 個碼位 (0xa0 或 160),也就是對應 ascii 中 sp (空格) 的碼位,總是代表 non-breakable space,也就是不准許折行的空格。
4.每個字符集定義至多 95 個字元,其碼位都在 0xa1 -- 0xff 或 161--255。
5.每個字符集收錄歐洲某地區的共同常用字元。
iso8859-1 字符集,也就是 latin-1,是西歐常用字元,包括德法兩國的字母。
iso8859-2 字符集,也稱為 latin-2,收集了東歐字元。
iso8859-3 字符集,也稱為 latin-3,收集了南歐字元。
iso8859-4 字符集,也稱為 latin-4,收集了北歐字元。
iso8859-5 字符集,也稱為 cyrillic,收集了斯拉夫語系字元。
iso8859-6 字符集,也稱為 arabic,收集了阿拉伯語系字元。
iso8859-7 字符集,也稱為 greek,收集了希臘字元。
iso8859-8 字符集,也稱為 hebrew,收集了西伯萊 (猶太人) 字元。
iso8859-9 字符集,也稱為 latin-5 或 turkish,收集了土耳其字元。
iso8859-10 字符集,也稱為 latin-6 或 nordic,收集了北歐 (主要指斯堪地那維亞半島) 的字元。
iso8859-11 字符集,也稱為 thai,它是從泰國的 tis620 標準字符集演化而來。
目前尚未定義 iso8859-12 字符集。
iso8859-13 字符集,也稱為 latin-7,主要函蓋波羅的海 (baltic) 諸國的文字元號,也補充一些在 latin-6 中遺漏的拉托維亞 (latvian) 字元。
iso8859-14 字符集,也稱為 latin-8,它將 latin-1 中的某些符號換成塞爾特語 (celtic) 的字元。塞爾特族是指英倫外圍的威爾斯人 (welsh) 和蓋爾人 (gaelic)。
iso8859-15 字符集,也稱為 latin-9,或者被匿稱為 latin-0,它將 latin-1 中較少用到的符號刪除,換成當初遺漏的法文和芬蘭字母;還有,把英鎊和日元之間的金錢符號,換成了歐盟貨幣符號。
以下是 c1 控制碼的號碼和名稱。
hex dec 功能
80 128 padding character
81 129 high octet preset
82 130 break permitted here
83 131 no break here
84 132 index
85 133 next line
86 134 start of selected area
87 135 end of selected area
88 136 character tabulation set
89 137 character tabulation with justification
8a 138 line tabulation set
8b 139 partial line forward
8c 140 partial line backward
8d 141 reverse line feed
8e 142 single-shift two
8f 143 single-shift three
90 144 device control string
91 145 private use one
92 146 private use two
93 147 set transmit state
94 148 cancel character
95 149 message waiting
96 150 start of guarded area
97 151 end of guarded area
98 152 start of string
99 153 single graphic character introducer
9a 154 single character introducer
9b 155 control sequence introducer
9c 156 string terminator
9d 157 operating system command
9e 158 privacy message
ubuntu gedit顯示中文亂碼
本文適用於 ubuntu 使用者,而不適用於 kubuntu xubuntu 使用者。9.10預設有了,排第二個 預設配置下,用 ubuntu 的文字編輯器 gedit 開啟 gb18030 gbk gb2312 等型別的中文編碼文字檔案時,將會出現亂碼。出現這種情況的原因是,gedit 使用乙個編...
Ubuntu gedit 中文亂碼問題 秒解
在中文支援配置還不完整的ubuntu 14.04中,使用gedit開啟帶有中文字元的檔案有時會出現亂碼的情況,這是由於gedit對字元編碼匹配不正確導致的,解決方法如下 在終端中輸入如下命令,然後重新開啟gedit即可 gsettings set org.gnome.gedit.preference...
Ubuntu Gedit中文亂碼問題解決辦法
預設配置下,用 ubuntu 的文字編輯器 gedit 開啟gb18030 正體中文使用者請將這裡的出現的gb18030替換成big5或big5 hkscs 型別的中文編碼文字檔案時,將會出現亂碼。出現這種情況的原因是,gedit 使用乙個編碼匹配列表,只有在這個列表中的編碼才會進行匹配,不在這個列...