html和url中對於ascii碼中大於0x7f的字元需要進行編碼,主要有」\u」和「」兩種字首編碼方式,其後跟的字元都是unicode編碼。
《unicode escape formats》中對各中編碼進行了介紹,比較全面
字首的unicode編碼屬於ncr規範,參見
「」開頭的是ncr中的十六進製制格式,裡面的字母常見為小寫,但也可以大小寫混用。
下面是我寫的乙個實現,配合linux系統的iconv函式,可以方便的將unicode轉換為各種網頁編碼。
int uni2ascii(const
char* fmt,const
char* src, const
int srclen, char* dst, const
int dstsize)
else
i+=2;
}return j;
}int main()
uni2ascii(fmt,src_unicode,,,);
}
它的中文轉unicode工具生成「\u」字首碼;中文轉utf-8工具生成的是」」字首碼,即16進製制ncr。
url編碼較為簡單,只有utf-8和gb2312兩種,下面這篇文章講的很透徹,就不再贅述了。
關於java web中字元編碼和url編碼的理解
首先要區分字元編碼和 url編碼的區別,page 指令中指定的字元編碼是儲存頁面的時使用的編碼,url編碼是傳輸請求引數時候使用的編碼。字元編碼 web頁面本身的 page 指令中 content type text html charset gbk 指定的是生成頁面 即響應頁面也就是本頁面 的字元...
字元編碼和網頁檔案
1 字元編碼是怎麼回事?資訊是抽象的,而用來記錄資訊的資料是具體的。比如你腦子裡有個想法,這個想法就是個抽象的東西。雖然它得得確確是存在的,但如果你不把它表達出來,那它事實上等於沒有。怎麼表達呢?說話或寫字,可以用漢語 英語 日語。在c 中,string就是資訊,抽像的。string本身是沒有編碼的...
url編碼的字元對應表
http localhost 8080 chess register?name zhang 20san address hunan age 23url編碼的字元對應表 這些名稱 值對必須符合url編碼,也就是說一些特殊的字元,如空格,問號,與號以及其他一些非字母字元 特別是中文 unicode編碼 ...