看到網上不少地方傳輸中文的時候用的是類似/u4e2d/u56fd的字元,就是unicode編碼的字元,想知道具體什麼內容,又不容易看出來,所以想把這個字符集解碼為正常的字元。
開始我通過encoding轉換編碼格式,發現行不通,怎麼都不能正常解開,然後在網上淘了些類似的解碼方案,有可行的,不過我發現寫的有點麻煩,而且如果我成批的unicode字元就無法直接輸出了,然後我看呀看呀看,終於,我發現了char類的兩個方法:乙個是char.convertfromutf32,注釋說:將指定的unicode碼位轉換為utf-16編碼字串,這不就是解碼的嗎;還有乙個是char.converttoutf32,注釋說:該方法是將字串中指定位置的utf-16編碼字元轉換為unicode碼位,哈,其實就是把普通的字元轉換為unicode字符集。
好了,有了這兩個方法就可以編碼或解碼了,現在開啟vs新建winform應用程式(c#語言),窗體介面如下:
上面的文字框中輸入的是unicode字符集,下面輸入的是正常的字串,最後可以批量相互轉換。
最終效果如圖:
好了,問題終於解決了,旨在給有相同困惑的朋友帶來幫助。、/// /// 把unicode解碼為普通文字
///
/// 要解碼的unicode字符集
/// 解碼後的字串
private string converttogb(string unicodestring)
, stringsplitoptions.none);
string result = string.empty;
for(int i = 0; i < strarray.length;i++ )
for(int j = strarray[i].length > 4 ? 4 : strarray[i].length; j >= 2; j--) catch }}
return result;
} /// /// 把漢字字元轉碼為unicode字符集
///
/// 要轉碼的字元
/// 轉碼後的字元
private string converttounicode(string strgb)
return result;
}
Unicode字符集和多字符集
由於各國語言的加入,ascii已經不能滿足資訊交流的需要,因此,為了能夠表示其它國家的文字,各國在ascii的基礎上制定了自己的字符集,它們正式的名稱應該是mbcs multi byte chactacter system,即多位元組字元系統 型別說明 unicode ansi 通用型別 字元wch...
雜記 Unicode字符集
unicode是字符集,但是微軟在windows上把unicode視為utf 16,即乙個字元佔2個位元組16位。utf 16是unicode的一種編碼規則,與此同時還有utf 8 utf 32。utf 8將一些字元編碼為1個位元組,一些字元編碼為2個位元組,一些字元編碼為3個位元組,一些字元編碼為...
Unicode字符集詳解
一句來自 三國 中的話 分久必合合久必分,各個字符集之間也存在的分久必合的現象。隨著國際標準iso10646規定的通用字符集 ucs,全稱universal mutiple octet doded character set 的發布,各種字符集之間不統一和諧的問題就得到了改觀。utf編碼,全稱是un...