採集的資料中,原來是日文的"ブリーチ, burīchi",html**中是ブリーチ, burīchi,這樣做有個好處,網頁就不一定要像utf-8這樣的編碼,但是想要原來的文字,php轉半天過不來,後來發現是未指定編碼集,用
html_entity_decode
("ブリーチ, burīchi"
,ent_noquotes,'
utf-8')
就可以了。
其實,原理也很簡單,這個是模擬這個函式的功能,php4的話,就一定要用了
function
unhtmlentities(
$string
) function
uchr (
$codes
) unhtmlentities(
"ブリーチ, burīchi"
);用.net實現下編碼
byte bcomments
=encoding.utf8.getbytes(
"一ンブル????中文");
char
ccomments
=encoding.utf8.getchars(bcomments);
stringbuilder charbuilder
=new
stringbuilder();
foreach
(char
c in
ccomments)
else
這段**的作用是將所有的中文、韓文、日文字元通過硬編碼輸出成為html實體。而html實體是不受responseencoding和頁面編碼集影響的。
說明:\u0800 以上的為中、韓、日字元。
中文的範圍:\u4e00 - \u9fa5,日文在\u0800 - \u4e00,韓文為\u9fa5以上。
HTML特殊字元編碼對照表
字元 十進位制字元編號 實體名字 驚嘆號exclamation mark 雙引號quotation mark 數字標誌number sign 美元標誌dollar sign 百分號percent sign ampersand 單引號apostrophe 小括號左邊部分left parenthesis...
字元編碼轉化
ansi c定義了統一的編碼轉化函式setlocale,mbstowcs,wcstombs,但這些函式在win32平台上實現了,卻未在linux平台上實現,在linux平台上實現編碼轉化需要呼叫iconv open,iconv,iconv close函式.win32平台自己提供了兩個編碼碼轉化函式m...
特殊字元編碼
編碼 名稱補充 普通空格符 u0020 backspace u0008 b水平製表符 u0009 t換行符 u000a n垂直製表符 u000b v換頁符 u000c f回車符 u000d r不換行空格 u00a0 相當與 看上去和空格一樣,但是在html中不自動換行,曾在從word拷貝出來的文字中...