特殊字元的html編碼轉化

採集的資料中，原來是日文的"ブリーチ, burīchi",html**中是ブリーチ, burīchi，這樣做有個好處，網頁就不一定要像utf-8這樣的編碼，但是想要原來的文字，php轉半天過不來,後來發現是未指定編碼集，用

html_entity_decode

("ブリーチ, burīchi"

,ent_noquotes,'

utf-8')

就可以了。

其實，原理也很簡單，這個是模擬這個函式的功能,php4的話，就一定要用了

function

unhtmlentities(

$string

) function

uchr (

$codes

) unhtmlentities(

"ブリーチ, burīchi"

)；用.net實現下編碼

byte bcomments

=encoding.utf8.getbytes(

"一ンブル????中文");

char

ccomments

=encoding.utf8.getchars(bcomments);

stringbuilder charbuilder

=new

stringbuilder();

foreach

(char

c in

ccomments)

else

這段**的作用是將所有的中文、韓文、日文字元通過硬編碼輸出成為html實體。而html實體是不受responseencoding和頁面編碼集影響的。

說明：\u0800 以上的為中、韓、日字元。

中文的範圍：\u4e00 - \u9fa5，日文在\u0800 - \u4e00，韓文為\u9fa5以上。

HTML特殊字元編碼對照表

字元十進位制字元編號實體名字驚嘆號exclamation mark 雙引號quotation mark 數字標誌number sign 美元標誌dollar sign 百分號percent sign ampersand 單引號apostrophe 小括號左邊部分left parenthesis...

字元編碼轉化

ansi c定義了統一的編碼轉化函式setlocale,mbstowcs,wcstombs，但這些函式在win32平台上實現了，卻未在linux平台上實現，在linux平台上實現編碼轉化需要呼叫iconv open,iconv,iconv close函式.win32平台自己提供了兩個編碼碼轉化函式m...

特殊字元編碼

編碼名稱補充普通空格符 u0020 backspace u0008 b水平製表符 u0009 t換行符 u000a n垂直製表符 u000b v換頁符 u000c f回車符 u000d r不換行空格 u00a0 相當與看上去和空格一樣，但是在html中不自動換行，曾在從word拷貝出來的文字中...

特殊字元的html編碼轉化

HTML特殊字元編碼對照表

字元編碼轉化

特殊字元編碼

相關推薦