編碼
名稱補充
普通空格符
\u0020
backspace
\u0008
\b水平製表符
\u0009
\t換行符
\u000a
\n垂直製表符
\u000b
\v換頁符
\u000c
\f回車符
\u000d
\r不換行空格
\u00a0
相當與 看上去和空格一樣,但是在html中不自動換行,曾在從word拷貝出來的文字中遇到
行分隔符
\u2028
段落分隔符
\u2029
位元組順序標記(零寬非連線符)
\ufeff
從左至右書寫標記
\u200e
從右至左書寫標記
\u200f
零寬連線符
\u200d
因為是零寬的,肉眼看不到,從網頁中拷貝出來的字元中會出現
另一種空格符
\u2006
看上去和空格一樣,但是編碼不同
特殊字元的html編碼轉化
採集的資料中,原來是日文的 bur chi html 中是 bur chi,這樣做有個好處,網頁就不一定要像utf 8這樣的編碼,但是想要原來的文字,php轉半天過不來,後來發現是未指定編碼集,用 html entity decode bur chi ent noquotes,utf 8 就可以了。...
1 使用字元編碼輸出特殊字元
通過字元碼來輸出特殊字元,字元碼可以在windows的字元對映表裡檢視,通過chr 函式解析字元編碼,再通過print 函式輸出出來。也可以用for迴圈連續輸出特殊符號,這幾個特殊符號的字元碼必須是連續的,否則for迴圈會列印出其他的特殊符號。例如 for i in range 10048,1005...
HTML特殊字元編碼對照表
字元 十進位制字元編號 實體名字 驚嘆號exclamation mark 雙引號quotation mark 數字標誌number sign 美元標誌dollar sign 百分號percent sign ampersand 單引號apostrophe 小括號左邊部分left parenthesis...