還記得以前在工作中,將爬來的其它**的資料導到xml。但是會遇到乙個問題:即網頁會有ascii的控制字元。 一開始以為是別人為了防止採集而加入的,然後發現乙個就往過濾表裡加乙個。直到慢慢發現,他們都是ascii表裡的字元。 找到原因了,就好解決了。
/*** 根據ascii碼過濾控制字元
* @param type $string
*/public static function special_filter($string)
else if($asc_code > 31 && $asc_code != 127)
} return trim($new_string);
}
Ascii控制字元
內建函式ord 和chr ord 27 chr 27 x1b 二進位制十進位制 十六進製制 縮寫可以顯示的表示法 名稱 意義 0000 0000000 nul 空字元 null 0000 0001101 soh 標題開始 0000 0010202 stx 本文開始 0000 0011303 etx ...
ASCII 非列印控制字元表
ascii 非列印控制字元表 十進位制字元 十進位制字元 0空16 資料鏈路轉意 1頭標開始 17裝置控制 1 2正文開始 18裝置控制 2 3正文結束 19裝置控制 3 4傳輸結束 20裝置控制 45查詢 21反確認6確認 22同步空閒7震鈴 23傳輸塊結束 8backspace 24取消 9水平...
ASCII 可列印字元與控制字元
2017 08 16 21 29 30 基本的 ascii 字符集共有 128 個字元,其中有 95 個可列印字元,包括常用的字母 數字 標點符號等,另外還有 33 個控制字元。標準 ascii 碼使用 7 個二進位對字元進行編碼,對應的 iso 標準為 iso646 標準。在ascii碼中,第0 ...