** ,我有刪減,只帖出常用的。原文有非常詳細的日文的。
utf8
code:
[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]|[\xf0-\xff][\x80-\xbf]
utf16
code:
[\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]
jiscode:
[\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]
sjis
code:
[\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])
euc_jp
code:
[\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xfe]
euc_jp標點符號及特殊字元
code:
[\xa1-\xa2][\xa0-\xfe]
euc_jp全形數字
code:
\xa3[\xb0-\xb9]
euc_jp全形大寫英文
code:
\xa3[\xc1-\xda]
euc_jp全形小寫英文
code:
\xa3[\xe1-\xfa]
euc_jp全形平假名
code:
\xa4[\xa1-\xf3]
euc_jp全形片假名 2007-03-12 15:00更新
code:
\xa3[\xb0-\xb9]|\xa3[\xc1-\xda]|\xa5[\xa1-\xf6][\xa3][\xb0-\xfa]|[\xa1][\xbc-\xbe]|[\xa1][\xdd]
euc_jp全形漢字 2007-03-12 15:06更新
code:
[\xb0-\xcf][\xa0-\xd3]|[\xd0-\xf4][\xa0-\xfe]|[\xb0-\xf3][\xa1-\xfe]|[\xf4][\xa1-\xa6]|[\xa4][\xa1-\xf3]|[\xa5][\xa1-\xf6]|[\xa1][\xbc-\xbe]
big5
code:
[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])
gbkcode:
[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]
gb2312漢字
code:
[\xb0-\xf7][\xa0-\xfe]
gb2312半形標點符號及特殊符號
code:
\xa1[\xa2-\xfe]
gb2312羅馬陣列及專案序號
code:
\xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])
gb2312全形標點及全形字母
code:
\xa3[\xa1-\xfe]
gb2312日文平假名
code:
\xa4[\xa1-\xf3]
gb2312日文片假名
code:
\xa5[\xa1-\xf6]
補充:gb18030
code:
[\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]
字符集 字元編碼總結
字符集 charset 是乙個系統支援的所有抽象字元的集合。字元是各種文字和符號的總稱,包括各國家文字 標點符號 圖形符號 數字等。字元編碼 是一套規則,將字元和二進位制資料建立對映關係。1 ascll american standard code for information interchan...
正規表示式中對各字符集編碼範圍的總結
字符集 日文字符集的各種字 標點以及特殊符號 utf8 x01 x7f xc0 xdf x80 xbf xe0 xef x80 xbf xf0 xff x80 xbf utf16 x00 xd7 xe0 xff xd8 xdf x00 xff jis x20 x7e x21 x5f x21 x7e ...
字符集 編碼
字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...