正規表示式中對各字符集編碼範圍的總結

2021-08-24 22:45:30 字數 2031 閱讀 6809

字符集 日文字符集的各種字、標點以及特殊符號

utf8

[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]|[\xf0-\xff][\x80-\xbf]

utf16

[\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]

jis[\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]

sjis

[\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])

euc_jp

[\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xfe]

euc_jp標點符號及特殊字元

[\xa1-\xa2][\xa0-\xfe]

euc_jp全形數字

\xa3[\xb0-\xb9]

euc_jp全形大寫英文

\xa3[\xc1-\xda]

euc_jp全形小寫英文

\xa3[\xe1-\xfa]

euc_jp全形平假名

\xa4[\xa1-\xf3]

euc_jp全形片假名

\xa3[\xb0-\xb9]|\xa3[\xc1-\xda]|\xa5[\xa1-\xf6][\xa3][\xb0-\xfa]|[\xa1][\xbc-\xbe]|[\xa1][\xdd]

euc_jp全形漢字

[\xb0-\xcf][\xa0-\xd3]|[\xd0-\xf4][\xa0-\xfe]|[\xb0-\xf3][\xa1-\xfe]|[\xf4][\xa1-\xa6]|[\xa4][\xa1-\xf3]|[\xa5][\xa1-\xf6]|[\xa1][\xbc-\xbe]

big5

[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])

gbk[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]

gb2312漢字

[\xb0-\xf7][\xa0-\xfe]

gb2312半形標點符號及特殊符號

\xa1[\xa2-\xfe]

gb2312羅馬陣列及專案序號

\xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])

gb2312全形標點及全形字母

\xa3[\xa1-\xfe]

gb2312日文平假名

\xa4[\xa1-\xf3]

gb2312日文片假名

\xa5[\xa1-\xf6]

gb18030

[\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]

[color=red]2007-03-12 21:35 補充[/color]

日文半形空格

\x20

sjis全形空格

(?:\x81\x81)

sjis全形數字

(?:\x82[\x4f-\x58])

sjis全形大寫英文

(?:\x82[\x60-\x79])

sjis全形小寫英文

(?:\x82[\x81-\x9a])

sjis全形平假名

(?:\x82[\x9f-\xf1])

sjis全形平假名擴充套件

(?:\x82[\x9f-\xf1]|\x81[\x4a\x4b\x54\x55])

sjis全形片假名

(?:\x83[\x40-\x96])

sjis全形片假名擴充套件

(?:\x83[\x40-\x96]|\x81[\x45\x5b\x52\x53])

euc_jp全形空格

(?:\xa1\xa1)

euc半形片假名

(?:\x8e[\xa6-\xdf])

正規表示式中對各字符集編碼範圍的總結 不一定準確

正規表示式中對各字符集編碼範圍的總結 這些字符集尤其是日文字符集的各種字 標點以及特殊符號的時候有所幫助。utf8 x01 x7f xc0 xdf x80 xbf xe0 xef x80 xbf xf0 xff x80 xbf utf16 x00 xd7 xe0 xff xd8 xdf x00 xf...

各字符集編碼範圍總結

我有刪減,只帖出常用的。原文有非常詳細的日文的。utf8 code x01 x7f xc0 xdf x80 xbf xe0 xef x80 xbf xf0 xff x80 xbf utf16 code x00 xd7 xe0 xff xd8 xdf x00 xff jiscode x20 x7e x...

grep正規表示式元字符集

grep正規表示式元字符集 基本集 錨定行的開始 如 grep 匹配所有以grep開頭的行。錨定行的結束 如 grep 匹配所有以grep結尾的行。匹配乙個非換行符的字元 如 gr.p 匹配gr後接乙個任意字元,然後是p。匹配零個或多個先前字元 如 grep 匹配所有乙個或多個空格後緊跟grep的行...