有如下內容:
text =
'測試學習正則
'
使用正則 匹配出所有的中文。
p = re.
compile
(r'([^x00-xff]*)\<\/div\>'
)for m in p.finditer(text)
:print
(m.group(1)
)
# 列印結果:
測試學習正則
這樣就是比較的簡單,直接是 匹配ascii
碼大於255
的那些字元(包括中文符號)
。
res = re.findall(u"[\u4e00-\u9fa5]+"
,str
(text)
)print
(res)
# 列印結果:
['測試'
,'學習正則'
]
\u4e00-\u9fa5
是unicode
編碼的中文編碼範圍,用它來匹配中文也是非常的合適。
還可以在新增一些優化,使得可以匹配出中文的字元。
text =
'測試,。、【】、
學習正則
'res = re.findall(u"[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]+"
,str
(text)
print
(res)
# 列印結果:
['測試,。、【】、'
,'學習正則'
]
# 一般標點
# cjk符號和標點
# cjk統一表意文字
# 半寬全寬形狀
"[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]*"
;
php 正則匹配出a標籤級a標籤中的內容
header content type text html charset utf 8 str file get contents 拿出網頁中所有 a 標籤放到陣列 reg1 a aarray 這個存放的就是正則匹配出來的所有 a 標籤陣列 preg match all reg1,str,aarra...
emv中的 部分匹配 Python中的正規表示式
在python中,我們有 re 模組,我們需要在開始之前匯入它。import re 正規表示式的主要用途 匹配字串 替換字串的一部分 搜尋字串 將字串拆解成子字串 正規表示式的方法 w 匹配字母數字字元 a z,a z,0 9 w 匹配非字母數字字元 d 匹配數字 0 9 d 匹配所有非數字 s 匹...
PHP 正則匹配a標籤
php匹配固定class鏈結的a標籤 使用修飾詞大寫的u轉換為非貪婪模式 要不然會從文中的第乙個a標籤的開頭 匹配到最後乙個a標籤的結尾 c u 還可以直接使用非貪婪的正則.c 這個a標籤不要匹配 asdad str aaa bbbccc c u preg match all c,str,match...